基于前后文n_gram模型的古汉语句子切分

发布时间:2021-06-07

计 算 机 工 程 第 33 卷 第3期

Vol.33 No.3 Computer Engineering · 人工智能及识别技术 ·

文章编号:1000—3428(2007)03—0192—02

文献标识码:A

2007年2月

February2007

中图分类号:TP39

基于前后文n-gram模型的古汉语句子切分

陈天莹1,陈 蓉1,潘璐璐1,李红军1,2,于中华1

(1. 四川大学计算机学院,成都610064;2. 西南科技大学计算机学院,绵阳 621002)

摘 要:提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算法进行了句子切分实验,达到了81%的召回率和52%的准确率。

关键词:n-gram模型;数据稀疏;平滑技术;基于前后文的n-gram模型

Archaic Chinese Punctuating Sentences Based on

Context N-gram Model

CHEN Tianying 1, CHEN Rong1, PAN Lulu1, LI Hongjun1,2, YU Zhonghua1

(1. Dept. of Computer Science, Sichuan University, Chengdu 610064;

2. Dept. of Computer Science, Southwest University of Science and Technology, Mianyang 621002)

【Abstract】An algorithm of punctuating the sentences in archaic Chinese language based on context n-gram model is proposed in the paper. Thealgorithm can make comparatively accurate prediction of the punctuating-positions of the text under data-sparse instances by collecting andcalculating context information to better analyze small-scaled corpus and meanwhile, to bring down the effects of the data-sparse plight on the globalaccuracy. At last, the paper selects the analects of Confucius( Lunyu ) to test the algorithm introduced, and the results show that the recall and theprecision achieve 81% and 52% respectively.

【Key words】N-gram model; Data sparse; Smoothing technology; N-gram model based on context

中国几千年的文明历史形成了浩如烟海的历史典籍。如

何借助现代化的手段对这些历史典籍进行有效的挖掘,对于继承发展我国古代灿烂的历史文化具有重要意义。作为古代书面语的重要形式,古汉语的分析理解是历史典籍挖掘的关键和基础。本文针对古汉语句子中缺少句读的问题,研究并提出了句子自动切分(自动加句读)的算法,并在《论语》上验证了算法的有效性。

1 问题特点、难点及相关工作

本文要解决的问题是设计算法对无标点的古汉语文本进行句子切分,确定句读的位置,包括逗号、冒号、感叹号、问号、句号和顿号等。很显然,上述问题与句子边界识别完全不同,句子边界识别是识别作为句子边界的句号,其实质是对自然语言文本中出现的句号(如汉语的“。”和英语的“.”)

[1,2]

根据前后文进行消歧。

古汉语句子切分问题不是一个平凡问题,其难点主要体现在以下几个方面:

(1)古汉语具有句子简洁精练的特点,单字成词的现象比较普遍。

如:

1)子曰:“邦有道,谷;邦无道,谷,耻也。” 2)“克、伐、怨、欲不行焉,可以为仁矣?” 3)子曰:“先之,劳之。”请益。曰:“无倦。”

有的文本数量少,很难获取训练统计模型所需要的足够样本,因此,对于古汉语句子切分来说,数据稀疏问题更加严重。

(3)古汉语中字和词的界限模糊,很难进行词的切分,无法利用单词一级的特征进行句读位置的预测,只能利用有关字或者字串方面的信息来进行决策。

目前,人们在英语和现代汉语句子边界识别方面进行了大量的研究工作,提出了一系列基于规则和基于统计的识别算法,达到了99%左右的准确率。但是对于古汉语句子的自动切分,还未见相关的研究报告。本文设计并实现了一个基

提出了有效的于前后文n-gram模型的古汉语句子切分算法,

解决数据稀疏问题的平滑技术,在《论语》上的实验结果达到了81%的召回率和52%的准确率。

2 基于前后文n-gram模型的古汉语句子切分算法

n-gram(n元语法)是自然语言统计建模的重要工具,在单词和字母预测等方面获得了广泛的应用。但是,传统的n-gram

[5]

模型在应用于古汉语句子切分时会面临数据稀疏的严重问题。针对古汉语句子切分所面临的数据严重稀疏的问题,本文设计并实现了一个基于前后文n-gram模型的切分算法,实验结果表明,新算法不但优于经典的n-gram模型,而且优于

基金项目:国家自然科学基金资助项目(60073046);高等学校博士学科点专项科研基金“SRFDP”资助项目(20020610007)

作者简介:陈天莹(1982-),女,硕士生,主研方向:自然语言处理,自动推理及智能软件设计;陈 蓉,工程师;潘璐璐,硕士生; 李红军,在职硕士生、讲师;于中华,博士、副教授

收稿日期:2006-03-13 E-mail:yuzhonghua@

古汉语的简洁精炼使预测句读位置所依赖的局部前后文

信息变少,这增加了句子切分的难度。

(2)古汉语文体繁杂,如《论语》、《道德经》、《韩非子》、《诗经》等,每一种文体都有自己独特的风格,且具 ——192

基于前后文n_gram模型的古汉语句子切分.doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219