基于特征点的汉字字体识别研究

时间:2025-04-21

基于特征点的汉字字体识别研究

第30卷第2期 电 子 与 信 息 学 报 Vol.30No.2 2008年2月 Journal of Electronics & Information Technology Feb. 2008

基于特征点的汉字字体识别研究

王 恺 靳简明 史广顺 王庆人

(南开大学机器智能研究所 天津 300071)

(NEC中国研究院 北京 100084)

摘 要:该文提出了整体分析法和个体分析法的概念,并在分析它们各自适用范围的基础上,指出个体分析法更适合于解决印刷体汉字字体识别。在此基础上,提出一种基于特征点的个体分析法来解决汉字字体识别问题,与以往方法相比,该方法具有3个优点:识别可信度可控;处理速度快;适用于多语混排情况。实验结果表明,该方法有效解决了印刷体汉字字体识别问题,其性能大大优于以往方法。 关键词:字体识别;光学字符识别;特征点

中图分类号:TP391.43 文献标识码:A 文章编号:1009-5896(2008)02-0272-05

Chinese Font Recognition Based on Feature Point

Wang Kai Jin Jian-ming Shi Guang-shun Wang Qing-ren

(Institute of Machine Intelligence, Nankai University, Tianjin 300071, China)

(NEC Laboratories, Beijing 100084, China)

Abstract: Global analysis method and individual analysis method are proposed in this paper. By analyzing their traits, it is concluded that individual analysis method is more suitable for machine-printed Chinese font recognition. A feature point based individual analysis method is proposed to resolve Chinese font recognition problem. Compared with previous methods, there are mainly three advantages: The recognition reliability is controllable; the processing speed is fast; it is suitable for multi-lingual document image processing. Experimental results show that the proposed method is more effective than previous methods.

Key words: Font recognition; Optical character recognition (OCR); Feature point

1 引言

我国自70年代末80年代初开始进行汉字识别方面的研究工作,经过二十多年来的努力,成熟的中文OCR软件已经应用于实际中,为中文书籍的电子化做出了巨大贡献。然而,在中文OCR中还存在一些亟待解决的问题:一方面,现有的中文OCR系统往往将所有字体混合识别,随着待识别字体的增多,必然会造成误识率的上升和识别速度的下降;另一方面,复杂版面的恢复,实现文档的所见即所得。这两方面都涉及到了字体识别问题:在中文OCR系统中加入字体识别模块,根据字体识别结果将图像送入相应字体的字符识别器中,这可以很好地解决上述第一个问题;字体信息是版面恢复的内容之一,正确的字体信息有助于提高版面恢复的精度。

然而,汉字字体识别这一研究课题尚未引起学者们的足够重视,仅有少数文章进行过这方面的研究工作。本文认为,以往关于汉字字体识别的研究工作可以分为两类:整体分析法和个体分析法。

(1)整体分析法 在整体分析法中,以整块文字区域图像

作为处理对象,经过频域变换获取到用于字体分类的特征。当前,采用这种方法的研究工作较多。比如,文献[1]基于多尺度非冗余小波纹理分析抽取字体分类特征;文献[2]利用Gabor滤波器提取文字区域的全局纹理特征作为字体分类特征;文献[3]利用小波包对文字区域图像作多级分解,提取用于字体分类的纹理特征;文献[4]和文献[5]基于经验模式分解从文字区域图像中抽取用于字体分类的特征。

(2)个体分析法 在个体分析法中,以单个汉字的字符图像作为处理对象。比如,文献[6]对单个汉字的字符图像进行小波分解,并在变换图像上提取小波特征,该方法在不知道汉字内容的前提下,识别单个汉字的字体。

一般来说,整体分析法不需要切分出单独的字符图像,非常适用于难以进行字符切分的情况。然而,印刷体汉字的切分并不困难[7],整体分析法的这一优势在汉字字体识别中无法体现。此外,与个体分析法相比较,采用整体分析法进行印刷体汉字的字体识别,还存在以下两点不足之处:(1)从统计学的角度来说,个体分析法可以通过多个汉字投票表决来确定字体,并且随着参与字体识别的个体数目的增多,其分类可信度能够持续上升;而整体分析法的分类可信度则很难提升。(2)文献[1–5]均未考虑中文文档中夹杂着英文的情

2006-07-31收到,2007-05-07改回

基于特征点的汉字字体识别研究

第2期 王 恺等:基于特征点的汉字字体识别研究 273 况,实际上,随着全球一体化,多语文档的出现越来越普遍,文档中其它语种的存在必然会对整体分析法的性能造成很大的负面影响。

因此,对于汉字字体识别来说,个体分析法更为适用。目前,仅有文献[6]采用个体分析法,但文献[6]中的方法也存在一些问题:(1)在未知汉字内容的情况下识别字体,认为每个汉字对字体识别所起的作用是确定性的;而实际上,不同字体中不同汉字的相似度不同,对字体识别所起的作用大小也必然是随机变化的。不认识到这一点,难以构造出一个具有高稳定性的汉字字体识别器。(2)对每一个汉字图像都通过小 …… 此处隐藏:7749字,全部文档内容请下载后查看。喜欢就下载吧 ……

基于特征点的汉字字体识别研究.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219