基于条件随机场的中文人名性别识别研究
时间:2025-05-14
时间:2025-05-14
基于条件随机场的中文人名性别识别研究
赵晓凡,牛承志2,刘永革1 1
(1.安阳师范学院计算机与信息工程学院,河南 安阳 455002;
2.郑州大学第一附属医院信息科,河南 郑州 455000)
E-mail:
摘 要:中国人名性别的自动识别可以应用在自然语言处理领域,是命名实体识别的一个具体应用。文章根据人名的结构和用字信息,构建人名标注集,选择6组特征模板集,利用条件随机场进行模型训练,在231337个人名数据库中经过封闭测试,正确率可以达到90%以上。实验证明:在人名库中识别性别,名字用字的作用要高于姓氏用字,且从机器学习的角度来说性别差异可以体现在人名用字中。
关键字:性别识别;中文人名要素;命名实体识别;特征选择;条件随机场 中图分类号:TP391 文献标识码:A
CRFs-based approach to gender recognition of Chinese name
ZHAO Xiao-fan, NIU Cheng-zhi2, LIU Yong-ge1 1
(1.School of Computer and Information Engineering, Anyang Normal University, Anyang Henan 455002; 2.The Information Department of the First Affiliated Hospital of Zhengzhou University,Zhengzhou 455000)
E-mail:
Abstract: Gender recognition of person name can be used in natural language processing which is a specific application of Named Entity Recognition. Gender recognition method makes use of the structure and vocabulary information of Chinese personal name. The experiment on the basis of CRFs is designed by constructing person name annotation set and selecting suitable feature model using NLP technology. Through the closed test on 231337 person names 90.08% accuracy is got. The experiment proves that the effect of the lastname in gender recognition is higher to the role of the firstname and gender differences can be found from the names based on machine learning Key words: gender recognition; Chinese name element; Named Entity Recognition; feature selection; conditional random fields
0 引言
目前命名实体识别(Named Entity Recognition,NER)仍然是中文信息处理的难点和热点,对未登录词的处理,其结果往往很难满足需求。人名的出现是影响未登录词识别正确率的关键。在《人民日报》1998年1月的语料库(共计2 305 896字)中,平均每100个字包含未登录词1.192个(不计数词、时间词),其中61.34%的未登录词是人名。
人名作为一个符号,对单个的个体应该具有很高的辨识度。按照日常生活的经验和人们的习惯,起名用字往往与性别相关。文献[5]对 7 万中国人名的 90 个常用尾字进行非参数基金项目:由国家自然科学基金(60875081)河南省教育厅高等学校青年骨干教师项目(2009GGJS-108)支持。
作者简介:赵晓凡 (1981-),女,河南安阳人,讲师,硕士,研究方向为自然语言处理,汉语分词,信息安全等。
检验后认为:男女人名用字有显著性别差异。本文是命名实体识别的一个应用,尝试用条件随机场(Conditional Random Fields)模型对人名用字的男女性别差异按照机器学习的方法进行训练,分析由人名自动识别性别的可能性与可行性。
1 条件随机场理论
CRF是一种无向图模型或者马尔可夫随机域,它采用一阶链式无向图结构计算给定观察值条件下输出状态的条件概率。如图1所示。
设O = {o1,o2,……,oT}表示被观察的输入字串序列,S = {s1,s2,……,sT}表示将被预测的词位标记序列,则在给定一个输入字串序列的情况下,对参数为Λ={λ1,λ2,…,λK}的线链CRFs,其输出的词位序列的条件概率为:
1 TK P (S|O) exp kfk(st 1,st,o,t) , (1) ZO t 1k 1
其中,ZO是归一化因子,定义为:
TK ZO exp kfk(st 1,st,o,t) 。 (2)
S t 1k 1
fk(st 1,st,o,t)是一个任意的特征函数,用于表达上下文可能的语言特征,通常是一个二值表征函数,表示如下:
1,如果满足条件fk(st 1,st,o,t) (3) 0,否则
k是一个需要被学习的参数,其对应于每一个特征函数的权值,取值范围可以是-∞到+∞。给定一个由公式(1)定义的条件随机场模型,对任意的输入字串,其最佳词位标记序列应满足公式(4):
S argmaxP (S|O), (4)
S
要求出使得P△(S|O)最大的标记序列S*,可以使用Viterbi算法进行计算。
2 中文人名标注
基于字标注的命名实体识别方法将词知识的学习转换成字串的标注过程,由于每个字在构造一个特定的词语时都占据一个构词位置,即字位,因此可以把识别过程看成是学习这个字位信息的机器学习过程,按字抽取特性,最后对每一个字进行分类识别。
中文姓名一般由姓氏和名字两部分构成,形式为“姓氏:名字”,即姓氏在前,名字在后,姓氏和名字一般分别由一个或两个字构成,组合之后可以得到四种形式:
(1)单姓单名: name=x1 w1 如:杨磊、王燕
(2)单姓双名: name=x1 w1 w2 如:郑爱霞、李秋生
(3)复姓单名: name=x1 x2 w1如:诸葛亮、上官路
(4)复姓双名: name=x1 x2 w1 w2 如:完颜宏帆、上官宝珍
文中使用的真实姓名只考虑以上四种情况,所以中国姓名最长由四个字构成,最短由两个字构成。采用B1、B2、I、E四个标注符号组块的方法来标识人名。即B1-人名中的第一个字,B2-人 …… 此处隐藏:3635字,全部文档内容请下载后查看。喜欢就下载吧 ……