论文摘要
20世纪90年代以来,互联网技术迅速发展,产生了各种应用。人物搜索引擎作为互联网技术应用的一部分,这两年刚刚兴起,还不成熟。各大公司建设人力资源库也需要对人才的简历信息进行结构化处理。本文研究了大规模真实文本中人物简历信息的提取方法和规则,并以人物的职衔信息的提取为研究对象,做了检验。1.本文对含人物简历信息的文本做了简单分析。将含人物简历信息的文本按照写作目的分为求职性简历和介绍性简历两类,按照结构化程度分为半结构化和非结构化简历两类,并对各自的特点做了相应分析。2.明确了提取任务是提取简历信息和以及简历信息所对应人名的实体对。3.提出了以简历信息短语的前接成分定界和以指示成分指向对应人名的抽取方法。4.编写了辅助标注软件。5.选取498篇文本作为封闭测试的训练语料库,从中标注了职衔、年龄和出生日期、性别、毕业院校、受处罚情况、家庭关系、享年和卒年、籍贯和出生地、所得荣誉、专业、学历、政治面目、作品、婚否、民族、宗教信仰共16项简历项,共计2341条简历信息对。其中,职衔信息是最丰富的,共1643条,约占总数的70.2%。6.我们以标注的语料为研究对象,从中训练出简历信息触发词列表、OC_P前接成分表、OC_P指示成分表、并列人名的提取规则四个部分的知识用于职衔信息对的抽取。7.编写程序,应用知识库中的规则实现自动提取。提取的准确率和召回率各为85.4%和87.2%。8.对职衔信息误提(共245对)和漏提(共210对)的结果进行考察,提出了进一步提高召回率和准确率的方案。本文以真实文本中所含的简历信息对为研究对象,提出了以简历信息的指示成分的类别直接定位人名的思路,本文的研究方法对其他实体对的抽取研究也有一定借鉴意义。
论文目录
相关论文文献
- [1].浅议如何有效实现真实文本的真实性[J]. 湖北函授大学学报 2010(06)
- [2].语言学习的真实性[J]. 安徽工业大学学报(社会科学版) 2008(06)
- [3].字母词语跟踪研究[J]. 语言文字应用 2009(01)
- [4].基于网络和真实文本的翻译教学研究[J]. 考试周刊 2016(09)
- [5].《黄石的孩子》:信息时代中跨国资本的中国题材[J]. 电影艺术 2008(04)
- [6].利用高频词和互信息面向特定领域提取多字词表达[J]. 太原理工大学学报 2009(03)
- [7].在实践中理解教师关怀——基于北京市石景山区教师叙事的个案分析[J]. 思想理论教育 2013(14)
- [8].非外语专业学生加强语言交际能力培养的文字选材问题[J]. 黑河学院学报 2011(02)
- [9].解决汉字难学的对策[J]. 国际汉语 2011(01)
- [10].真实文本在自主学习中的作用[J]. 沈阳教育学院学报 2010(06)
- [11].基于真实文本的[A_单+N(NP)]的句法受限机制和句法组合机制[J]. 语言文字应用 2008(04)
- [12].感悟真实文本 回归人文课堂——对小学语文情感教育的一点思考[J]. 语文天地 2015(27)
- [13].服务创新的特点与政策的非必要性[J]. 中国软科学 2010(12)
- [14].博物馆英译透视下的外宣翻译评价[J]. 英语广场 2020(14)
- [15].微软汉语拼音及自动字音转换问题初论[J]. 语文学刊(外语教育教学) 2016(08)
- [16].再探语义韵[J]. 当代外语研究 2020(02)
- [17].谈维语“bu/u”的显性回指功能[J]. 喀什师范学院学报 2011(04)