论文摘要
共指是自然语言篇章和对话中普遍存在的现象。共指使篇章主题更加突出,表述更加连贯与简洁;但它也给自然语言处理带来了不确定性。共指消解是消除这种指代形式带来的不确定性的过程。随着基于篇章真实文本处理需求的大量涌现,共指消解显示出了前所未有的重要性,成为自然语言处理领域的研究热点。本文旨在围绕汉语共指消解及相关命名实体识别任务,考察领域本体对其提供具体支持的方式与作用,并结合机器学习方法进行验证。本文研究侧重于方法论探索与实证分析相结合的路线,提出了一套基于领域本体结合机器学习模型的方法,主要工作如下:1.提出了一种构建领域本体的TPSU方法,该方法将本体构建分成两个阶段,六个处理层次。在具体生成本体过程中,提出了TMR三模型化准则,有效解决了单一树型上下位结构向多元网状关系结构的过渡问题,通过创建实例,丰富和完善了领域本体的知识结构。上述方法与原则具体直观,可以运用于其他同类本体构建,操作性强。2.构建了一个包含12类核心概念、78种属性特征、13种概念、属性关系、4,392条实例的移动电话领域本体MPO。目前尚无此类本体文库。MPO中大多数核心概念可以直接复用,具有推广和实用价值,有效发挥了本体知识可共享的特性。3.将命名实体分成常规实体和领域实体(DNE)两类。在领域命名实体识别(DNER)中,重点考察了领域本体对汉语命名实体识别的支持方式,提出了一种基于领域本体形式化实例获取词性规则模板的方法,结合统计机器学习模型有效实现了领域命名实体的识别,F值达到92.36%。对比实验也表明上述模板能够有效提高识别准确率且性能稳定,在领域实体边界和特殊形式实体识别中作用明显。4.探讨了领域本体对汉语共指消解的作用,提出了一种基于领域本体获取语义类特征的方法,通过特征的自动标注,获取作为候选先行语的名词短语的语义类特征,结合机器学习方法进行领域命名实体基础上的共指消解处理,F值达到86.49%。实验表明领域语义类特征有效提高了共指消解准确性指标,使F值最终提高了7.36%。5.针对目前汉语零形回指研究主要集中在语言学和心理学角度的现状,立足于本文现有成果,提出了一种包含三个具有实际操作性算法的汉语零形共指消解模型。在定义的共指片断内部,通过将零形代词先行语识别出来,填补到缺省位置,完成零形共指消解。
论文目录
相关论文文献
- [1].基于非线性全局上下文的词嵌入[J]. 中国科学:信息科学 2015(12)
- [2].共指消解研究方法综述[J]. 中文信息学报 2015(01)
- [3].一种基于谱聚类的共指消解方法[J]. 中文信息学报 2009(03)
- [4].集成多种背景语义知识的共指消解[J]. 中文信息学报 2009(03)
- [5].基于汉语框架语义的共指消解研究[J]. 计算机工程 2020(10)
- [6].基于特征分选策略的中文共指消解方法[J]. 计算机工程 2011(18)
- [7].面向共指事件识别的同义表述模式抽取研究[J]. 情报学报 2020(03)
- [8].信息安全领域内实体共指消解技术研究[J]. 通信学报 2020(02)
- [9].一种基于混合神经网络的命名实体识别与共指消解联合模型[J]. 电子学报 2020(03)
- [10].多种语义特征在突发事件新闻中的共指消解研究[J]. 中文信息学报 2014(01)
- [11].基于有监督关联聚类的中文共指消解[J]. 计算机科学 2009(09)
- [12].篇章中指代消解研究综述[J]. 武汉大学学报(理学版) 2014(01)
- [13].关联数据冲突消解方法研究[J]. 计算机技术与发展 2018(11)
标签:共指消解论文; 命名实体识别论文; 领域本体论文; 本体实例词性模板论文; 领域语义类特征论文; 机器学习论文; 零形共指论文;