论文摘要
关键词抽取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。但实际中只要很少一部分文档拥有作者标注的关键词,手工添加关键词是一项繁重的工作。因此非常需要一种方法能够自动抽取关键词。许多学术期刊要求论文作者在论文的第一页列出大约5到10个关键词,而这些关键词经常是一些包含两个甚至更多词的短语,我们习惯上将其成为关键词串。而且除了论文外,其它大部分文档中的关键词也是一些短语词串,而这部分的关键词抽取是一个很难的过程。本文提出将关键词抽取分为两个问题进行处理:关键单词抽取和关键词串抽取,并设计了一种基于分离模型的关键词抽取方法。该方法针对关键单词抽取和关键词串抽取这两个问题设计不同的特征以提高抽取的准确性。本文将关键词抽取看成一个有监督学习问题,将每篇文档处理以形成一组词或词串集合,然后通过机器学习的方法对这些词或词串分类,作为关键词的正例或关键词的反例。在特征设计上,我们针对关键单词与关键词串在结构上的不同特点设计了许多特征。比如,通过互信息与词串边界参数表特征提高词串的识别率;根据关键单词与关键词串词性组合的规律,设计了一些语言学特征以提高抽取关键单词与关键词串的效果。在上述工作的基础上,我们用实验验证了基于分离模型的关键词抽取方法的有效性。实验结果表明,在特征选取相同的情况下,基于分离模型的关键词抽取方法优于基于整体模型的关键词抽取方法。另外我们还验证了针对关键单词与关键词串所设计的特征的有效性。最后我们将针对关键单词与关键词串所设计的不同特征分别添加到分离模型后所形成的关键词抽取器与著名的关键词抽取工具KEA进行了比较实验,实验结果显示,我们的关键词抽取器对于关键词的抽取效果好于KEA。
论文目录
摘要ABSTRACT第一章 绪论1.1 概述1.2 关键词的应用1.3 关键词抽取面临的主要问题1.4 本文主要工作1.5 本文结构第二章 相关方法介绍2.1 关键词抽取与相关任务比较2.1.1 关键词抽取与自动摘要2.1.2 关键词抽取与信息抽取2.1.3 关键词抽取与自动索引2.2 关键词抽取研究现状2.2.1 关键词抽取中“关键”问题研究现状2.2.2 关键词抽取中“词”问题研究现状2.3 小结第三章 关键词分类问题3.1 关键单词的定义3.2 关键词串的定义3.3 小结第四章 基于分离模型的关键词抽取算法4.1 分离模型的构造4.2 候选关键单词与候选关键词串的生成4.2.1 英文中候选关键单词与候选关键词短语的生成4.2.2 中文中候选关键单词与候选关键词短语的生成4.3 模型的训练与SVM 学习器4.4 关键词的抽取4.5 小结第五章 分离模型的特征设计5.1 关键单词与关键词串公共特征设计5.1.1 TF×IDF 特征5.1.2 首次出现位置特征POS5.1.3 TF×IF 特征5.1.4 文档长度特征NWT5.2 关键单词特征设计5.3 关键词串特征设计5.3.1 互信息特征5.3.2 词串边界参数表特征5.3.3 候选关键词串结尾词词性特征5.3.4 候选关键词串开头词词性特征5.3.5 候选关键词串非结尾词中非形容词非名词的数目5.3.6 候选关键词串所含词数5.4 小结第六章 实验与分析6.1 实验方法6.1.1 分类实验6.1.2 评分实验6.1.3 语料介绍6.2 分离模型与整体模型比较6.2.1 英文中分离模型与整体模型比较6.2.2 中文中分离模型与整体模型比较6.3 关键单词特征与关键词串特征的作用6.3.1 英文中关键单词特征与关键词短语特征实验6.3.2 中文中关键单词特征与关键词串特征实验6.4 与KEA 的比较实验6.4.1 与KEA 在英文关键词抽取上的比较6.4.2 与KEA 在中文关键词抽取中的比较6.5 小结第七章 结束语致谢参考文献作者在学期间取得的学术成果
相关论文文献
标签:关键词抽取论文; 关键词串论文; 分离模型论文; 互信息论文; 词串边界参数表论文; 特征选取论文; 机器学习论文; 语言学特征论文;