关键词抽取的研究与实现

论文摘要

关键词抽取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。但实际中只要很少一部分文档拥有作者标注的关键词,手工添加关键词是一项繁重的工作。因此非常需要一种方法能够自动抽取关键词。许多学术期刊要求论文作者在论文的第一页列出大约5到10个关键词,而这些关键词经常是一些包含两个甚至更多词的短语,我们习惯上将其成为关键词串。而且除了论文外,其它大部分文档中的关键词也是一些短语词串,而这部分的关键词抽取是一个很难的过程。本文提出将关键词抽取分为两个问题进行处理:关键单词抽取和关键词串抽取,并设计了一种基于分离模型的关键词抽取方法。该方法针对关键单词抽取和关键词串抽取这两个问题设计不同的特征以提高抽取的准确性。本文将关键词抽取看成一个有监督学习问题,将每篇文档处理以形成一组词或词串集合,然后通过机器学习的方法对这些词或词串分类,作为关键词的正例或关键词的反例。在特征设计上,我们针对关键单词与关键词串在结构上的不同特点设计了许多特征。比如,通过互信息与词串边界参数表特征提高词串的识别率;根据关键单词与关键词串词性组合的规律,设计了一些语言学特征以提高抽取关键单词与关键词串的效果。在上述工作的基础上,我们用实验验证了基于分离模型的关键词抽取方法的有效性。实验结果表明,在特征选取相同的情况下,基于分离模型的关键词抽取方法优于基于整体模型的关键词抽取方法。另外我们还验证了针对关键单词与关键词串所设计的特征的有效性。最后我们将针对关键单词与关键词串所设计的不同特征分别添加到分离模型后所形成的关键词抽取器与著名的关键词抽取工具KEA进行了比较实验,实验结果显示,我们的关键词抽取器对于关键词的抽取效果好于KEA。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 概述

1.2 关键词的应用

1.3 关键词抽取面临的主要问题

1.4 本文主要工作

1.5 本文结构

第二章相关方法介绍

2.1 关键词抽取与相关任务比较

2.1.1 关键词抽取与自动摘要

2.1.2 关键词抽取与信息抽取

2.1.3 关键词抽取与自动索引

2.2 关键词抽取研究现状

2.2.1 关键词抽取中“关键”问题研究现状

2.2.2 关键词抽取中“词”问题研究现状

2.3 小结

第三章关键词分类问题

3.1 关键单词的定义

3.2 关键词串的定义

3.3 小结

第四章基于分离模型的关键词抽取算法

4.1 分离模型的构造

4.2 候选关键单词与候选关键词串的生成

4.2.1 英文中候选关键单词与候选关键词短语的生成

4.2.2 中文中候选关键单词与候选关键词短语的生成

4.3 模型的训练与SVM 学习器

4.4 关键词的抽取

4.5 小结

第五章分离模型的特征设计

5.1 关键单词与关键词串公共特征设计

5.1.1 TF×IDF 特征

5.1.2 首次出现位置特征POS

5.1.3 TF×IF 特征

5.1.4 文档长度特征NWT

5.2 关键单词特征设计

5.3 关键词串特征设计

5.3.1 互信息特征

5.3.2 词串边界参数表特征

5.3.3 候选关键词串结尾词词性特征

5.3.4 候选关键词串开头词词性特征

5.3.5 候选关键词串非结尾词中非形容词非名词的数目

5.3.6 候选关键词串所含词数

5.4 小结

第六章实验与分析

6.1 实验方法

6.1.1 分类实验

6.1.2 评分实验

6.1.3 语料介绍

6.2 分离模型与整体模型比较

6.2.1 英文中分离模型与整体模型比较

6.2.2 中文中分离模型与整体模型比较

6.3 关键单词特征与关键词串特征的作用

6.3.1 英文中关键单词特征与关键词短语特征实验

6.3.2 中文中关键单词特征与关键词串特征实验

6.4 与KEA 的比较实验

6.4.1 与KEA 在英文关键词抽取上的比较

6.4.2 与KEA 在中文关键词抽取中的比较

6.5 小结

第七章结束语

致谢

参考文献

作者在学期间取得的学术成果

关键词抽取的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢