基于关键短语的文本内容标引研究

论文题目: 基于关键短语的文本内容标引研究

论文类型: 博士论文

论文专业: 语言学及应用语言学

作者: 刘华

导师: 张普

关键词: 关键短语,语料库,特征提取,词语聚类,文本分类,关键词标引

文献来源: 北京语言大学

发表年度: 2005

论文摘要: 爆炸式增长的信息资源缺乏内容的结构化,大大降低了人们的检索效率。因此,如何将庞杂无序的资源组织起来,提高人们利用信息的效率,成为信息科学当前的一个重要课题。良好的信息组织和资源表示是高质量信息检索的基石,文本内容标引,特别是其内部特征如类目和主题词的标引,是信息组织和资源表示的核心。本文利用特征提取方法,在大规模分类语料库中将具有较强特征表示功能的关键短语(Key Phrase)提取出来,并按主题聚类。在此基础上,完成了一个知识与统计相结合的文本分类和主题词标引系统,从而将文本内容以精练准确的形式标引出来,方便用户只须查看容量少信息量大的类目和主题词,即可快速把握文本内容, 围绕分类主题一体化,本文主要取得了以下研究成果: 1、提出并证明了关键短语比词更适合作为文本表示特征的观点。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来。关键短语具有结构稳定、语义完整和强统计意义的特点,在较大程度上可以克服向量空间模型和贝叶斯假设的缺点,比词更适合作为文本表示的特征,有利于提高文本分类和关键词标引的效果。在约3万篇测试集上(共12个大类,217个小类),和以词为特征的相比,以关键短语为特征的文本分类的大类微平均提高了约3.1%,小类微平均提高了约15%(以体育中的层级小类为例)。 2、构建了一个超大规模、详细标注的层级分类语料库。利用信息抽取的方法,从下载的网页中抽取得到语料库建库所需的内容信息,如标题、关键词、类别、时间、正文等。通过分析18家网站(15家主流报纸网站和3家门户网站)的栏目设置情况,建立了一个网页分类体系,体系最深为四级,类目总共229个。在此基础上,构建了一个超大规模的层级分类语料库,时间跨度为3年,共约60万个文件,约6亿字,并进行了段落级XML标注。该语料库字段信息丰富,分类系统实用,内容结构化,不仅是关键词抽取和词语聚类的知识来源,也是文本分类、主题词标引的大型训练(测试)集。 3、以关键短语为基础,构建了一个含32万词语的大词语表。从上述语料库中抽取网页上专家已手工标引的关键词来获取关键短语(分类别抽取,共约22万条),与常用的词表(8万词条)相比较,关键短语的新词率约为78%(以科技类为例)。将关键短语(还有其它数字字母串等)和8万词条合在一起,最终形成一个含32万词条的大词语表。 4、利用物征提取方法进行词语聚类,构建了一个超大规模的领域知识库。在上述语料库中,我们利用特征提取方法进行了词语的领域聚类,并以关键词为核心进行了扩展的词语聚类。考虑到领域词语包括领域通用词语(如体育类的“球、比赛”)和领域专类词语(如垒球中的“跑垒”),我们通过调节词频的影响结合领域通用词语和领域专类词语进行聚类。最终形成了229个分类词语表和11215个关键词聚类后的词语表,并训练得到32万词语的体现各词语区别领域能力的类别区别度,一起构成文本分类和关键词标引的领域知识库。

论文目录:

摘要

Abstract

第一章引言

1．1 研究课题的提出

1．1．1 网络浏览与网络门户网站

1．1．2 信息爆炸与信息检索

1．2 国内外研究现状

1．2．1 文本内容标引界定

1．2．2 文本内容标引相关研究综述

1．3 本研究的目标和内容

1．4 本研究的意义

第二章关键短语与词语表构建

2．1 短语的相关研究

2．1．1 短语本位语法体系关于短语的论述

2．1．2 计算语言学关于短语的研究

2．1．3 认知心理学关于短语的研究

2．1．4 言语习得和教育学关于短语的研究

2．1．5 信息处理应用领域对短语的研究

2．2 本研究对关键短语的界定

2．3 关键短语与其它相关成分的关系

2．3．1 关键短语与命名实体

2．3．2 关键短语与本体

2．3．3 关键短语与术语

2．3．4 关键短语与主题词、关键词

2．3．5 关键短语与短语

2．4 关键短语的获取

2．5 关键短语与词语表

2．5．1 基于关键短语的词语表构建

2．5．2 切分结果分析

第三章基于统计的主题领域知识获取

3．1 超大规模层级分类语料库建立

3．1．1 网页内容解析

3．1．2 语料信息字段定义

3．1．3 网页分类体系建立

3．1．4 语料归类建库

3．1．5 语料库信息汇总

3．2 基于主题依存分析的领域词语聚类

3．2．1 主题依存分析

3．2．2 利用文本分类的特征提取方法进行词语聚类

3．2．3 词语的类别区别度

3．3 扩展的词语聚类

3．3．1 聚类算法简介

3．3．2 基于主题依存分析的聚类算法改进

3．3．3 聚类结果分析

第四章文本分类实现

4．1 文本分类综述

4．1．1 本文对文本分类的界定

4．1．2 文本分类综述

4．1．3 主题标引综述

4．1．4 主要问题分析

4．2 分类算法实现与训练(测试)集

4．2．1 分类算法实现

4．2．2 训练(测试)集

4．2．3 测试方法

4．3 分类结果分析比较

4．3．1 分类算法比较

4．3．2 特征本身(词表)对分类影响的比较

4．3．3 小类校正对分类影响的比较

4．3．4 兼类阈值对分类影响的比较

4．4 结论

4．5 分类系统自适应

4．5．1 分类系统自适应原理

4．5．2 分类系统自适应示例

第五章主题词标引实现

5．1 主题词标引综述

5．1．1 本文对主题词标引的限定

5．1．2 主题词标引综述

5．2 主题词标引实现

5．3 主题词标引测试及结果

第六章系统设计与实现

6．1 系统简介

6．2 系统总体流程图

6．3 系统截图

第七章结束语

7．1 全文总结

7．2 存在的问题和尚需改进的地方

7．2．1 关键短语的界定方面

7．2．2 词语切分对比测试方面

7．2．3 词语领域聚类的特征选择方面

7．2．4 文本分类系统的评测方面

7．2．5 主题词标引方面

7．3 进一步的工作

7．3．1 文本内容的语义标注

7．3．2 自动文摘模块补充

7．3．3 基于 XML的文本表示和智能信息检索

7．3．4 词典编撰辅助系统构建

7．3．5 对外汉语教学资源平台建设

参考文献

附录

附录1:切分对比示例

附录2:网页分类系统之类别汇总

附录3:大类词表一

附录4:大类词表二

附录5:“经济”类中“保险”关键词聚类词表前一百个词语

附录6:“经济”类中“银行卡”关键词聚类词表前一百个词语

附录7:“国内新闻”类“春运”关键词聚类词表的前一百个词语

附录8:“汽车”类中“轮胎”关键词聚类词表前一百词语

附录9:“科技”类“病毒”关键词聚类词表前一百词语

附录10:“科技”类“芯片”关键词聚类词表前一百词语

附录11:“房产”类关键词“木地板”聚类词表前一百词语

附录12:“国际新闻”类中“恐怖袭击”关键词聚类词表前一百词语

附录13:“教育”类中“性教育”关键词聚类词表前一百词语

附录14:“军事新闻”类中“直升机”关键词聚类词表前一百词语

附录15:“旅游”类中“红色之旅”关键词聚类词表前一百词语

附录16:“生活男女”类中“美发”关键词聚类词表前一百词语

附录17:“社会新闻”类中“自杀”关键词聚类词表前一百词语

附录18:“文艺”类中“遗址”关键词聚类词表前一百词语

附录19:“游戏”类中“敏捷篇(迷你游戏)”关键词聚类词表前一百词语．

附录20:“娱乐”类中“摇滚”关键词聚类词表前一百词语

附录21:“体育”类中“北京奥运”关键词聚类词表前一百词语

致谢

科研成果

发布时间: 2005-07-11

基于关键短语的文本内容标引研究

猜你喜欢