语言浅层分析与句子级新信息检测研究

语言浅层分析与句子级新信息检测研究

论文题目: 语言浅层分析与句子级新信息检测研究

论文类型: 博士论文

论文专业: 计算机软件与理论

作者: 张华平

导师: 白硕

关键词: 句子检索,新信息检测,浅层语言分析,信息检索,信息过滤,查询分析,查询扩展,自然语言处理,汉语分词,词性标注

文献来源: 中国科学院研究生院(计算技术研究所)

发表年度: 2005

论文摘要: 针对粒度更小、冗余更少的信息需求,本文围绕句子级别的信息检索与新信息检测,进行了深入而又细致的研究,提出了有针对性的浅层语言分析技术,讨论了句子检索的主要建模方法,并阐述了信息新颖度的多种量化手段。在多组对比实验和国际上公开的评测比赛中,依据本文技术方法研制的Noovel系统取得了当前最好的性能,超过了所有正式公开的结果,这也表明:本文提出的句子检索方法与新信息检测技术是卓有成效的。 针对新信息检测的英文浅层语言分析主要包括断句、词汇切分、词性标注以及词形还原等自然语言处理过程。作者在已有研究工作的基础上,结合新信息发现的特点,提出了有针对性的改进措施。在中文浅层语言分析方面,本文提出了一种将汉语分词、词性标注、切分排歧和未登录词识别相结合的基于层次隐马模型的理论框架。在语言的分析基础上,查询分析过程通过辅助词过滤与倾向分类,从自然语言表述的主题中理解用户的查询意图,从而抽取出可用于直接建模计算的查询向量。在目前所有能获取的公开数据集合上进行对比实验,基于浅层语言分析的系统性能均超过了目前所见到发表的最好水平。 在句子检索方面,Noovel采取了三种模型:向量空间模型、概率检索模型与语言模型。为了克服句子的局限性,本文引入了查询扩展的技术,主要包括:借助于WordNet的语义衍生扩展、伪相关反馈扩展、采用高频共现词语的局部共现扩展。在TREC2003数据集上的实验表明:在浅层语言分析的基础上,简单向量空间模型可以达到目前最好的结果,受到语义资源和分析深度的限制,当前阶段的语义扩展作用有限,而伪相关反馈与局部共现扩展都能够帮助提高句子检索的性能,局部共现扩展是很有潜力的查询扩展与文档扩展的技术。 句子级别的新信息检测是本项研究的最终目标,这是个时序性很强的信息过滤任务,在总结现有方法的基础上,本文提出了三种具有代表性的信息新颖度的量化方法,其中包括:词重叠度及其扩展方法、相似度比较方法与信息增强的评价方法。初衷在于兼顾信息与主题的相关性,同时还要与已有历史的信息进行比对,寻找新信息之所在。 除了非监督条件的新信息检测之外,本文还探讨了在监督条件下如何进行机器自动学习并调整参数的策略,主要的手段包括:进一步的特征选择、真实反馈、调整参数、阈值设置。作者还进一步的提出了基于分类的句子检索与新信息检测方法。 Noovel系统参加了第13届TREC比赛新信息发现任务的全部四个子任务,在最关键的任务1中,Noovel的新信息检测结果排名第一;任务3的句子检索性能方面,提交的两个结果并列排名第一,其他的子任务也取得不俗的成绩,与参赛的其他13支国际研究团队进行综合比较,本文在新信息方面的研究相对较优。

论文目录:

摘要

Abstract

目录

图目录

表目录

第一章 引言

1.1 句子级新信息检测产生的背景

1.1.1 信息增长的现状与需求特点

1.1.2 文档级信息检索技术

1.1.3 自动问答系统

1.1.4 句子级新信息检测

1.2 Noovel系统的总体架构

1.2.1 已知信息

1.2.2 子任务

1.3 新信息检测的相关技术

1.3.1 信息检索

1.3.2 信息过滤

1.3.3 文本分类

1.3.4 自动文摘

1.3.5 自然语言理解

1.4 评测方法与测试平台

1.4.1 发展历程

1.4.2 评价方法

1.4.3 测试数据集

1.5 论文的组织结构

第二章 句子检索与新信息检测的主要算法模型

2.1 概述

2.2 句子检索方法综述

2.2.1 传统的文档检索方法

2.2.2 信息过滤方法

2.2.3 分类方法

2.2.4 语义比较方法

2.2.5 隐马模型(HMM)方法

2.2.6 自动文摘方法

2.3 新信息检测方法综述

2.3.1 词重叠度

2.3.2 最大区间相关度(Maximum Marginal Relevance)

2.3.3 Cosine冗余度

2.3.4 命名实体触发方法

2.3.5 统计机器翻译模型

2.3.6 LexRank方法

2.4 本章小结

第三章 Noovel特定的浅层语言分析

3.1 自然语言的特点与语言计算分析

3.1.1 自然语言的特点

3.1.2 自然语言的计算分析

3.1.3 自然语言分析的不同层次知识

3.2 新信息检测与浅层语言分析

3.3 英文浅层分析

3.3.1 英文断句(Sentence Boundary Detection)与词汇切分(Tokenization)

3.3.2 词性标注(Part-Of-Speech Tagging)

3.3.3 词干抽取(Stemming)与词形还原(Morphplogical Normalization)

3.4 停用词处理与特征选择

3.4.1 停用词处理

3.4.2 特征选择

3.4.3 浅层语言分析的中间结果

3.5 查询分析

3.6 汉语浅层分析与ICTCLAS

3.6.1 层次隐马模型和汉语浅层语言分析

3.6.2 基于类的隐马分词算法

3.6.3 N-最短路径的切分排歧策略

3.6.4 未登录词的隐马识别方法

3.6.5 实验与分析

3.7 本章小结

第四章 Noovel句子检索算法与分析

4.1 概述

4.2 向量空间模型及其扩展

4.2.1 向量空间模型基本思想

4.2.2 向量空间表示法

4.2.3 查询相关性计算

4.2.4 特征权重估计与规格化

4.2.5 句子检索的查询扩展

4.3 概率检索模型

4.4 语言模型检索(Language Modeling IR)

4.4.1 语言模型的基本思想

4.4.2 句子级语言模型的改进

4.5 句子检索实验与分析

4.5.1 浅层语言分析的贡献度实验

4.5.2 三种句子检索模型的基准实验

4.5.3 查询扩展实验

4.6 本章小结

第五章 Noovel新信息检测技术

5.1 概述

5.2 词重叠度及其扩展(Word Overlapping)

5.2.1 基于词重叠度的句子新颖度计算

5.2.2 带权重的词重叠度计算

5.3 相似度比较方法(Similarity Margin)

5.4 信息增强评价方法(Information Increment)

5.5 其他方法

5.5.1 语言模型(Language Model)

5.5.2 句子语义距离计算方法(Sentence Semantic Distance)

5.6 新信息检测试验与分析

5.6 本章小结

第六章 监督学习条件下的句子检索与新信息检测

6.1 概述

6.2 监督学习环境下的参数调整与阈值设置

6.3 基于分类的句子检索与新信息检测方法

6.4 实验与分析

6.4.1 监督实验一

6.4.2 监督实验二

6.5 本章小结

第七章 Noovel系统在TREC2004新信息检测任务中的公开评测

7.1 概述

7.2 任务1测试结果与对比

7.3 任务2测试结果与对比

7.4 任务3测试结果与对比

7.5 任务4测试结果与对比

7.6 本章小结

第八章 结束语

8.1 本文主要贡献与创新

8.2 下一步研究方向

8.3 前景与展望

8.3.1 可排重、更精细的信息检索与过滤平台

8.3.2 可订制的新闻摘要(Customized News Abstraction;CNA)

8.3.3 新信息检测辅助阅读器(Noovel Aided Reader;NAR)

附录1.TREC 2004 Novelty Track Guidelines

Summary

Goal

Tasks

Topics and Documents

Task and training data restrictions

Format of results

Evaluation

Definition for new and relevant

附录2.Penn Treebank Tagset

参考文献

致谢

作者简历

发布时间: 2006-12-27

参考文献

  • [1].基于表示学习的虚假信息检测研究[D]. 李璐旸.哈尔滨工业大学2017
  • [2].文本信息隐藏和隐藏信息检测研究[D]. 向凌云.湖南大学2011
  • [3].植物三维信息检测及视觉伺服控制技术研究[D]. 张东波.中国农业大学2014
  • [4].面向智能车辆的单目视觉行车安全信息检测与识别方法研究[D]. 王超.南京理工大学2016
  • [5].人眼视觉信息检测关键技术研究[D]. 于明鑫.北京理工大学2015

相关论文

  • [1].关于计算机理解自然查询语言的研究[D]. 郑逢斌.西南交通大学2004
  • [2].中文信息处理中若干关键技术的研究[D]. 王建会.复旦大学2004
  • [3].最大熵方法及其在自然语言处理中的应用[D]. 周雅倩.复旦大学2005
  • [4].中文数据库自然语言查询处理研究[D]. 孟小峰.中国科学院研究生院(计算技术研究所)1999
  • [5].自然语言处理中词相关性知识无导获取和均衡分类器构建[D]. 鲁松.中国科学院研究生院(计算技术研究所)2001
  • [6].基于文本模式推理的问答系统研究[D]. 王树西.中国科学院研究生院(计算技术研究所)2005
  • [7].基于统计语言建模的信息检索及相关研究[D]. 丁国栋.中国科学院研究生院(计算技术研究所)2006
  • [8].汉语组块计算的若干研究[D]. 李素建.中国科学院研究生院(计算技术研究所)2002
  • [9].基于统计语言模型的汉语浅层分析研究[D]. 高红.大连理工大学2007
  • [10].短文本语言计算的关键技术研究[D]. 龚才春.中国科学院研究生院(计算技术研究所)2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

语言浅层分析与句子级新信息检测研究
下载Doc文档

猜你喜欢