短文本语言计算的关键技术研究

论文摘要

伴随着信息时代的到来,我国互联网事业和通讯事业发生了翻天覆地的变化,导致以电子形式存储和处理的数据爆炸性增长,存储成本的降低进一步使海量数据的存储和处理成为可能。这些数据中有很大一部分是长度很短的文本数据,如移动通信网络发出的手机短消息、即时通讯软件发出的即时消息、在线聊天室的聊天记录、BBS标题、博客评论、新闻评论等。各种形式的短文本已经成为我国各阶层普遍接受的信息沟通渠道和情感交流手段,深刻改变了亿万中国人的沟通方式和生活习惯。短文本数据量异常庞大,数据中包含人们对社会各种现象的种种观点和立场,话题涉及政治、经济、军事、娱乐、生活等各个领域,因此短文本语言计算在话题跟踪与发现、流行语分析、舆情预警等领域有广泛的应用前景。短文本伴随着Web2.0的兴起而逐步引起研究者的注意,目前短文本语言计算的研究方兴未艾。短文本独特的语言特征导致其语言计算不同于传统文本的自然语言处理。单条短文本一般长度都非常短,样本特征非常稀疏,很难准确地抽取有效的语言特征;短文本实时性特别强,数量异常庞大,对短文本语言计算提出了比常规文本语言计算更高的效率要求;短文本表达简洁,错误拼写、不规范用语和噪音比较多,给短文本语言计算带来了更大挑战。针对短文本的特点,本文对短文本语言计算的若干关键技术进行了研究,主要包括短文本的冗余检测、短文本的有意义串发现和幽默短信的识别等。本文的主要研究成果包括:首先,本文提出了短文本网络的概念,给出了两种常见的短文本网络的构建算法,这两种短文本网络分别为短文本指纹网络和短文本共现网络。通过构建短文本指纹网络实现了短文本语料的快速精确去重;通过构建短文本共现网络实现了短文本语料的快速近似去重。通过构建相应短文本网络,将短文本冗余检测问题转换为无向图的连通分支查找问题。本文还发现近似冗余短文本之间共现的一般是那些具有较高区分能力的词语,两条近似冗余短文本一般只是连词、代词、数词、标点符号等的使用不同,冗余传递性也是短文本语料特有的性质。本文提出的SimFinder冗余检测算法就是利用短文本语料的这些特性,进一步提高短文本网络挖掘的速度,从而提高短文本冗余检测的速度。再次,本文提出了一种大规模语料频繁模式发现算法──Crusher。Crusher提出了一种大规模语料的划分策略,将待发现频繁模式的原始语料划分为若干子语料。Crusher对每个子语料独立发现其频繁模式结果,并能保证对各子语料发现的频繁模式结果的并集即为原始语料的频繁模式集。Crusher能够避免处理低频模式,从而大大提高频繁模式发现的速度。本文还提出了有意义串的局部性原理。有意义串的局部性原理包括时间局部性、空间局部性、地域局部性、说话人局部性和会话局部性等。本文将局部性原理应用于有意义串发现,先使用Crusher算法发现若干候选有意义串,并记录各候选有意义串的出现位置,依据其出现位置计算各候选有意义串的局部性,AV值差不多的两个候选有意义串,局部性较好的更有可能为有意义串。局部性原理的应用能够更好地发现频次不是非常高的有意义串,从而提高了有意义串发现算法的准确率和召回率。最后,本文对人们熟悉的幽默手机短信的识别进行了若干探索,将幽默手机短信分为形式幽默和内容幽默两种,并对每一条短信分别计算排比指数、对联指数、押韵指数、内容幽默指数等,并综合计算其最终的幽默指数。实验表明,本文提出的幽默指数的计算方法总体上能够反映短信息的幽默程度,人工检验的结果表明,幽默手机短信的识别准确率能够满足实用需要,对短信关联的幽默指数也能够一定程度上反映短信的幽默程度。

论文目录

中文摘要

英文摘要

第一章引言

1.1 课题研究背景

1.2 课题研究意义

1.3 短文本的定义

1.4 短文本语言计算的关键技术

1.4.1 短文本冗余检测

1.4.2 短文本有意义串挖掘和流行语分析

1.4.3 幽默短信识别

1.5 本文的贡献

1.6 论文的组织

第二章短文本网络挖掘

2.1 短文本冗余检测概况

2.2 短文本网络相关定义

2.3 短文本指纹网络挖掘

2.3.1 文本精确去重的相关研究

2.3.2 短文本指纹网络的构建

2.3.3 基于短文本指纹网络的精确去重

2.3.4 改进的短文本精确去重策略

2.3.5 算法分析与实验结果

2.4 短文本共现网络挖掘

2.4.1 文本近似冗余检测的相关研究

2.4.2 冗余短文本的界定

2.4.3 短文本共现网络的建立

2.4.4 基于短文本共现网络的冗余检测

2.4.5 实验结果

2.5 本章小结

第三章短文本语言模式挖掘

3.1 短文本语言模式挖掘相关定义

3.2 频繁模式挖掘概况

3.3 基于后缀树的频繁模式发现算法

3.3.1 后缀树的基本定义

3.3.2 后缀树的建树算法

3.3.3 频繁模式发现算法

3.4 基于后缀数组的频繁模式发现算法

3.4.1 基本定义

3.4.2 频繁模式发现算法

3.5 其它频繁模式发现算法

3.6 常见语料划分算法

3.7 Crusher 频繁模式发现算法

3.7.1 Crusher 的语料划分策略

3.7.2 Crusher 频繁模式发现算法

3.7.3 Crusher 算法分析和实验结果

3.8 有意义串挖掘概况

3.8.1 类短语单元

3.8.2 互联网语料的新词发现框架

3.8.3 邻接类别

3.8.4 关键频繁模式

3.8.5 互信息和上下文独立性

3.8.6 互联网中文有意义串挖掘

3.8.7 伪相关反馈模型

3.9 基于局部性原理的有意义串发现

3.9.1 有意义串的局部性原理

3.9.2 有意义串的局部性度量

3.9.3 有意义串的局部性约束

3.9.4 局部性度量算法

3.9.5 局部性度量算法的性质

3.9.6 基于局部性原理的有意义串挖掘框架

3.10 实验结果

3.10.1 局部性对准确率的影响

3.10.2 参数λ的调节

3.10.3 低频有意义串挖掘结果

3.11 本章小结

第四章幽默短信的识别

4.1 手机短信概况

4.1.1 手机短信业务在我国的发展状况

4.1.2 手机短信的分类

4.1.3 手机短信的社会效应

4.2 幽默短信的语言分析

4.2.1 幽默短信的形成机制

4.2.2 幽默手机短信的语言特点

4.3 幽默识别的已有工作

4.3.1 到底什么是幽默

4.3.2 已有幽默识别工作

4.4 形式幽默短信的识别

4.4.1 排比的识别

4.4.2 押韵的识别

4.4.3 对联的识别

4.4.4 形式幽默指数的计算

4.5 内容幽默短信的识别

4.5.1 内容幽默短信的识别原理

4.5.2 内容幽默短信的幽默原则

4.5.3 幽默短信的要素词库

4.5.4 要素词汇的性质

4.5.5 要素词库的完备性

4.5.6 内容幽默指数的计算

4.5.7 短信的幽默指数计算

4.6 实验结果

4.6.1 准确率实验结果

4.6.2 幽默指数的有效性

4.7 本章小结

第五章总结与未来工作展望

5.1 本文工作总结与主要创新

5.2 将来的可能工作

参考文献

致谢

作者简历

短文本语言计算的关键技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢