个性化自动文摘的研究与实现

论文摘要

随着Internet的普及与发展,网络已成为一个巨大的信息源。大量的数字信息在带给人们丰富便利的信息资源的同时,也给有效信息的快速获取带来了困难。自动文摘技术是自然语言处理领域的一个课题,它利用计算机自动地对文章进行处理,生成基本反映文章主题的摘要。利用自动文摘技术,人们可以减少寻找信息的时间。介绍了自动文摘技术中两个关键问题的研究。一个是文本的意义段划分问题,意义段划分是自动文摘技术研究的一个重要内容,它将文章中所讨论的不同主题划分开来,每个主题为一个意义段。在总结前人工作的基础上,从意义段划分的目的和相关的理论出发,针对传统的基于词语的TextTiling算法中信息量不足的问题,对词语进行基于HowNet的概念扩展,通过概念进行紧凑度计算。实验结果表明,基于概念扩展的TextTiling算法,在意义段划分的准确性和主题识别率上都有较大的提高。另一个是自动文摘技术中的句子计算问题,针对传统的基于词语统计的句子计算方法中缺乏语义分析的问题和基于文本结构分析的句子衡量方法中语法分析不够准确的问题,结合两种方法的思想,对词语进行基于规则的组块划分,以组块为基本单元对句子进行处理和计算。实验结果表明,基于组块的句子计算方法能够较好的提高文摘质量。最后介绍了基于用户兴趣的个性化自动文摘系统,给出了系统流程图和计算方法,通过用户对文章子主题的感兴趣程度对文摘句进行处理。实验结果表明,个性化自动文摘能够较好的满足人们的需要。

论文目录

中文摘要

英文摘要

第1章前言

1.1 课题来源及研究背景

1.2 国内外研究现状

1.3 论文研究的目标和内容

1.4 论文的组织结构

第2章个性化自动文摘的关键技术

2.1 自动文摘技术

2.1.1 文本意义段的划分

2.1.2 文本句子的分析和计算方法

2.2 个性化技术

2.2.1 用户兴趣的获取

2.2.2 用户兴趣的表示方法

2.2.3 个性化推荐技术

2.3 小结

第3章基于概念TextTiling算法的意义段划分

3.1 文本意义段的划分

3.2 TextTitling算法

3.3 基于HowNet的文本预处理

3.3.1 知网（HowNet）介绍

3.3.2 基于HowNet的概念获取

3.3.3 基于概念的TextTiling算法

3.4 评价方法与实验结果对比分析

3.5 本章小结

第4章基于组块技术的句子处理

4.1 句子的描述模型及计算方法

4.2 基于组块技术的句子计算

4.2.1 文本组块介绍

4.2.2 面向自动文摘系统的文本组块划分

4.2.3 基于组块的自动文摘

4.3 评价方法与实验结果对比分析

4.4 本章小结

第5章个性化自动文摘系统

5.1 个性化自动文摘的系统结构

5.2 个性化自动文摘

5.2.1 用户兴趣模型的分析

5.2.2 用户兴趣与文档话题的相关度计算

5.2.3 基于用户兴趣和文章主题的句子权重计算

5.2.4 文摘句的优化处理

5.3 文摘的实验与评价

5.4 本章小结

第6章结论

6.1 工作总结

6.2 主要创新点

6.3 下一步研究方向

参考文献

致谢

个人简历和在学期间的研究成果

个性化自动文摘的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢