论文摘要
随着Internet的普及与发展,网络已成为一个巨大的信息源。大量的数字信息在带给人们丰富便利的信息资源的同时,也给有效信息的快速获取带来了困难。自动文摘技术是自然语言处理领域的一个课题,它利用计算机自动地对文章进行处理,生成基本反映文章主题的摘要。利用自动文摘技术,人们可以减少寻找信息的时间。介绍了自动文摘技术中两个关键问题的研究。一个是文本的意义段划分问题,意义段划分是自动文摘技术研究的一个重要内容,它将文章中所讨论的不同主题划分开来,每个主题为一个意义段。在总结前人工作的基础上,从意义段划分的目的和相关的理论出发,针对传统的基于词语的TextTiling算法中信息量不足的问题,对词语进行基于HowNet的概念扩展,通过概念进行紧凑度计算。实验结果表明,基于概念扩展的TextTiling算法,在意义段划分的准确性和主题识别率上都有较大的提高。另一个是自动文摘技术中的句子计算问题,针对传统的基于词语统计的句子计算方法中缺乏语义分析的问题和基于文本结构分析的句子衡量方法中语法分析不够准确的问题,结合两种方法的思想,对词语进行基于规则的组块划分,以组块为基本单元对句子进行处理和计算。实验结果表明,基于组块的句子计算方法能够较好的提高文摘质量。最后介绍了基于用户兴趣的个性化自动文摘系统,给出了系统流程图和计算方法,通过用户对文章子主题的感兴趣程度对文摘句进行处理。实验结果表明,个性化自动文摘能够较好的满足人们的需要。
论文目录
中文摘要英文摘要第1章 前言1.1 课题来源及研究背景1.2 国内外研究现状1.3 论文研究的目标和内容1.4 论文的组织结构第2章 个性化自动文摘的关键技术2.1 自动文摘技术2.1.1 文本意义段的划分2.1.2 文本句子的分析和计算方法2.2 个性化技术2.2.1 用户兴趣的获取2.2.2 用户兴趣的表示方法2.2.3 个性化推荐技术2.3 小结第3章 基于概念TextTiling算法的意义段划分3.1 文本意义段的划分3.2 TextTitling算法3.3 基于HowNet的文本预处理3.3.1 知网(HowNet)介绍3.3.2 基于HowNet的概念获取3.3.3 基于概念的TextTiling算法3.4 评价方法与实验结果对比分析3.5 本章小结第4章 基于组块技术的句子处理4.1 句子的描述模型及计算方法4.2 基于组块技术的句子计算4.2.1 文本组块介绍4.2.2 面向自动文摘系统的文本组块划分4.2.3 基于组块的自动文摘4.3 评价方法与实验结果对比分析4.4 本章小结第5章 个性化自动文摘系统5.1 个性化自动文摘的系统结构5.2 个性化自动文摘5.2.1 用户兴趣模型的分析5.2.2 用户兴趣与文档话题的相关度计算5.2.3 基于用户兴趣和文章主题的句子权重计算5.2.4 文摘句的优化处理5.3 文摘的实验与评价5.4 本章小结第6章 结论6.1 工作总结6.2 主要创新点6.3 下一步研究方向参考文献致谢个人简历和在学期间的研究成果
相关论文文献
标签:个性化信息服务论文; 自动文摘论文; 主题意义段划分论文; 文本组块论文;