论文摘要
随着社会的进步和互联网技术的发展,网络信息量的频繁剧增,当今社会面临着信息大爆炸。每天都有大量信息以电子文档的形式出现在人们面前。如何在海量信息中搜寻所需要的信息、获取信息的主旨,如何快速阅读每天涌现出来的新信息,已经是一个非常急迫的问题。实际上,人们不可能通过阅读所有的电子资料来获得所需要的信息,传统人工处理信息的手段已经远远不足,迫切需要信息压缩精选工具来对大量信息进行提炼、浓缩,而自动摘要技术正是解决这一难题的有力工具之一。自动摘要技术是自然语言处理领域的一项重要的研究内容,其研究目的是探索人们从自然语言篇章中获取信息,提炼信息的思维机制,并在此基础上开发出能够自动编写文档摘要的系统,从而可以提高信息检索、传播的效率。文摘是准确全面反映某一文章中心内容的简洁连贯的短文,与索引相比更能满足信息获取的要求。虽然我国对文摘技术的研究目前还在初级阶段,但此技术所具有的重要作用不可低估,将会在未来的信息处理领域得到广泛的应用。目前已有的自动摘要方法主要分为四种主要的自动摘要方法:基于理解的自动摘要,自动摘录,信息抽取和基于结构的自动文摘。本论文基于目前的研究现状下,运用处理自然语言的一些方法,结合现在比较流行的编程语言编写了一个系统。系统用到了分词、权值计算等方面的相关算法。考虑到实际使用的速度和质量,本文给出了关键词和关键句选取的权值公式,采用了原文摘录的方法提取文摘句。此方法实现简单,适用于非限领域。
论文目录
摘要ABSTRACT目录第一章 绪论1.1 文摘相关概念及目的1.2 国内外研究现状1.2.1 自然语言处理的概念1.2.2 自然语言处理基础1.2.3 自动文摘系统的研究状况1.3 本课题的研究背景、目的与意义1.3.1 本课题的研究背景1.3.2 本课题的研究目的与意义第二章 自动摘要技术基础2.1 自动摘要原理2.2 摘要分类2.3 自动摘要技术介绍2.3.1 自动摘录2.3.2 基于理解的自动文摘2.3.3 信息抽取2.3.4 基于结构的自动文摘第三章 自动文摘相关技术介绍3.1 向量空间模型3.1.1 词条权重3.1.2 文本间相似度计算3.2 潜在语义分析模型3.2.1 潜在语义分析的基本原理3.2.2 潜在语义分析的思想3.2.3 潜在语义分析的特点3.3 聚类算法3.3.1 聚类算法简介3.3.2 相似度计算第四章 自动摘要系统的分析与设计4.1 开发背景4.2 设计目标及原则4.3 开发工具和环境4.4 系统功能描述4.5 系统模块设计4.5.1 文本预处理模块4.5.2 分词模块4.5.3 统计分析模块4.5.4 提取摘要模块4.5.5 输出摘要模块4.7 可行性分析第五章 自动摘要系统的实现5.1 自动摘要系统流程5.2 算法实现5.2.1 文档预处理分析5.2.2 分词算法5.2.3 关键词选取5.2.4 提取文摘句5.2.5 生成摘要第六章 实验结果分析第七章 结论致谢参考文献攻读学位期间的研究成果
相关论文文献
标签:自动摘要论文; 自然语言论文; 分词论文; 权值论文; 关键句论文;