基于统计的文摘自动生成系统的研究与开发

基于统计的文摘自动生成系统的研究与开发

论文摘要

随着社会的进步和互联网技术的发展,网络信息量的频繁剧增,当今社会面临着信息大爆炸。每天都有大量信息以电子文档的形式出现在人们面前。如何在海量信息中搜寻所需要的信息、获取信息的主旨,如何快速阅读每天涌现出来的新信息,已经是一个非常急迫的问题。实际上,人们不可能通过阅读所有的电子资料来获得所需要的信息,传统人工处理信息的手段已经远远不足,迫切需要信息压缩精选工具来对大量信息进行提炼、浓缩,而自动摘要技术正是解决这一难题的有力工具之一。自动摘要技术是自然语言处理领域的一项重要的研究内容,其研究目的是探索人们从自然语言篇章中获取信息,提炼信息的思维机制,并在此基础上开发出能够自动编写文档摘要的系统,从而可以提高信息检索、传播的效率。文摘是准确全面反映某一文章中心内容的简洁连贯的短文,与索引相比更能满足信息获取的要求。虽然我国对文摘技术的研究目前还在初级阶段,但此技术所具有的重要作用不可低估,将会在未来的信息处理领域得到广泛的应用。目前已有的自动摘要方法主要分为四种主要的自动摘要方法:基于理解的自动摘要,自动摘录,信息抽取和基于结构的自动文摘。本论文基于目前的研究现状下,运用处理自然语言的一些方法,结合现在比较流行的编程语言编写了一个系统。系统用到了分词、权值计算等方面的相关算法。考虑到实际使用的速度和质量,本文给出了关键词和关键句选取的权值公式,采用了原文摘录的方法提取文摘句。此方法实现简单,适用于非限领域。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 文摘相关概念及目的
  • 1.2 国内外研究现状
  • 1.2.1 自然语言处理的概念
  • 1.2.2 自然语言处理基础
  • 1.2.3 自动文摘系统的研究状况
  • 1.3 本课题的研究背景、目的与意义
  • 1.3.1 本课题的研究背景
  • 1.3.2 本课题的研究目的与意义
  • 第二章 自动摘要技术基础
  • 2.1 自动摘要原理
  • 2.2 摘要分类
  • 2.3 自动摘要技术介绍
  • 2.3.1 自动摘录
  • 2.3.2 基于理解的自动文摘
  • 2.3.3 信息抽取
  • 2.3.4 基于结构的自动文摘
  • 第三章 自动文摘相关技术介绍
  • 3.1 向量空间模型
  • 3.1.1 词条权重
  • 3.1.2 文本间相似度计算
  • 3.2 潜在语义分析模型
  • 3.2.1 潜在语义分析的基本原理
  • 3.2.2 潜在语义分析的思想
  • 3.2.3 潜在语义分析的特点
  • 3.3 聚类算法
  • 3.3.1 聚类算法简介
  • 3.3.2 相似度计算
  • 第四章 自动摘要系统的分析与设计
  • 4.1 开发背景
  • 4.2 设计目标及原则
  • 4.3 开发工具和环境
  • 4.4 系统功能描述
  • 4.5 系统模块设计
  • 4.5.1 文本预处理模块
  • 4.5.2 分词模块
  • 4.5.3 统计分析模块
  • 4.5.4 提取摘要模块
  • 4.5.5 输出摘要模块
  • 4.7 可行性分析
  • 第五章 自动摘要系统的实现
  • 5.1 自动摘要系统流程
  • 5.2 算法实现
  • 5.2.1 文档预处理分析
  • 5.2.2 分词算法
  • 5.2.3 关键词选取
  • 5.2.4 提取文摘句
  • 5.2.5 生成摘要
  • 第六章 实验结果分析
  • 第七章 结论
  • 致谢
  • 参考文献
  • 攻读学位期间的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于统计的文摘自动生成系统的研究与开发
    下载Doc文档

    猜你喜欢