改进的中文分词算法在自动答疑系统中的应用研究

改进的中文分词算法在自动答疑系统中的应用研究

论文摘要

随着Internet及网络技术的发展,计算机技术得到了广泛应用。网上教学平台是Internet和网络应用的一个典型案例,而自动答疑系统是网上教学平台中一个不可缺少的子系统,它能及时解答学生的疑难问题,消除学生的学习障碍。自动答疑系统的发展依赖于多种技术的综合应用。其中,中文分词技术是自动答疑系统的一个关键环节,它是自动答疑系统中的一项基本技术,毫不夸张地说,没有分词技术的自动答疑系统都不具有智能性。本文正是基于中文分词技术在自动答疑系统中的基础性地位进行研究的。首先,研究自动答疑系统的背景及现状;然后,对中文分词技术进行简要概述;最后,分析自动答疑系统中问题的特点,根据这些特点研究适合自动答疑系统的分词算法;在分词结果的基础上再进行问题的性质研究。在学生提问后将学生提问的问题与知识库中的问题进行匹配,将匹配度较高的知识库中的问题及答案反馈给学生,实现答疑系统的智能性。通过对经典的分词算法进行分析比较,本文提出了一种改进的中文分词算法。它的基本思想是:首先根据断句表,将汉语句子切分为短句,然后在进行正向最大匹配分词的同时保存匹配过程中字符串的匹配信息,通过字符串的匹配信息以及改进的逐词扫描的方法来判断是否存在交集型歧义字段,最后进行消歧处理。改进的分词算法是把长词优先原则和改进的逐词扫描法结合在一起,采用动态TRIE索引树的词典机制进行分词,利用统计方法消除分词过程中出现的歧义。改进的分词算法在继承最大匹配分词算法速度快、效率高的同时,又利用了统计方法自动消除歧义的优点。本文除了研究分词算法在自动答疑系统中的应用外,还给出了自动答疑系统的总体设计模型及系统的模块设计,为系统的详细设计提供参考。论文最后,给出了系统的分析总结,并就进一步完善和改进提出了意见。

论文目录

  • 摘要
  • Abstract
  • 绪论
  • 第一章 中文分词技术概述
  • 1.1 什么是中文分词
  • 1.2 中文分词技术应用
  • 1.3 中文分词技术现状
  • 1.4 常见的中文分词方法
  • 1.5 中文分词技术难点
  • 1.6 分词中歧义处理和未登录词识别
  • 本章小结
  • 第二章 信息检索技术
  • 2.1 什么是信息检索
  • 2.2 信息检索模型
  • 2.3 答疑系统中的信息检索算法
  • 本章小结
  • 第三章 改进的中文分词算法
  • 3.1 引言
  • 3.2 改进的算法
  • 3.2.1 算法的基本概念
  • 3.2.2 算法的词典结构
  • 3.2.3 统计语言模型
  • 3.2.4 算法的基本思想
  • 3.2.5 算法的步骤
  • 3.2.6 歧义处理
  • 3.2.7 算法的流程图
  • 3.2.8 算法的实现
  • 3.3 改进算法的性能验证
  • 本章小结
  • 第四章 自动答疑系统分析与总体设计
  • 4.1 答疑系统依附的教学平台说明
  • 4.1.1 教学平台概述
  • 4.1.2 教学平台开发模型
  • 4.1.3 教学平台功能描述
  • 4.2 自动答疑系统的总体设计
  • 4.2.1 系统概述
  • 4.2.2 系统工作原理
  • 4.2.3 系统模块设计
  • 4.2.4 系统工作流程
  • 4.3 自动答疑系统的数据库设计
  • 本章小结
  • 第五章 自动答疑系统实现概述
  • 5.1 开发环境、工具以及相关技术
  • 5.1.1 开发环境与工具
  • 5.1.2 相关技术
  • 5.2 自动答疑模块的实现
  • 5.2.1 实现功能
  • 5.2.2 界面显示
  • 5.3 人工答疑模块的实现
  • 5.3.1 实现功能
  • 5.3.2 界面显示
  • 5.4 信息管理模块的实现
  • 5.4.1 实现功能
  • 5.4.2 界面显示
  • 5.5 自动答疑系统的性能分析
  • 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    改进的中文分词算法在自动答疑系统中的应用研究
    下载Doc文档

    猜你喜欢