论文摘要
随着Internet及网络技术的发展,计算机技术得到了广泛应用。网上教学平台是Internet和网络应用的一个典型案例,而自动答疑系统是网上教学平台中一个不可缺少的子系统,它能及时解答学生的疑难问题,消除学生的学习障碍。自动答疑系统的发展依赖于多种技术的综合应用。其中,中文分词技术是自动答疑系统的一个关键环节,它是自动答疑系统中的一项基本技术,毫不夸张地说,没有分词技术的自动答疑系统都不具有智能性。本文正是基于中文分词技术在自动答疑系统中的基础性地位进行研究的。首先,研究自动答疑系统的背景及现状;然后,对中文分词技术进行简要概述;最后,分析自动答疑系统中问题的特点,根据这些特点研究适合自动答疑系统的分词算法;在分词结果的基础上再进行问题的性质研究。在学生提问后将学生提问的问题与知识库中的问题进行匹配,将匹配度较高的知识库中的问题及答案反馈给学生,实现答疑系统的智能性。通过对经典的分词算法进行分析比较,本文提出了一种改进的中文分词算法。它的基本思想是:首先根据断句表,将汉语句子切分为短句,然后在进行正向最大匹配分词的同时保存匹配过程中字符串的匹配信息,通过字符串的匹配信息以及改进的逐词扫描的方法来判断是否存在交集型歧义字段,最后进行消歧处理。改进的分词算法是把长词优先原则和改进的逐词扫描法结合在一起,采用动态TRIE索引树的词典机制进行分词,利用统计方法消除分词过程中出现的歧义。改进的分词算法在继承最大匹配分词算法速度快、效率高的同时,又利用了统计方法自动消除歧义的优点。本文除了研究分词算法在自动答疑系统中的应用外,还给出了自动答疑系统的总体设计模型及系统的模块设计,为系统的详细设计提供参考。论文最后,给出了系统的分析总结,并就进一步完善和改进提出了意见。