汉语口语对话系统中口语语言分析

汉语口语对话系统中口语语言分析

论文摘要

在当今信息时代,人机口语对话系统有着广泛的应用需求。口语语言中包含有大量的省略、停顿、重复、自我纠错以及不合语法的现象等,因此在汉语人机口语对话中,口语语言的分析理解是人机对话系统实现的关键和难点。现在的口语对话系统语言的分析处理方法大多采用模板匹配处理方法,然而口语语言的灵活性使得模板数量过于庞大,而且导致系统准确性不高。本文着重研究汉语口语对话系统中的口语语言分析,尝试用内涵概念分析的思想,把对语言的分析上升到概念层次上进行分析来解决该问题。本文研究工作背景来源于上海市科委科技项目限定领域口语对话系统——交通领域口语对话系统SHJTQ, SHJTQ提供上海市任意两个地点之间、在不同的交通方式(步行、自行车、出租车、公交车)下的交通路线信息的查询。目前限定领域的口语语言分析理解的方法大致可以分为两类:概率统计方法和规则分析方法。概率统计分析技术主要基于语言结构的统计特性,缺乏智能性和可靠性。规则分析方法又分为逻辑分析方法和概念分析方法两类。逻辑分析方法以蒙太古的语义学为代表,用模型论来表示片断英语的语义,但要处理真实文本、全面地解释汉语语义,仍然感到逻辑分析的局限性。概念分析是后继的逻辑学家维特根斯坦、奥斯汀、塞尔这些哲学家提出的,语言哲学家以及心理哲学家关心的是有关心理、感觉、情感一类词汇的概念分析,但不注重对于指称实体的词类及其概念的研究。现在的口语对话系统都是在应用层面进行语言的分析处理,提出的解决方法大多采用字串匹配的方法或是在字串匹配的基础上加入一些处理方法。这种分析方法最大的缺点就是字串不同或字串次序变化,分析就会失败。因此无法解释灵活多变的口语语言。本文提出了内涵概念分析的思想,把对语言的分析上升到概念层次上进行分析,口语语言虽然灵活多变,但表达的概念是一样的,从而解决了模板匹配解决不了的问题。从实现角度讲,除音调外一字符串(如短语、句)的语音要用1K数据存储空间,对通常对话的语音处理将占用超大量存储空间。如果改为一汉字一模板,两千常用汉字的语音信息共2K*1K数据,利用汉语是字组合表达概念直接耦合的优点,将字语音模板作为单位,字组合即为语音模板信息组合,可大大减少语音数据,为语音对话使用开创了可行前景。可不限用户使用规定的表达格式、模板可自由表达。但由此带来语言处理的复杂性和重要性。本文充分利用汉语概念内涵模型思想,实现了专用领域内对话词语的概念分析,并获成功。本文研究了SHJTQ中词汇(主要是交通工具类词汇)的内涵特征,提出了名词具有“定义特征”和“情景区分特征”两个概念。在不同语境下,词汇的凸现特征(情景区分特征)有所不同。提出用一种“E—A-V”(实体-属性-值)的方法表征名词的概念。本文研究了SHJTQ中用户问句,针对用户问句多为疑问句的特点,借助言语行为理论的思想,对SHJTQ系统用户查询问句进行了言语行为分类。分析研究了SHJTQ口语语句的内涵概念,根据用户查询问题的分类,逐个将各类用户查询例句了进行概念分析,解决了字串匹配不能解决的口语语言中的各种变异现象,为汉语口语语言的理解研究提供新的思路。本文介绍了限定领域对话系统口语语言的概念分析方法在SHJTQ中的具体应用。着重分析了SHJTQ语言分析模块的设计等,同时本文给出了系统的测试结果和分析。本文研究的创新点主要在如下几方面:1.用概念分析的方法分析汉语口语语言,有别于传统的应用层面上的字串匹配分析方法。从概念层面分析解释了SHJTQ中口语语言,解释了口语语言在形式上灵活多变,但表达的是同一概念。另外采用概念分析方法,汉语和其他语言(如英语等)在体态(形态、时态等)方面的差别就会退化,有助于实现多语种的口语对话。第三,在具体实现方面,有了口语语言的概念分析,语音识别需要的模板量就可以大大减少,可以推进口语对话系统的发展。2.采用“E—A-V”(实体-属性-值)的表示概念语义模型,表征了名词的多义性。本文采用的是陆汝占先生的内涵逻辑分析即概念分析的基本思想,即对一个词语所表示的概念进行分解,求解出上位概念、下位区分概念、定义属性特征以及扩展特征;解释了词语、指称实体、概念三者关系。认为名词是指称实体的词语项,实体包括物理实体和抽象实体两类。名词具有内涵性质即语义特征,提出了“定义特征”和“情景区分特征”两个概念。分析了SHJTQ中词汇(主要是交通工具类名词词汇)的内涵特征,将内涵特征理论引入到汉语语言研究,通过内涵特征来解释纷纭复杂的汉语语义是一个新尝试。3.用内涵概念分析的方法研究了SHJTQ口语语句,根据用户查询问题的言语行为分类,逐个将各类用户查询例句进行概念分析,分析了简单完备用户表述语句、带变异的表述、不完备表述语句,把用户不规范的表达转变成概念层次上规范的查询表达,从而解决了字串匹配无法解决的口语语言灵活表达的问题。实现了概念分析指导下的限定领域口语对话系统。经测试,系统准确性较高。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 人机口语对话系统概述
  • 1.1.1 国外口语对话系统的发展
  • 1.1.2 国内口语对话系统研究的发展状况
  • 1.1.3 研究口语对话的意义
  • 1.2 问题的提出
  • 1.2.1 口语对话系统的一般构成
  • 1.2.2 口语语言分析的地位
  • 1.2.3 SHJTQ 系统介绍
  • 1.3 本文的研究工作
  • 1.4 本文的结构
  • 第二章 口语语言理解的研究
  • 2.1 口语理解的困难之处
  • 2.1.1 口语的特点
  • 2.1.2 影响句子语义的因素
  • 2.2 与口语理解相关的语义研究
  • 2.2.1 国外语言学中语义研究
  • 2.2.2 国内汉语语义研究
  • 2.3 语用研究
  • 2.3.1 语用学与语义学
  • 2.3.2 语用学研究的若干论题
  • 2.3.3 语境
  • 2.3.4 言语行为理论(speech acts theory)
  • 2.4 语义与语用分析方法
  • 2.4.1 语义分析方法
  • 2.4.2 语用分析方法
  • 2.4.3 语义和语用综合分析
  • 2.5 本章小结
  • 第三章 SHJTQ 中的用户查询问题分类
  • 3.1 SHJTQ 语料的收集和整理
  • 3.2 疑问句的分类研究
  • 3.2.1 疑问句的分类——从语法角度进行分类
  • 3.2.2 疑问句的分类——从语义角度进行分类
  • 3.3 疑问句答语的研究
  • 3.3.1 疑问点
  • 3.3.2 疑问句的预设和回答
  • 3.3.3 SHJTQ 用户问句答语的研究
  • 3.4 SHJTQ 中用户查询问题分类
  • 3.5 本章小结
  • 第四章 交通领域词汇的内涵特征分析
  • 4.1 处理自然语言的两类方法
  • 4.1.1 概率统计方法、机器学习方法
  • 4.1.2 规则分析方法
  • 4.1.3 内涵逻辑分析方法
  • 4.2 名词的内涵特征
  • 4.2.1 关于词语项、词义、概念、内涵、外延的定义及关系
  • 4.2.2 概念的E-A-V 表示法
  • 4.2.3 “定义特征”和“情景区分特征”
  • 4.3 交通查询领域交通工具类词汇的概念分析
  • 4.3.1 “车”的概念分析
  • 4.3.2 “公交车”的概念分析
  • 4.3.3 “出租车”的概念分析
  • 4.3.4 “轨道交通”的概念分析
  • 4.3.5 “行走”的概念分析
  • 4.3.6 “自行车”的概念分析
  • 4.4 本章小结
  • 第五章 SHJTQ 系统口语语句的概念分析
  • 5.1 概念分析方法介绍
  • Route 类型的口语语句分析'>5.2 ShowRoute 类型的口语语句分析
  • 5.2.1 简单完备的用户表述语句的概念分析
  • 5.2.2 带变异的用户表述语句的概念分析
  • 5.2.3 不完备问句的分析
  • 5.2.4 复杂问句的分析
  • 5.3 其他类型问句的口语语句分析
  • Timetable 类型'>5.3.1 ShowTimetable 类型
  • 5.3.2 IsServedLocation 类型
  • Stop 类型'>5.3.3 ListStop 类型
  • 5.3.4 IsServedTime 类型
  • Service 类型'>5.3.5 Ground Service 类型
  • Time 类型'>5.3.6 ShowTime 类型
  • Fare 类型'>5.3.7 ShowFare 类型
  • 5.4 本章小结
  • 第六章 概念分析指导下的人机对话系统SHJTQ 的实现
  • 6.1 SHJTQ 系统的设计
  • 6.2 SHJTQ 中语言分析模块的实现
  • 6.2.1 切分标注
  • 6.2.2 句法分析
  • 6.2.3 概念分析
  • 6.3 系统测试
  • 6.4 本章小结
  • 第七章 结束语
  • §7.1 本文总结
  • §7.2 进一步的工作
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    汉语口语对话系统中口语语言分析
    下载Doc文档

    猜你喜欢