(1云南电网有限责任公司云南省昆明市650217;
2云南云电同方科技有限公司云南省昆明市650217)
摘要:本文对智能客服系统中智能问答系统对客户问句理解部分进行了深入的分析。在智能客服系统对问句分析时,不仅更加细化了疑问词短语的分类,使系统能够对表达形式不同,但语义相同的问句采用相同的分析算法,提高了系统处理多种表达形式问句的能力。通过识别问句中主题词的方法,确定搜索的知识库,明确和缩小了搜索范围,减少了对无用信息的搜索。最后针对智能问答系统对客户问句理解阶段采用的主要方法进行了详细的阐述。
关键词:能问答系统;智能客服;问句理解;问句分析
0.引言
现有的智能客服系统中,对客户问句理解的深度不够,一般都是对问句进行分词处理并提取出关键词,之后进行关键词拓展。但并没有从汉语语法的角度进行分析,也没有针对性对信息检索,而是泛泛而搜,因此导致系统的正确率不高。其主要原因有:
(1)自然语言的复杂性和不确定性,使语言结构的类型划分不唯一,遇到具有二义性的词或结构复杂的句子时,就不能准确识别和分析。
(2)计算机对自然语言的理解,目前主要以理解“语义”为核心,但是由于计算机不能像人一样智能,因此不能准确把握语义,同时计算机没有对用户“意图”分析,理解的结果是孤立的,而不是联系用户需求的。
(3)面向自然语言处理的语法研究还不完善,只有当计算机“吸收”了语言学家的知识之后,计算机理解自然语言才能称为现实。
理解客户问句首先要对问句分词和标注,也就是词法分析,因此问句理解研究的重点任务:问句分类。目的是从问句中提取关于提问主旨的重要信息和细节特征,用于抽取可能包含答案的段落。同时也考虑对用户问句进行怎么样的分析才能获得有效的答案抽取规则,使系统最后给出的答案更准确。这样也可以满足电网企业的核心价值,客户服务质量会明显增高。
1.客户问句理解处理流程
电力智能客服系统采用以J2EE平台和Oracle数据库平台相结合,对用户输入的问句使用中文分词技术对提出的问句进行分词处理,然后通过对知识库进行数据检索,最后将提取的内容经过数据封装后反馈给用户,整个处理流程,如图所示:
图1问题分词处理处理流程图
Fig.1Processingflowchartofproblemsegmentationprocessing
2.客户问句及语义分类
客户问句分类是基于语义的分类,即根据答案对象的类型进行划分的,如询问人物、地点、时间、数量等。一般问答系统的分类方法是基于疑问词进行分类,这种方法的好处在于人可以直观的知道问题所指向的对象,但是让计算机只通过单一的疑问词,一次性准确识别提问的对象却难以实现,尤其对于表达形式丰富的中文。所以我们将在传统分类的基础上增加疑问词短语分类,这样不仅在语义上对客户问句进行划分,甚至可以明确客户在询问意图,使系统对问题的理解更详尽,也使后期信息检索针对性更强。
电力智能客服系统在语义分类模块中,系统首先识别问句中包含的疑问词短语,根据疑问词短语找到对应的句型模式集,然后与模式集中的句型规则进行匹配,从而得到问题的类型,再根据主题词确定问题领域,得到搜索答案时所需要的访问方式,确定搜索的数据源。
2.1疑问词短语分类
通过对电力客服大量问题的统计发现,电力用户提出的问句可以分为若干种类型,下表列出了常见的问题类型:
问题类型表
电力智能客服系统是通过与“问题类型”表的匹配,就可以把它们归为同一类型的问题。通过对表中“句型模式”的不断扩充,系统就可以接受用户各种形式的提问,进而理解和回答。
问句模式匹配表
“句型模式”属于汉语语言学的研究内容,只有对大量的语料进行统计和分析才能得到较完备的句型模式集。“句型模式”通常用于对全文的理解,更注重语法结构的分析,语素划分更细致,这也使句子的语义缺乏整体性。而问句的句式相对固定,因此我们在汉语语言学句型的基础上提出了更适合问句分析的句型模式,更注重语义表达的整体性,句型模式的结构主要由三部份组成。
3.客户问句句型分析浅谈
客户问句句型分析是问题理解智能客服系统的重要部分。问句类型分析的主题思想体现在:1、用户在使用自动问答系统、智能搜索引擎、智能咨询系统时主要是以自然语言问句的形式提出问题;2、问句的格式相对来说比较固定;3、对于同一问题往往有多种不同的提问形式,把这些形式归纳成几大类来处理,可以大大提高系统的效率。
3.1客服常用问旬集及相关词库的构建
根据上面的阐述,可以看出,我们总是在对句型进行操作,所以有必要建立一个数据库来对句型进行管理,也就是问句类型库。本节主要介绍问句类型库的结构。
1、客服常用问旬集
我们在电力智能客服系统建设过程中收集了大量的常用问句及其答案,构建了一个常用问句集。收集的问句尽可能地涉及电力客服服务各个知识点,包括电力作业管理、机房管理、运维管理和设备管理等内容。为了提高存取速度,采用倒排索引的方法组织常用问句集。收集到的问句举例如下:
Q:“ITSM系统的基本功能是什么?”。
A:“ITSM系统基本功能包括:IT资产管理、监控管理、IT服务管理、安全管理、统计报表、系统管理”。
2、专业术语词库与同义词词库
专业术语词库中存放收集到的电力客服中的专业术语及其英文缩写的组合对,每对组合为一项,如“营销系统”和“PMS”等,若专业术语没有英文缩写,则该项只保存术语。同义词词库则存放除专业术语词库中的专业词以外的其他关键词及其同义或近义词,每个关键词及其同义或近义词构成词库表的一项,并进行编号,同义或近义词具有相同的编号。同义词词库的构造步骤如下:
(1)对常用问句集库中的问句进行分词,去除停用词后剩余的词作为关键词提取出来。
(2)利用专业术语词库从步骤(1)中得到的问句关键词集中过滤出专业术语,从而提取出其他关键字。
(3)根据同义词词库查找步骤(2)的关键词的同义词。
在同义词词库中,一组同义或近义词对应着相同的编号,以便进行关键词的语义比较,即计算语义相似度。制定的关键词语义相似度的计算方法是,对于两个词,若同义词词库编号相同,则这两个词是同义或近义词,其语义距离为0,对应的语义相似度为1;反之若词库编号不同,则说明两个词不是同义或近义词,其语义距离为1,对应的语义相似度为0。这种计算方案简单明了,对于我们所探讨的领域知识来说具有较好的适应性。
我们根据电力客服常用问句集中的问句构建的同义词词库包含137项共652个词,专业术语词库内有317个专业词汇及其英文缩写。词库采用数据库存储的方式,构建对应的数据表。
3.2问句类型分析算法
系统在进行用户问句理解时,主要是依据对问句类型的分析。问句类型主要由问句中的疑问词短语和问句的句型决定。系统首先识别问句中疑问词短语的类别,然后再判断用户给出的问句属于该疑问词短句中哪种句型。具体算法如下:
图2问句类型分析算法的流程图
Fig.2Flowchartofquestiontypeanalysisalgorithm
对于Step2:根据疑问词短语,选取子句:可以通过对问句类型库的操作来实现。将问句类型库中的所有记录按疑问词短语排序,并且按照长度(按单方向的长度为主)降序排列。因此选取子句长度时,就参照最先出现该疑问词短语的记录。
对于Step4:查找问句类型库进行匹配:把所有含有某一疑问词短语的句型与句法分析的结果进行匹配,如果某个句型是这个句法分析结果的子串,那么匹配成功,否则匹配失败。具体的算法如下:
图3句型匹配算法流程图
Fig.3Flowchartofsentencepatternmatchingalgorithm
在句型匹配中,关键的是判断数据库中的句型是否是用户问句的句法树的字串。程序设计中采用的是“自顶向下,自左向右”的遍历方式。即如果句法树第一层的句型表达式就包含了数据库中的句型,则不再往下分析,认为该问句属于匹配的句型类型,否则对第一层中的短语继续分析其组成成分。如果分析到句法结点层,仍没有与之匹配的句型,则句型分析失败。
3.3问句类型分析程序流程图
综上,可以得到问句类型分析的程序流程图如下:
图4问句类型分析的程序流程图
Fig.4Programflowchartofquestiontypeanalysis
4.结论
本文从汉语语言学的角度入手,分析了疑问词短语在问句中的重要性,之后提出了智能客服对问句的处理方法。并基于的问句类型分析较解模块的问句类型分析模块的系统流程和相应的算法。
首先,对问句的句型进行了部分的统计,使句法分析能够更有效的处理自然语言问句,较准确的识别用户意图。
其次,本文对问句类型分析时先“缩检”(将提问化为多对一,便于系统处理,并且提高系统性能)再“扩检”(多种可能回答形式,增加结果可能形式,提高查全率)的处理方式,大大提高了系统的性能。
最后,由于本文确定了数据库的结构,因此如果出现其他的句型并不需要修改问句类型分析模块的代码,而只需扩充数据库,将句型插入数据库即可。这样保证了该模块的稳定性,同时也满足了系统开放性的要求。
存在的问题和后续工作
本文在对智能问答系统对问题理解总体上尚处于探索性阶段,仍然有很多的理论与方法有待于进一步地研究与完善。同时本文所提出的一些方法也需要提高和完善。
由于系统的框架相对固定,因此系统的优越性和实用性主要通过资源库的不断完善来体现。因此,问句类型库的不断完善和扩充必将增强智能客服系统的实用性和稳定性,使系统最后给出的答案更准确。这样也可以满足电网企业的核心价值,客户服务质量会明显增高。
参考文献:
[1]哈尔滨工业大学,《同义词词林(扩展版)》样例.
[2]戴耀晶.汉语疑问句的语义分析
[3]邱君瑞.自然语言处理与信息检索系统.情报杂志,2002
[4]黄崑.自动分词技术及其在信息检索中应用的研究.现代图书情报技术,2001
[5]候敏.计算语言学与汉语自动分析.北京广播学院出版社,1999
[6]李蕾,王楠,钟义信等.基于语义网络的概念检索研究与实现.情报学报,2000
[7]杨先杰,胡建胜.关于电力信息化系统时间同步技术研究及运用[J].通讯世界,2016(24):133-134.
YangXianjie,HuJiansheng.StudyonSynchronizationTechnologyofpowerinformationsystemandapplicationof[J].communication,2016(24):133-134(inChinese).
[8]常涛,刘秀益,李永远.信息化技术在钻井设备搬安作业中的应用[J].新疆石油科技,2016(3):58-61.
ChangTao,LiuXiuyi,LiYongyuan.Applicationofinformationtechnologyindrillingequipmentoperation[J].ChinaPetroleumScienceandtechnology,2016(3):58-61.(inChinese):
[9]何博.基于移动互联网的配网现场作业系统信息安全的设计[D].华北电力大学(北京),华北电力大学,2016.
[10]郭珑翔.输变电现场作业风险点评估及其控制措施研究[D].华北电力大学,2016.
[11]张华鲁,贾玮,曾楠,等.电力企业移动信息化实施方案[C]//2016电力行业信息化年会.2016.
[12]张军德.新形势下电力安全管理中的信息化技术研究[J].大科技,2017(3).
ZhangJunde.Researchoninformationtechnologyinelectricpowersafetymanagementundernewsituation[J].largescienceandtechnology,2017(3)(inChinese)
作者简介:
杨鸥,云南电网有限责任公司科信部;
张羿,云南电网有限责任公司科信部;
杨俊刚,云南云电同方科技有限公司研发中心;
罗芳,云南云电同方科技有限公司研发中心。
资助项目:中国南方电网项目RD_2017(W)_101