论文摘要
随着计算机技术和多媒体技术的发展,被人们记录并保存在计算机中的语音数据越来越多。为了更高效地访问、管理和利用这些语音资源,必须实现基于语义内容的语音文档检索技术。所谓语音文档检索是指,根据用户输入的查询请求,在语音资源中搜索和返回与之相关联的语音段或语音文档的处理过程。语音文档检索技术与语音识别技术紧密相关,它总是利用语音识别技术为资源库建立语义层级的索引。然而,语音识别结果中普遍存在的较高的错误率和对词表外词的误识等问题也直接困扰着检索性能,研究者不得不求助于子词网格(Lattice)形式的语音识别结果,通过子词规避词表外词问题,通过Lattice这种多候选形式向检索者提供更准确的索引内容。在汉语语音文档检索研究中,采用基于音节Lattice的检索技术,业已成为了研究者们的共识。语音文档检索是一个未成熟的且极具潜力的研究领域,还存在很多问题需要解决。其中的一个核心问题就在于,Lattice并不是一个易于索引的数据形式,它的有向图结构,以及正确信息与错误信息相混杂的特点,不但直接导致了传统的检索方法性能不佳,而且也需要较大的存储开销和搜索时间。因而,研究适合音节Lattice特点的,且能够同时兼顾检索精度、索引尺寸、检索速度三方面性能指标要求的汉语语音文档检索方法,就有着非常重要的理论意义和实用价值。本文针对音节Lattice的特点,首先研究了三种实现机理不同、性能各有侧重的汉语语音文档检索方法,然后针对Lattice识别结果的错误率下界制约检索精度进一步提高的问题,研究了两种能够改善Lattice错误率下界的有效方法。论文的具体研究内容如下:1)提出了依赖词检出实现的语音文档检索方法,直接保存音节Lattice作为索引,并采用词检出技术来实现检索任务。提出了置信测度和发生频次相结合的相关度计算方法,提出了将传统的词检出技术拆分为离线和在线两个阶段的分解方案,从而提高了在线阶段的检索速度。该方法取得较好的检索精度,其值相当接近于在Lattice的最优候选上所得到的检索精度,但由于必须存储和搜索Lattice索引,因而索引尺寸和检索速度指标都还需要进一步的提升。针对Lattice索引尺寸较大,冗余较多的现象,提出了基于音节后验概率直方图的Lattice有效成分分析方法,研究了保留有效成分去除冗余成分的索引去冗余方法。实验结果表明,该方法能够以检索精度小幅度的下降为代价,大规模的去除索引中的冗余信息。2)提出了基于音节倒排索引的语音文档检索方法,利用倒排索引形式的特点,在保留音节Lattice主要内容的前提下,有效缩减索引尺寸。研究了通过放松匹配过程中的路径约束条件来提高检索精度的匹配机制,提出了两种有效的匹配机制:时间匹配机制和位置匹配机制。在采用位置匹配机制的检索方法中,将音节Lattice解释为具有特定位置标号的若干竞争集的级联,给出了相应的搜索匹配方法,以及匹配路径处于特定位置的后验概率值的计算方法。研究了根据音节候选在其竞争集中的名次来修正文档相关度的加权方法。实验结果表明,两种匹配机制都使检索精度有小幅度的提升,其中位置匹配机制提升更明显,且名次加权方法又进一步提高了该检索精度。提出了能够灵活控制检索速度的基于后验概率门限的剪枝方法。3)提出基于邻接音节后验概率矩阵的语音文档检索方法,旨在通过建立文档层级的索引,大规模地提升索引尺寸和检索速度指标,为实现面向大规模语音资源库的检索系统创造条件。提出了K步邻接音节对的概念,以刻画索引中音节间长距离的关联性,利用Lattice的邻接后验概率矩阵来表示Lattice的内容,进而综合各Lattice的邻接矩阵,计算邻接音节对在语音文档中的后验概率值,存储语音文档的邻接音节后验概率矩阵作为文档级索引。实验结果表明,虽然检索精度有5%左右的下降,但索引尺寸和检索速度指标都基本达到了文本检索技术的水平。研究了利用语音中韵律信息来修正文档相关度的方法,初步尝试了三种韵律加权方法。其中能量加权方法最有效,检索精度提升了约2.7%。4)分析了制约检索精度的根本原因。提出了两种基于更低Lattice错误率下界的检索精度提高方法:一种是基于扩充Lattice的方法,另一种是基于词片语言模型的方法。前者在语音识别技术的框架之外,通过建立识别结果和识别错误之间关联关系的统计模型,并基于Dempster-Shafe证据理论,估计特定音节被识别器遗漏的概率,研究了扩充Lattice的生成方法。实验结果表明,扩充Lattice相比于原始Lattice,错误率下界下降了1.7%,检索精度提高了约4%。后者在语音识别框架内部,通过引入词片基元来改善语音识别结果的准确性,讨论了词片的概念,研究了基于最大互信息准则的词片自动选择算法,通过实验证明了引入词片有助于改善语音识别系统的识别率和检索系统的检索精度。
论文目录
相关论文文献
- [1].基于公式描述结构和词嵌入的科技文档检索方法[J]. 数据分析与知识发现 2020(01)
- [2].基于潜在语义分析的文档检索设计方法[J]. 北京石油化工学院学报 2015(02)
- [3].基于数学表达式特征的科技文档检索模型[J]. 河北大学学报(自然科学版) 2017(06)
- [4].多类型文档检索和转换技术研究[J]. 微型机与应用 2014(10)
- [5].基于核化局部敏感哈希的快速文档检索方法[J]. 湖南科技大学学报(自然科学版) 2019(03)
- [6].数据起源在多版本文档检索中的应用[J]. 上海大学学报(自然科学版) 2018(05)
- [7].基于地质技术方法非结构化数据的文档检索研究[J]. 中国西部科技 2015(11)
- [8].汉语语音文档检索中后验概率的索引方法[J]. 哈尔滨工业大学学报 2009(08)
- [9].文档检索中文本片段化机制的研究[J]. 计算机科学与探索 2020(04)
- [10].基于本体的TBT文档检索系统研究[J]. 情报杂志 2009(10)
- [11].基于语义向量空间模型的文档检索系统研究[J]. 情报杂志 2010(05)
- [12].混合语义模型的产品知识文档检索[J]. 重庆大学学报 2008(10)
- [13].基于查询意图识别与主题建模的文档检索算法[J]. 计算机工程 2018(03)
- [14].基于特定位置后验概率网格的开集语音文档检索[J]. 燕山大学学报 2013(04)
- [15].语义桌面环境下一种基于概念图的文档检索方法[J]. 计算机工程与科学 2009(08)
- [16].查询扩展在开放领域问答系统中的应用[J]. 计算机应用与软件 2009(07)
- [17].VB程序设计在对Word文档检索中的应用[J]. 西部探矿工程 2009(12)
- [18].利用领域本体优化文档检索的研究——基于KIM平台的设计与实现[J]. 现代图书情报技术 2013(12)
- [19].模糊粗糙集在科技文档检索中的应用研究[J]. 计算机仿真 2011(10)
- [20].模糊算法在HTML文档检索中的应用[J]. 佛山科学技术学院学报(自然科学版) 2010(03)
- [21].关于信息技术在办公自动化中的应用[J]. 智慧健康 2016(07)
- [22].开放域问答技术研究进展[J]. 电子学报 2009(05)
- [23].基于XML的结构化科技文档检索的研究[J]. 信息系统工程 2012(08)
- [24].适应文档检索的半监督多样本排序学习算法[J]. 计算机应用 2011(11)
- [25].语义检索研究综述[J]. 图书情报工作 2008(06)
- [26].基于自动查询扩展的专利文档检索方法[J]. 中国科技论文 2013(10)
- [27].混淆网络在音频文档检索系统中的应用研究[J]. 计算机工程与应用 2010(28)
- [28].基于标签技术和群体绩效评价的多媒体检索[J]. 情报杂志 2011(09)
- [29].语义检索在广播电视中的应用[J]. 电子技术与软件工程 2015(05)
- [30].XML文档聚类中基于语义的特征词权重计算方法[J]. 长沙理工大学学报(自然科学版) 2015(02)
标签:汉语语音文档检索论文; 音节论文; 音节倒排索引论文; 邻接音节后验概率矩阵论文; 错误率下界论文;