论文摘要
问答系统(QA)是允许用户输入一个自然语言形式的提问,通过检索,得到能够回答该问句的比较简短而准确的一个句子、摘要或者一个词。文本文档的问答系统研究已经取得了一定的进展。随着网络技术的发展,除了文本,网络上其他多媒体信息变得越来越重要,这对问答系统既是机遇也是一种挑战。视频是我们获捕外界信息的最有效媒体之一,因此本论文主要对新闻视频进行问答系统研究。在视频的各种特征中,脚本是最重要的且是比较容易得到的,况且,视频问答系统输入的是一个纯文本类型的问句,所以系统框架中主要运用的是通过自动语音识别(ASR)而得到的脚本特征。本论文提出了一种中文视频问答系统的框架。整个系统包括6个模块:视频分割、语音识别、问句分类、脚本检索、答案抽取和最后的视频输出。脚本中包含了大量的语音识别错误,我们人为地对部分错误进行了纠错。在问句分类模块,本论文利用知网(HowNet)来提高问句分类的准确率。视频QA是为了得到问句的最准确的视频答案,而不仅仅是一个很长的故事单元,所以对检索得到的故事单元需要进行更详细地答案抽取。本论文根据关键词密度、问句分类时的答案类型等为输出的句子打分,分数最高的句子对应的视频作为输出。本论文的主要创新在于:(1)在问句分类中知网的运用;(2)把文本问答系统扩展到中文视频中,这对问答系统研究是一个突破。对中文CCTV4新闻视频的实验表明,我们提出的方法是可行的。
论文目录
摘要Abstract第1章 绪论1.1 研究背景1.2 问答系统的研究进展1.3 视频检索的研究进展1.4 中文信息处理技术1.5 研究前景1.6 本实验室相关研究1.7 本论文的研究内容1.8 论文组织结构第2章 自然语言处理基本理论概述2.1 引言2.2 国内自然语言研究现状2.3 知网2.3.1 知网简介2.3.2 知网建设2.3.3 同义词2.4 命名实体2.5 自然语言处理在问答系统中的应用2.6 本章小结第3章 视频预处理3.1 引言3.2 基于内容的视频检索中的基本概念3.3 新闻故事单元分割3.3.1 音频特征提取3.3.2 视频特征提取3.3.3 内容相似模块3.3.4 基于规则的预分割模块3.3.5 故事边界检测3.4 新闻视频脚本的分割3.5 本章小结第4章 问答系统4.1 引言4.2 问句理解4.2.1 文本预处理4.2.2 问句分类4.2.3 关键词提取4.3 脚本检索4.3.1 布尔模型4.3.2 向量空间模型4.3.3 概率模型4.3.4 视频问答系统中脚本检索的设计4.4 答案抽取4.5 本章小结第5章 实验设计及分析5.1 引言5.2 支持向量机5.2.1 SVM 定义5.2.2 SVM 优点5.2.3 SVM 原理5.2.4 SVM 在分类中的应用5.3 问句分类模块实验5.4 系统最后实验5.5 实验结果分析5.6 未来工作5.7 本章小结结论参考文献攻读硕士学位期间承担的科研任务与主要成果致谢作者简介
相关论文文献
标签:问答系统论文; 视频分割论文; 信息检索论文; 自然语言处理论文; 知网论文;