
论文摘要
当今互联网上信息繁杂,存在多种多样的信息格式,质量参差不齐。其中结构化数据是众多种类的数据中质量最高的一类,它包括关系数据库、本体、XML数据库等。互联网上已有的结构化数据非常丰富,并且一直在快速增长,具有很大的利用价值。结构化数据的传统查询方式一般要求用户熟悉结构化数据的某种特定的形式化查询语言(如SQL)以及该数据的结构,然后根据自身的信息需求构造查询语句进行查询。而结构化数据的自然语言接口允许用户以自然语言的形式对结构化数据进行查询,不要求用户熟悉查询语言和数据的结构,是一种更为友好的信息获取方式,极大地提高了结构化数据的易用性。因此,结构化数据的自然语言接口的研究具有非常重要的现实意义。同时,结构化数据的自然语言接口即为结构化数据上的自动问答,而自动问答一直是自然语言处理和信息检索领域的热点,所以结构化数据的自然语言接口也具有重要的研究价值。结构化数据的格式不同,对应的自然语言接口的技术也因而不同。本文主要对关系数据库和语义网本体这两大类最常见的结构化数据进行了自然语言接口的研究。对于关系数据库的自然语言接口,我们提出了基于最短路和基于序列标注的两种方法。最短路的方法过于简单机械,效果不佳。序列标注的方法效果较好,但需要大量标注语料。总结关系数据库的自然语言接口实验的经验和教训,我们又选取语义网本体进行了自然语言接口的实验。我们在语义网本体上提出的基于实体关系路径搜索的方法取得了最佳的效果。实验表明,我们在关系数据库和语义网本体上都构建了能取得较好效果的自然语言接口系统。相比而言,语义网本体更适合作为自然语言接口的数据格式。
论文目录
摘要Abstract第1章 绪论1.1 课题背景1.2 课题的研究目的和意义1.3 国内外相关研究1.3.1 关系数据库的自然语言接口1.3.2 本体的自然语言接口1.3.3 XML 数据库的自然语言接口1.3.4 语义分析1.4 本文的研究内容及章节安排第2章 关系数据库的自然语言接口2.1 引言2.2 关系数据库的属性元素和值元素2.3 基于最短路的方法2.3.1 数据库元素索引2.3.2 自然语言查询与数据库元素匹配2.3.3 匹配图的构建2.3.4 最佳匹配的生成2.3.5 SQL 语句的生成2.4 基于序列标注的方法2.4.1 数据库元素的标记类别2.4.2 SQL 语句转换成MSQL 语句2.4.3 序列标注语料的生成2.4.4 训练MSQL 的序列标注器2.4.5 MSQL 语句转换成为SQL 语句2.5 实验设置2.5.1 实验数据2.5.2 评测指标2.6 实验结果与分析2.6.1 基于最短路的方法2.6.2 基于序列标注的方法2.7 本章小结第3章 从关系数据库到语义网本体3.1 引言3.2 关系数据库的自然语言接口的缺陷3.2.1 自然语言与SQL 语句差别太大3.2.2 SQL 语句的表达力有限3.3 语义网背景知识3.3.1 语义网的历史和现状3.3.2 语义网相关概念3.4 语义网本体的自然语言接口的优势3.4.1 接近自然语言3.4.2 丰富的语义信息3.4.3 支持推理3.4.4 方便地整合数据3.5 本章小结第4章 语义网本体的自然语言接口4.1 引言4.2 结构化数据的自然语言接口研究面临的困难4.3 语义网本体的构建4.4 基于实体关系路径搜索的方法4.4.1 基本假设4.4.2 系统框架4.4.3 本体数据的预处理4.4.4 自然语言查询与本体资源的匹配4.4.5 实体关系路径的分值定义4.4.6 最佳实体关系路径搜索4.4.7 SPARQL 语句的生成4.4.8 SPARQL 语句的执行4.5 实验设置4.5.1 实验数据4.5.2 评测指标4.6 实验结果与分析4.6.1 实验结果4.6.2 结果分析4.7 本章小结第5章 结构化数据的自然语言接口技术的应用5.1 引言5.2 语义网本体问答系统5.2.1 系统框架5.2.2 系统演示5.3 Web 客服问答系统5.3.1 Web 聊天系统5.3.2 自动问答系统5.3.3 系统演示5.4 本章小结结论参考文献致谢
相关论文文献
- [1].基于数据库查询的自然语言接口研究[J]. 计算机工程与设计 2008(24)
标签:自然语言接口论文; 问答论文; 结构化数据论文; 语义网论文; 本体论文;