中文专家检索关键技术研究

中文专家检索关键技术研究

论文摘要

专家检索是当前垂直信息检索研究的热门领域,国际著名检索会议TREC于2005年设立的专家检索任务中,将专家检索任务定义为:给定一个查询主题,然后通过数据库集合返回相关的专家列表和专家详细信息,并对其进行排序。本文围绕中文专家主页识别、中文专家网页非结构化数据提取、专家数据库的自组织等技术进行了一系列的研究和探讨,主要取得了以下几个方面的成果:(1)提出了一种基于J48算法的机器学习方法来对中文专家实体主页进行分类识别。该方法首先人工收集中文专家实体及对应的专家主页面2113个,针对中文专家实体特点,定义与链接和网页内容特征相关的专家实体特征,并对这些特征进行提取,形成训练数据集;然后,采用不同学习算法对在不同特征上的页面进行主页识别,寻找最有效的分类特征和主页识别学习算法。最后,对不同特征、不同算法进行测试,实验结果表明,采用J48算法,结合链接与网页内容特征,中文专家实体主页识别取得了较好的效果,其识别准确率达到了81.05%。(2)提出基于HTML标签字符串异同匹配的模板自动检测方法,针对列表型专家页面及文档型专家页面特点,借助格子理论,利用HTML标签字符串的异同,自动挖掘网页背后的数据模板Wrapper,定格数据区域。数据提取过程自动化,而且不需要事先对页面进行标记,不固定提取格式,通过页面中HTML标签字符串的异同匹配进行数据提取模板的自动检测,获取中文专家网页非结构化数据信息,提高专家网页数据提取准确率和自动化程度。(3)提出了一种解决不同类型数据融合的中文专家数据库自组织方法,针对列表型中文专家数据和文档型中文专家数据,构建专家数据库,解决数据融合问题,并对中文专家数据进行裁剪。同时在用户使用过程中,通过检索反馈优化、编辑优化和新增优化等方法对专家数据库进行优化完善。(4)利用上述研究成果,构建专家检索实验平台,实现中文专家检索原型系统。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 存在问题
  • 1.4 本文研究内容
  • 1.5 论文的组织
  • 第二章 中文专家主页识别
  • 2.1 引言
  • 2.2 训练数据获取
  • 2.3 中文专家实体主页特征选取策略与提取
  • 2.3.1 中文专家实体主页特点
  • 2.3.2 中文专家实体主页特征选取
  • 2.3.3 中文专家主页特征提取
  • 2.4 中文专家实体主页分类器的构建与识别
  • 2.4.1 中文专家实体主页识别分类器的建模
  • 2.4.2 中文专家实体主页识别
  • 2.5 实验与结果分析
  • 2.6 本章小结
  • 第三章 中文专家网页非结构化数据提取
  • 3.1 引言
  • 3.2 专家网页获取
  • 3.3 专家页面分析
  • 3.4 中文专家页面非结构化数据提取
  • 3.4.1 列表型专家页面数据提取
  • 3.4.2 文档型专家页面数据提取
  • 3.5 实验与结果分析
  • 3.6 本章小结
  • 第四章 中文专家数据库自组织
  • 4.1 引言
  • 4.2 中文专家数据库自组织
  • 4.2.1 中文专家数据库的构建
  • 4.2.2 中文专家数据库的数据组织
  • 4.3 中文专家数据库优化
  • 4.4 实验与结果分析
  • 4.5 本章小结
  • 第五章 面向中文的专家检索原型系统的实现
  • 5.1 引言
  • 5.2 系统整体框架
  • 5.3 专家检索排序方法
  • 5.4 中文专家检索原型系统实现结果
  • 5.5 本章小结
  • 第六章 结束语
  • 6.1 论文总结
  • 6.2 下一步工作
  • 致谢
  • 参考文献
  • 附录A 攻读硕士学位期间发表论文
  • 附录B 攻读硕士期间参与项目
  • 附录C 攻读硕士期间申请软件著作权
  • 相关论文文献

    • [1].西中文作品[J]. 中国书法 2011(09)
    • [2].《国际中文教育学报》征稿启事[J]. 世界汉语教学 2020(02)
    • [3].2019年国际中文教育大会闭幕[J]. 孔子学院 2020(01)
    • [4].基于文化产业振兴背景的高职院校中文教育研究[J]. 科学咨询(教育科研) 2020(04)
    • [5].印度的中文教育:综述与评估[J]. 南亚东南亚研究 2020(05)
    • [6].紡織月刊[J]. 纺织服装周刊 2018(21)
    • [7].紡織月刊[J]. 纺织服装周刊 2017(44)
    • [8].中文塑造了我的人生[J]. 孔子学院 2018(02)
    • [9].中文版音乐剧的价值和意义[J]. 上海艺术评论 2018(05)
    • [10].基于中英文可比较语料的中文零指代消解[J]. 北京大学学报(自然科学版) 2017(02)
    • [11].增强中文自信 助推中华文化复兴——周善甫的中文观述评[J]. 云南师范大学学报(对外汉语教学与研究版) 2017(02)
    • [12].在邕高校泰国留学生阅读中文书籍现状调查研究与分析[J]. 才智 2017(28)
    • [13].西中文作品欣赏[J]. 美与时代(中) 2014(12)
    • [14].论在外语院系中加强中文课教育的意义[J]. 戏剧之家 2015(10)
    • [15].全家都来学中文[J]. 廉政瞭望(上半月) 2015(10)
    • [16].《高校应用数学学报》第三十卷A辑(中文版)总目次[J]. 高校应用数学学报A辑 2015(04)
    • [17].“厦大中文百年”征稿启事[J]. 厦大中文学报 2020(00)
    • [18].香港中文大学宾馆[J]. 金山 2019(08)
    • [19].香港中文大學[J]. 英语画刊(高级版) 2019(25)
    • [20].中文、悟性和悟性享受[J]. 基础教育论坛 2013(20)
    • [21].中文教育之痛[J]. 教师博览 2010(04)
    • [22].该死的中文秘书台[J]. 教师博览 2011(02)
    • [23].探析文化产业振兴与高校中文教育改革[J]. 长江丛刊 2018(02)
    • [24].唐中文作品[J]. 文化月刊 2015(35)
    • [25].好惨的中文课[J]. 课外阅读 2016(05)
    • [26].一不留神,我要读中文系的博士了[J]. 大学生 2016(17)
    • [27].重建中文之美[J]. 百花洲 2016(01)
    • [28].学中文的骄傲[J]. 快乐作文 2015(Z3)
    • [29].孙中山(银奖)[J]. 上海集邮 2015(S1)
    • [30].我和中文做朋友[J]. 快乐作文 2014(Z5)

    标签:;  ;  ;  ;  ;  

    中文专家检索关键技术研究
    下载Doc文档

    猜你喜欢