基于用户查询日志的中文互联网问句自动生成和查询压缩研究

基于用户查询日志的中文互联网问句自动生成和查询压缩研究

论文摘要

随着互联网用户和规模爆炸式增长,如何让用户更快捷的搜索到需要的信息成了学术界和搜索引擎公司共同关注的问题。搜索引擎上用户查询的形式是多种多样的,如何正确的分析查询是理解用户意图、帮助用户得到信息的关键,有广泛的应用前景和重要的地位,是目前研究的热点。用户查询日志记录着所有搜索引擎用户的查询和点击行为,是分析用户行为、改进搜索结果最有效的数据资源。本文应用中文搜索引擎的查询日志,重点研究了基于查询日志的问句自动生成和查询压缩方法,主要内容如下:第一,基于互动类问答知识库的中文查询问句自动生成。互动类问答知识库的出现为用户提供了获得高质量知识的途径,用户可以在上面提问、回答和评价他人对问题的答案。为改进互动类问答知识库的搜索并扩大其问题的数量,我们提出了一种问句自动生成的方法,该方法从用户查询日志中挖取问句模版,建立查询到模板的评分机制,当查询到来时找到与之最相关的模板,并将该查询嵌入模板中。实验结果显示我们的方法的1-best准确率为67%,比互动类问答知识库百度知道的搜索算法效果更好。第二,基于用户查询日志中文查询压缩。互联网搜索引擎的查询有越来越长的趋势,并且长查询由于含有冗余信息搜索结果相对不佳,为此我们研究长查询压缩技术。将长查询分词,利用有监督机器学习的方法以词为单位判断这个词是否为查询中的关键成分。分别采用基于支持向量机的分类方法和基于条件随机域模型的序列化标注方法,实验对比两种方法的结果,序列化标注方法的效果更好。同时,通过分析不同特征对关键成分识别的影响,增加了新的有效特征,改进查询压缩的效果。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究的目的和意义
  • 1.2 国内外相关研究现状
  • 1.2.1 搜索引擎工作原理概述
  • 1.2.2 基于用户查询日志的研究
  • 1.2.3 查询扩展研究综述
  • 1.2.4 查询压缩研究综述
  • 1.3 本文的研究内容
  • 1.3.1 研究内容概述
  • 1.3.2 本文主要创新点
  • 1.4 本文的内容安排
  • 第2章 查询问句自动生成
  • 2.1 引言
  • 2.2 互动问答类知识库使用方法
  • 2.3 面向互动类知识库的查询问句自动生成技术
  • 2.3.1 问句自动生成算法概要
  • 2.3.2 问句模板挖掘
  • 2.3.3 查询之间的相似性计算
  • 2.3.4 利用Map Reduce 分布式处理框架处理海量数据
  • 2.3.5 融合统计语言模型
  • 2.4 问句自动生成结果分析
  • 2.5 问句自动生成的不足和改进措施
  • 2.6 本章小结
  • 第3章 基于支持向量机的查询压缩
  • 3.1 引言
  • 3.2 支持向量机
  • 3.3 基于支持向量机的查询压缩
  • 3.3.1 实验数据
  • 3.3.2 评价指标
  • 3.3.3 实验特征
  • 3.3.4 实验结果及分析
  • 3.4 本章小结
  • 第4章 基于条件随机域的查询压缩
  • 4.1 引言
  • 4.2 条件随机域模型
  • 4.2.1 从隐马尔科夫模型到条件随机域模型
  • 4.3 基于条件随机域模型的查询压缩
  • 4.3.1 实验设置
  • 4.3.2 实验结果
  • 4.4 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].信息搜寻中用户查询重构研究综述[J]. 图书情报工作 2014(11)
    • [2].一种基于用户查询行为模型的案例查询算法[J]. 计算机工程与应用 2012(06)
    • [3].基于CGI的用户查询系统的实现[J]. 黑龙江科技信息 2013(24)
    • [4].基于用户查询与样本间匹配度评估的分层抽样策略[J]. 计算机应用与软件 2019(08)
    • [5].基于用户查询的多关系群体挖掘改进算法[J]. 计算机技术与发展 2008(06)
    • [6].搜索引擎用户查询的广告点击意图分析[J]. 哈尔滨工业大学学报 2013(01)
    • [7].云平台下服务资源用户查询提取仿真研究[J]. 计算机仿真 2017(09)
    • [8].几种排序算法对比分析[J]. 中国新通信 2017(01)
    • [9].搜索引擎用户行为与用户满意度的关联研究[J]. 中文信息学报 2014(01)
    • [10].CBIR用户查询模式及系统构建[J]. 图书情报工作 2014(06)
    • [11].基于用户查询日志的查询聚类[J]. 北京航空航天大学学报 2010(04)
    • [12].一种高效的用户查询模式匹配算法[J]. 陕西师范大学学报(自然科学版) 2008(01)
    • [13].物联网用户查询目标自动推荐算法仿真研究[J]. 计算机仿真 2019(02)
    • [14].个性化元搜索引擎中的查询优化[J]. 重庆工学院学报(自然科学版) 2008(09)
    • [15].基于用户查询日志的双级缓存结构设计[J]. 信息网络安全 2012(06)
    • [16].基于形式概念分析的用户查询词与网页匹配方法(英文)[J]. 西华大学学报(自然科学版) 2008(06)
    • [17].一种用户连续查询中隐私风险评估的方法[J]. 智能计算机与应用 2019(03)
    • [18].基于用户查询偏好的搜索排序算法[J]. 电脑知识与技术 2013(11)
    • [19].基于用户日志双向聚类的查询扩展方法[J]. 数字技术与应用 2011(12)
    • [20].基于TF-IQF模型的查询建议[J]. 计算机工程 2010(21)
    • [21].基于半监督话题模型的用户查询日志命名实体挖掘[J]. 中文信息学报 2012(05)
    • [22].网络用户导航类查询意图识别研究[J]. 情报资料工作 2017(03)
    • [23].一种融入用户点击模型Word2Vec查询词聚类[J]. 小型微型计算机系统 2016(04)
    • [24].利用主题内容排序的伪相关反馈[J]. 计算机科学与探索 2017(05)
    • [25].用户查询日志中的中文机构名识别[J]. 现代图书情报技术 2014(01)
    • [26].利用主题标引进行查询重排序[J]. 现代图书情报技术 2014(Z1)
    • [27].学术平台用户查询扩展行为影响因素研究[J]. 情报科学 2016(09)
    • [28].面向查询的专利文献自动摘要方法[J]. 产业与科技论坛 2014(16)
    • [29].用户查询图书馆信息资源途径的调查与分析——以上海应用技术学院为例[J]. 现代情报 2011(10)
    • [30].结合用户日志的局部上下文分析方法[J]. 计算机工程与应用 2012(12)

    标签:;  ;  ;  ;  

    基于用户查询日志的中文互联网问句自动生成和查询压缩研究
    下载Doc文档

    猜你喜欢