基于搜索日志的用户行为研究及应用

基于搜索日志的用户行为研究及应用

论文摘要

搜索引擎的出现,成为互联网发展史上又一个重要的里程碑。越来越多的互联网用户开始选择搜索引擎作为其获得网络资源的首选工具。但是搜索引擎的表现并不总是尽如人意,很多时候当用户输入一个查询,搜索引擎返回成千上万个搜索结果,然而很少有用户愿意浏览三页以上的搜索结果。此外,由于用户的水平存在较大差异,不少用户构造的查询并不能完全表达其搜索意图。对搜索日志的挖掘能够有效的解决这一系列问题。本文着眼于搜索日志的分析和应用,主要对用户搜索行为模型、搜索行为分类、网页排序算法的优化、异常搜索行为的检测等问题进行研究,论文工作主要包括以下几个方面:(1)对搜索日志进行基本分析,包括搜索日志各个属性及其相互之间的关系,发现了大规模中文搜索引擎用户的一些基本搜索特征。首次引入了中文分词算法,使关于查询词的分析结果更接近中文搜索引擎实际情况。首次分析了网页URL深度和被点击次数的关系,并根据对不同时期搜索日志的分析,发现了中文搜索引擎用户的搜索行为变化趋势。(2)分别从抽象和具体的角度对用户的搜索行为进行了分类。首次从搜索日志中提取用户搜索行为模型,并从抽象的角度概括用户搜索行为的各种表现形式。通过网页分类的相似性及网页向量的相似性对模型进行了校正。为基于搜索行为的相关研究提供了基础。引入了历史查询分析,并计算了历史查询的影响因子。(3)提出了一种基于预定义类别的搜索分类算法,将基于朴素贝叶斯理论的网页分类技术和用户搜索日志相结合,使搜索分类能够体现用户的搜索意图,并且克服了因查询词过短以及词语多义性导致的分类误差。将实时搜索历史应用于搜索分类,提高了分类的准确率。(4)提出了一种网页排序优化算法。该算法在原有网页排序结果的基础上,结合用户搜索同志,采用混合频繁模式树算法,能够有效发现搜索事务的关联规则,并对查询词进行扩展。选择对原排序结果的前N个网页进行优化排序,既保证了搜索结果的相关性和覆盖率,同时使排序结果更能够体现用户的搜索需求。此外,将用户搜索行为模型应用于网页排序优化算法,通过计算历史查询词的影响因子,使排序结果能够实时体现用户搜索意图。(5)分析了异常搜索行为潜在的安全威胁,并根据不同异常搜索行为的特征对其进行了分类,包括基于内容的异常搜索及基于流量的异常搜索。提出了一个异常搜索行为检测框架,并采用优化的决策树算法对不同异常搜索行为进行检测。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1.1 研究工作的背景和意义
  • 1.2 主要研究工作
  • 1.3 论文的结构和主要内容
  • 1.4 论文研究的创新点
  • 第二章 基于搜索日志的用户行为分析
  • 2.1 前言
  • 2.1.1 国外搜索日志研究现状
  • 2.1.2 国内搜索日志研究现状
  • 2.1.3 本章研究出发点
  • 2.2 数据对象及相关工具介绍
  • 2.2.1 搜索日志
  • 2.2.2 分词工具
  • 2.3 搜索日志基本分析
  • 2.3.1 基于查询词的分析
  • 2.3.2 基于网页的分析
  • 2.3.3 基于搜索 Session的分析
  • 2.4 本章小结
  • 2.5 参考文献
  • 第三章 用户搜索行为模型
  • 3.1 前言
  • 3.2 搜索行为研究现状
  • 3.2.1 关于用户搜索行为的研究
  • 3.2.2 关于认知科学的研究
  • 3.3 用户搜索行为分析
  • 3.3.1 中文搜索引擎用户的行为特征
  • 3.3.2 抽象搜索行为的分类
  • 3.3.3 具体搜索行为的分类
  • 3.4 搜索行为模型
  • 3.4.1 模型定义
  • 3.4.2 模型的校正
  • 3.4.3 历史查询词的影响因子
  • 3.4.4 搜索行为模型定义II
  • 3.5 本章小结
  • 3.6 参考文献
  • 第四章 基于用户反馈的搜索分类
  • 4.1 前言
  • 4.2 搜索分类技术
  • 4.2.1 问题描述和定义
  • 4.2.2 相关研究现状
  • 4.3 基于预定义类别的搜索分类NBQC
  • 4.3.1 搜索分类框架
  • 4.3.2 网页分类
  • 4.3.3 搜索分类
  • 4.4 结合查询历史的搜索分类
  • 4.4.1 分类相似性计算
  • 4.4.2 结合历史查询的分类
  • 4.5 实验
  • 4.5.1 实验一
  • 4.5.2 实验二
  • 4.6 本章小节
  • 4.7 参考文献
  • 第五章 结合混合频繁模式树和用户反馈的网页排序算法
  • 5.1 前言
  • 5.2 网页排序算法研究现状
  • 5.2.1 基本排序算法
  • 5.2.2 基于用户反馈的排序算法
  • 5.3 基于历史反馈的网页排序算法FPRA
  • 5.3.1 优化排序框架
  • 5.3.2 基于FP-Tree的混合关联查询词(HFP-Growth)
  • 5.3.3 基于用户反馈的网页排序算法
  • 5.4 基于实时反馈的网页排序算法
  • 5.4.1 基于用户搜索行为模型的关键词扩展
  • 5.4.2 网页排序算法
  • 5.5 实验
  • 5.5.1 实验数据描述
  • 5.5.2 实验结果评测方法
  • 5.5.3 基于历史反馈的网页排序实验
  • 5.5.4 基于实时反馈的网页排序实验
  • 5.6 本章小结
  • 5.7 参考文献
  • 第六章 异常搜索行为检测
  • 6.1 前言
  • 6.2 异常搜索行为
  • 6.2.1 搜索行为的潜在威胁
  • 6.2.2 高级搜索方式的潜在威胁
  • 6.2.3 异常搜索行为分类
  • 6.3 异常行为检测框架
  • 6.3.1 数据挖掘框架
  • 6.3.2 相关定义
  • 6.4 基于决策树的异常搜索行为检测(DTBASD)
  • 6.4.1 基于内容的异常搜索行为检测模型(CDM)
  • 6.4.2 基于流量的异常搜索行为检测模型(TDM)
  • 6.5 实验
  • 6.5.1 实验数据描述
  • 6.5.2 基于内容的异常搜索行为检测实验
  • 6.5.3 基于流量的异常搜索行为检测实验
  • 6.5.4 讨论
  • 6.6 本章小结
  • 6.7 参考文献
  • 第七章 结束语
  • 7.1 论文总结和创新点
  • 7.2 进一步的研究工作
  • 攻读博士学位期间发表的论文
  • 附录 主要缩略词中英文对照
  • 致谢
  • 相关论文文献

    • [1].高职学生实习日志内容潜在价值的研究[J]. 湖南邮电职业技术学院学报 2019(04)
    • [2].基于数据挖掘的服务器日志预警方法研究[J]. 价值工程 2020(02)
    • [3].日志功能使用问答[J]. 网络安全和信息化 2020(05)
    • [4].基于信息熵的无标日志划分评价方法[J]. 计算机集成制造系统 2020(06)
    • [5].基于不完备日志联合发生关系的行为变化挖掘方法[J]. 计算机集成制造系统 2020(07)
    • [6].多节点系统异常日志流量模式检测方法[J]. 软件学报 2020(10)
    • [7].刘霜:扶贫日志的背后[J]. 共产党员(河北) 2019(09)
    • [8].一种利用日志划分从复杂日志中挖掘块结构过程的方法[J]. 计算机科学 2019(11)
    • [9].2017年度“我的质量日志”征文活动现已启动[J]. 中国质量 2017(10)
    • [10].相关链接:关于开展2017年度“我的质量日志”征文活动的通知[J]. 中国质量 2017(08)
    • [11].碎物日志[J]. 东方艺术 2016(09)
    • [12].新教师撰写教学反思日志存在的问题及矫正[J]. 教学与管理 2016(26)
    • [13].扶贫日志[J]. 词刊 2020(04)
    • [14].我的“日行一善”日志[J]. 少年月刊 2020(Z1)
    • [15].扶贫日志·立春[J]. 美术界 2020(08)
    • [16].《青春日志》[J]. 湖南教育(D版) 2019(06)
    • [17].窃不是偷,QQ空间日志转载没商量[J]. 电脑爱好者 2009(14)
    • [18].真的! 不扣分照样能删除日志[J]. 电脑迷 2010(23)
    • [19].分享访问受限的QQ空间日志[J]. 电脑爱好者 2011(19)
    • [20].钢铁日志3[J]. 当代工人(D版) 2018(Z1)
    • [21].学生反思日志在口译教学中的应用探究[J]. 中国外语教育 2014(01)
    • [22].牛轰轰的日志[J]. 中学生 2014(04)
    • [23].欢歌十八大[J]. 老友 2012(09)
    • [24].微博帮忙写日志[J]. 少年电脑世界 2013(Z2)
    • [25].HAPPY“画”日志[J]. 宠物世界(猫迷) 2009(07)
    • [26].HAPPY“画”日志[J]. 宠物世界(猫迷) 2009(09)
    • [27].节能日志(一)[J]. 青少年日记(小学生版) 2009(11)
    • [28].夏日志(长诗节选)[J]. 星星诗刊(上半月刊) 2009(01)
    • [29].画手日志[J]. 布老虎青春文学 2010(08)
    • [30].陶陶日志[J]. 作文成功之路(下) 2010(Z2)

    标签:;  ;  ;  ;  ;  ;  ;  

    基于搜索日志的用户行为研究及应用
    下载Doc文档

    猜你喜欢