基于Query分析的中心词与需求词搭配关系的自动挖掘

基于Query分析的中心词与需求词搭配关系的自动挖掘

论文摘要

Web日志数据挖掘技术是一种广泛运用于互联网的技术。其目的是从互联网海量日志数据中挖掘有意义、有价值的数据和信息,从而指导搜索引擎更好的满足人们的查询需求。当前web搜索引擎对以自然语言形式提出的查询语句query分析重视不够,主要体现在对语句分词后不加区分地将所有分词结果作为检索单位,送入检索系统。由于检索前端语言分析对用户信息需求把握不准,后台各种复杂处理流程就成了无源之水,无本之木。本论文将着眼于对用户query这一表述用户特定信息需求的独特语言现象进行分析,为检索系统提供一个良好的前端处理。如:用户输入“手机”就有可能隐含着有对“价格”的需求。其中“手机”就是用户查询query中的中心词,而“价格”可以作为用户查询的中心词对应的需求词。分析query中的中心词和表征用户需求的词语之间的搭配关系,可以建立词与词之间的关系网络,能用于query意图判断,query扩展等方面,能更好的指导索引来满足用户搜索的需求。本文利用web数据挖掘技术提出了一种从大规模日志中挖掘query中的中心词与其对应的需求词的搭配关系的方法。首先利用制定的规则模板按不同中心词类别(如商品类,软件类),提取出不同类别对应的整体候选需求词,然后按照词聚类方法得到每个中心词与其对应的需求词列表,最后按照统计及搭配的方法对需求词进行过滤,最终得到中心词与需求词的对应关系。系统结果显示中心词与需求词搭配关系的正确率达到了90%左右,此方法具有实用的价值。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 课题的研究现状
  • 1.3 论文的主要研究内容
  • 1.4 论文结构
  • 第2章 信息检索系统与web日志挖掘
  • 2.1 信息检索系统
  • 2.1.1 检索模型
  • 2.1.2 反馈优化
  • 2.1.3 词语失配的解决
  • 2.2 Web日志挖掘
  • 2.2.1 日志记录的内容
  • 2.2.2 日志的预处理过程
  • 第3章 词聚类与搭配关系识别
  • 3.1 词聚类方法
  • 3.1.1 聚类流程
  • 3.1.2 词的表示方法
  • 3.1.3 特征需求词权重的选择
  • 3.1.4 聚类方法
  • 3.1.5 聚类评价方法
  • 3.2 搭配关系的识别
  • 3.2.1 搭配的概述
  • 3.2.2 搭配的定义
  • 3.2.3 搭配的识别方法
  • 第4章 需求词的自动挖掘
  • 4.1 数据选取
  • 4.2 利用规则模版对待定需求词进行挖掘
  • 4.3 对中心词进行聚类
  • 4.4 挖掘中心词对应的需求词列表
  • 4.5 中心词与需求词自动挖掘的整体流程图
  • 第5章 实验与分析
  • 5.1 实验待评价阶段
  • 5.2 实验环境搭建
  • 5.3 实验数据
  • 5.4 实验设计
  • 5.5 实验结果与分析
  • 第6章 结论与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].Spatial skyline query method based on Hilbert R-tree in multi-dimensional space[J]. High Technology Letters 2019(03)
    • [2].Research on formalization of efficient query application problems with compound condition in software development[J]. The Journal of China Universities of Posts and Telecommunications 2017(02)
    • [3].Exploring features for automatic identification of news queries through query logs[J]. Chinese Journal of Library and Information Science 2014(04)
    • [4].Development of Engineering Material and Heat Treatment Inquiry System based on VBA[J]. International Journal of Plant Engineering and Management 2020(02)
    • [5].Distributed GEP query optimization on grid service[J]. The Journal of China Universities of Posts and Telecommunications 2010(03)
    • [6].Bottom-up mining of XML query patterns to improve XML querying[J]. Journal of Zhejiang University(Science A:An International Applied Physics & Engineering Journal) 2008(06)
    • [7].Semantic composition of distributed representations for query subtopic mining[J]. Frontiers of Information Technology & Electronic Engineering 2018(11)
    • [8].利用Power Query极速合并分析海量工作表[J]. 电脑知识与技术(经验技巧) 2019(04)
    • [9].利用Power Query快速计算数量之和[J]. 电脑知识与技术(经验技巧) 2019(05)
    • [10].An Energy-Efficient Query Based on Variable Region for Large-Scale Smart Grid[J]. 中国通信 2016(10)
    • [11].Identifying user intent through query refinements[J]. Chinese Journal of Library and Information Science 2013(03)
    • [12].l-SkyDiv query:Effectively improve the usefulness of skylines[J]. Science China(Information Sciences) 2010(09)
    • [13].借助Power Query实现数据的快速转换[J]. 电脑知识与技术(经验技巧) 2016(02)
    • [14].Design and development of real-time query platform for big data based on hadoop[J]. High Technology Letters 2015(02)
    • [15].借助Power Query快速转换数据[J]. 电脑爱好者 2016(05)
    • [16].An adaptive range-query optimization technique with distributed replicas[J]. Journal of Central South University 2014(01)
    • [17].浅谈CSS3 Media Query的使用方法[J]. 科技资讯 2019(27)
    • [18].基于Power Query的2017年天津市食品地方抽检数据分析[J]. 食品安全导刊 2018(15)
    • [19].A query index for continuous queries on RFID streaming data[J]. Science in China(Series F:Information Sciences) 2008(12)
    • [20].Improving SPARQL query performance with algebraic expression tree based caching and entity caching[J]. Journal of Zhejiang University-Science C(Computers & Electronics) 2012(04)
    • [21].Efficient Path Query and Reasoning Method Based on Rare Axis[J]. Transactions of Tianjin University 2015(03)
    • [22].Investigating the relationships between facets of work task and selection and query-related behavior[J]. Chinese Journal of Library and Information Science 2012(01)
    • [23].DB Query Analyzer中的事务管理在DB2中的应用[J]. 电脑编程技巧与维护 2011(22)
    • [24].Effcient Location Updates for Continuous Queries over Moving Objects[J]. Journal of Computer Science & Technology 2010(03)
    • [25].Adaptive Indexing of Moving Objects with Highly Variable Update Frequencies[J]. Journal of Computer Science & Technology 2008(06)
    • [26].A Designated Query Protocol for Serverless Mobile RFID Systems with Reader and Tag Privacy[J]. Tsinghua Science and Technology 2012(05)
    • [27].借助Powery Query获取沪深A股的最新行情[J]. 办公自动化 2016(13)
    • [28].A Processing Approach for Event-Based Location Aware Queries in Hybrid Wireless Sensor Networks[J]. Wuhan University Journal of Natural Sciences 2009(04)
    • [29].利用Power Query提取混合内容中的数据[J]. 电脑知识与技术(经验技巧) 2019(11)
    • [30].Cooperative Answering of Fuzzy Queries[J]. Journal of Computer Science & Technology 2009(04)

    标签:;  ;  ;  ;  ;  

    基于Query分析的中心词与需求词搭配关系的自动挖掘
    下载Doc文档

    猜你喜欢