农业知识推送模型及向量特征项提取算法研究

农业知识推送模型及向量特征项提取算法研究

论文摘要

在“十二五”期间,农业信息化已经明确成为我国社会发展和国民经济前进的重要任务。目前,信息技术在现代农业发展过程中的运用已经成为一种必然趋势,信息化服务成为许多发达国家农业科技推广与服务的主要方式之一。对于农业科技服务的主体—农民,如何在海量的信息中提取有价值或者农民感兴趣的信息成为农业信息化服务过程中文本信息研究处理的热点之一。湖南省农村信息综合服务平台引入信息推送技术,建立农业信息推送模块,该模块采用基于内容的推荐技术,通过建立农民兴趣模型和文档特征模型,对农民进行个性化的农业信息推送服务。在传统的推荐模块基础上,本平台考虑了用户不同的兴趣需求,以及整个模块的自适应修正问题,使本平台的推荐模块更满足农民的使用需要。同时,分析了传统的特征提取方法的不足,考虑特征项在不同表空间的分布情况以及HTML文档结构对计算特征项权重影响,并对传统算法进行了改进,并使用支撑词语义均衡化来减小方言对于特征词权重引起的偏斜问题。本文主要工作如下:(1)分析现有推荐技术的研究进展和各自的优缺点(2)提出湖南省农村信息服务平台下农业信息推送整体架构(3)在用户兴趣模型和文档特征模型中,分析现有特征提取方法TF-IDF和TF-IDF-IG,并得出其各自的不足。第一,TF-IDF算法只从特征项在文档和文档集合中的出现频率出发,没有考虑特征项在文档中的分布情况。另外,针对知识库中的文档数可能出现的在各产业类别中数据量极其不平衡问题,因此在进行特征项权重计算时应该设法消除这种数量级的差异。第二,TF-IDF-IG在一定程度上对TF-IDF的做了改进,但并不彻底,TF-IDF-IG只考虑了词语在整个文档集合中的分布情况,而没有考虑特征项在不同产业表空间的分布情况以及HTML文档结构对计算特征项权重影响。第三,由于本项目是基于农业数据的,农业数据与其他行业的数据相比,其有很强的地域性,因此还需要考虑方言对于特征项权重的影响,本文提出支撑词语义均衡化来解决这一问题。(4)从不同产业表空间的分布情况、HTML文档结构方面改进传统特征提取算法,并且通过分类器将用户兴趣进行分类,从而降低了用户兴趣模型与文档特征模型进行相似度计算时的计算量。(5)将改进的算法与TF-IDF、TF-IDF-IG算法在分类器上进行实验对比其Precision、Recall、F1值。首先,通过本项目组自主开发的农业spider程序在internet上爬取海量的农业信息作为测试数据。然后,随机选取用户数目N=25、50、100、200的4组用户作为模拟用户进行实验,并得出推送模型的Precision、Recall、F1值。实验说明改进算法是可行有效的,当用户呈倍数增长时,推送模型的Precision、Recall、F1值也在增长,说明本模型随着其计算量的增大,其精确度收敛,具有很好的扩展性。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1 研究目的及意义
  • 2 国内外研究发展动态
  • 2.1 推荐系统
  • 2.2 向量特征项提取算法
  • 3 本文主要研究内容
  • 第二章 湖南省农村信息化服务平台——农业信息推送模型
  • 1 推荐系统
  • 1.1 协同过滤推荐系统
  • 1.1.1 用户兴趣文件
  • 1.1.2 生成最近邻居集
  • 1.1.3 产生推荐结果
  • 1.1.4 优势及不足
  • 1.2 基于内容的推荐
  • 1.2.1 无法对多媒体数据类型进行处理
  • 1.2.2 无法自动更新
  • 1.2.3 过度特征化
  • 1.2.4 推荐质量
  • 1.3 混合推荐
  • 1.4 基于数据挖掘推荐
  • 2 湖南省农村信息综合服务平台
  • 3 农业信息推送模型
  • 3.1 技术路线
  • 3.1.1 数据采集
  • 3.1.2 数据预处理
  • 3.1.3 文本表示
  • 3.1.4 特征提取
  • 3.1.5 相似度计算
  • 3.1.6 推送机制
  • 3.1.7 模型修正
  • 3.2 整体架构
  • 3.2.1 收集信息并进行预处理
  • 3.2.2 分词
  • 3.2.3 用户兴趣
  • 3.2.4 特征提取
  • 3.2.5 用户兴趣分类
  • 3.2.6 相似度计算
  • 3.2.7 信息推送
  • 3.2.8 反馈修正
  • 第三章 特征选择算法改进
  • 1 文本表示
  • 1.1 布尔方法
  • 1.2 概率方法
  • 1.3 空间向量模型
  • 2 特征提取方法
  • 2.1 布尔函数
  • 2.2 词语频率(Term Frequency,TF)
  • 2.3 反文档词频(Inverse document frequency,IDF)
  • 2.4 信息增益(Information Gain,IG)
  • 2.5 互信息(MutualInformation,MI)
  • 2统计量(CHI)'>2.6 χ2统计量(CHI)
  • 2.7 期望交叉熵(Expected Cross Entropy)
  • 2.8 几率比(Odds ratio)
  • 2.9 TF-IDF
  • 2.10 TF-IDF-IG算法
  • 3 本文提出的改进算法
  • 3.1 基于产业类型表空间对TF-IDF-IG进行改进
  • 3.2 从HTML结构上对TF-IDF-IG进行改进
  • 3.3 缓解数量级差别引起的数据不平衡问题
  • 3.4 支撑词语义均衡化修正
  • 3.5 算法的具体描述
  • 3.5.1 相关定义
  • 3.5.2 改进算法
  • 第四章 实验描述及结果分析
  • 1 实验总体方案介绍
  • 2 评估方法
  • 2.1 查全率(Recall)
  • 2.2 查准率(Precision)
  • 2.3 F1值
  • 3 实验细节设计及实现
  • 3.1 数据来源
  • 3.2 分词
  • 3.3 用户兴趣特征向量
  • 3.3.1 用户长期兴趣算法
  • 3.3.2 用户短期兴趣算法
  • 3.3.3 用户兴趣特征
  • 3.4 特征提取
  • 3.5 用户兴趣分类
  • 4 实验结论比较
  • 4.1 改进的特征提取算法
  • 4.2 推送结果
  • 第五章 总结与展望
  • 1 工作总结
  • 2 下阶段工作
  • 参考文献
  • 致谢
  • 作者简介
  • 相关论文文献

    • [1].中文网络评论的情感特征项选择研究[J]. 信息系统学报 2012(01)
    • [2].应用特征项分布信息的信息增益改进方法研究[J]. 山东大学学报(理学版) 2009(11)
    • [3].一种带有显著特征项的模糊聚类算法[J]. 河南大学学报(自然科学版) 2011(02)
    • [4].基于特征项权重自动分解的文本聚类[J]. 计算机工程 2011(11)
    • [5].基于位置的特征项权重算法[J]. 中国新技术新产品 2011(14)
    • [6].基于特征项聚合的古典诗歌分类模型[J]. 东华大学学报(自然科学版) 2014(05)
    • [7].基于科技论文多特征项共现突发强度分析方法的算法实现与可视化图谱研究[J]. 图书情报工作 2015(24)
    • [8].本体视图特征项提取算法及其在智能检索中的应用[J]. 图书情报工作 2010(10)
    • [9].基于特征项分布的信息熵及特征动态加权概念漂移检测模型[J]. 电子学报 2015(07)
    • [10].基于特征项区分度的加权朴素贝叶斯邮件过滤方法[J]. 计算机应用与软件 2015(10)
    • [11].基于语义特征项列表的工艺知识推送技术研究[J]. 现代制造工程 2016(09)
    • [12].基于科技文献多特征项共现的图谱可视化方法研究[J]. 中国科技资源导刊 2017(01)
    • [13].基于特征项扩展的中文文本分类方法[J]. 应用科技 2010(03)
    • [14].基于Spark和改进的TF-IDF算法的用户特征分析[J]. 软件工程 2016(10)
    • [15].基于本体视图特征项抽取方法研究[J]. 计算机应用研究 2010(01)
    • [16].基于特征项的文献共现网络在学术信息检索中的应用[J]. 图书情报工作 2014(15)
    • [17].文本分类中一种改进的特征项权重计算方法[J]. 福建师范大学学报(自然科学版) 2020(02)
    • [18].一种基于词长的TFIDF特征项权值计算方法[J]. 电脑知识与技术 2011(32)
    • [19].领域概念术语提取中特征项自动抽取方法[J]. 计算机工程与设计 2012(08)
    • [20].科研机构的科研状况研究——基于论文特征项共现分析方法[J]. 国家图书馆学刊 2011(03)
    • [21].基于特征相关的改进加权朴素贝叶斯分类算法[J]. 厦门大学学报(自然科学版) 2012(04)
    • [22].基于音频特征的乐器分类研究[J]. 软件导刊 2018(06)
    • [23].一种结合文档频率和互信息的特征项提取方法[J]. 电脑知识与技术 2012(11)
    • [24].Web文本分类中特征项权重的研究[J]. 科技和产业 2010(02)
    • [25].基于IPA评价的上海世博会服务特征感知实证研究[J]. 中国市场 2010(49)
    • [26].基于LSI/SVD的文本分类方法研究[J]. 微计算机信息 2009(30)
    • [27].Web文本分类技术研究[J]. 福建电脑 2008(09)
    • [28].结合CHI统计和改进TF-IDF算法的微博特征项提取[J]. 电子世界 2016(22)
    • [29].基于DOM的信息检索研究[J]. 信息网络安全 2014(05)
    • [30].改进TF-IDF算法的文本特征项权值计算方法[J]. 图书情报工作 2013(03)

    标签:;  ;  ;  

    农业知识推送模型及向量特征项提取算法研究
    下载Doc文档

    猜你喜欢