论文摘要
根据国家信息产业部对振兴软件业和推动社会服务信息化的具体要求,以及政府、企事业单位对WEB个性化信息采集与管理的需求,Web信息服务行业已成为目前最热门的行业之一。然而面对目前通用搜索引擎的诸多缺陷,使得人们不再满足于充当关键词的提供者,因此用户如何参与到WEB个性化信息采集与管理,并提供智能化、个性化、语义化的信息服务已成为人们的迫切需求。基于人们的迫切需求,本文针对WEB个性化信息采集与管理的相关技术进行研究,主要研究工作包括以下几个方面:(1)分析信息源结构,提出一种基于网络爬虫、元搜索引擎、深网搜索三种搜索策略的WEB信息采集方法;然后分析网页结构,根据个性化定制内容,提出一种基于双重净化的网页主题内容提取方法,从而达到WEB信息个性化采集的目的。(2)分析网页的HTML结构特点,提出一种根据用户偏好进行网页去重和净化算法。通过抽取网页要素中用户偏好的短语来抽取网页的内容,根据学习的网页内容设置兴趣库,利用经典逻辑推理推测出它们的相似度来判断网页的重复度。实验结果表明,该方法能够完成针对中文内容网页的去重,并得到相对较高的查全率和查准率。(3)针对企事业单位关注的网络评论,提出一种基于语言学结构的情感倾向识别模型,即:固定情感词元模型。该方法利用基于固定情感词元的三种特定搭配模式来构造识别算法,通过基于增量的tf-idf模型的相关用户反馈不断更新特征词元集合,通过与传统的情感识别方法相比较,可以得到较为明显地提高情感分类的效率和准确率。(4)分析用户的搜索行为,提出一种用户搜索行为预测模型:ARIMA-SVM模型。该方法首先将一段时间内特定用户使用搜索的行为记录视为有序的随机序列,通过特征选择和文档表示的方法抽取搜索行为特征并进行标记,然后利用ARIMA时序分析方法来近似描述这一期的搜索行为记录,从而预测下一期的用户搜索行为,最后采用基于RBF核的SVM分类器去除噪声提高预测精确度。实验测试表明,新方法能够纠正预测用户行为的方向,与ARIMA模型相比,具有更好的预测性能。本文最后设计和实现了一个网络个性化采集与管理系统,并对文中所提出的算法与模型进行试验与分析,试验数据表明本系统在WEB个性化信息采集的查准率和召回率,以及WEB信息的个性化管理和分析方面都取得了较好的效果。
论文目录
相关论文文献
- [1].谈新形势下图书馆信息采集工作的变化及其对策[J]. 品位经典 2019(12)
- [2].基于电力信息采集的计量管理探究[J]. 科技创新与应用 2020(05)
- [3].试论“新技术+警务”背景下基层公安信息采集——以某公安分局信息采集模式为例[J]. 科技传播 2020(05)
- [4].大数据对档案信息采集和管理工作的影响初探[J]. 数字通信世界 2020(08)
- [5].档案学视角下的突发事件网络信息采集策略初探——以新冠肺炎疫情相关开源项目为例[J]. 档案学通讯 2020(05)
- [6].江苏启动知识产权质押融资需求信息采集工作[J]. 河南科技 2018(12)
- [7].我国工业遗产信息采集与管理体系建构总述[J]. 城市建筑 2019(19)
- [8].太阳能农机发动机监测系统设计—基于智慧农业物联网信息采集[J]. 农机化研究 2018(05)
- [9].大数据下图书馆信息采集编撰整合研究[J]. 无线互联科技 2018(06)
- [10].农业信息采集与开发及信息资源开发利用模式探讨[J]. 山东工业技术 2016(23)
- [11].大数据时代网络下云信息采集方法的改进与研究[J]. 电子技术与软件工程 2016(21)
- [12].山东推进“多表合一”信息采集[J]. 农村电气化 2017(09)
- [13].大规模定制家具销售过程中的信息采集与处理[J]. 林业工程学报 2016(01)
- [14].美国管理预算局对政府信息采集的影响及启示[J]. 图书馆论坛 2014(12)
- [15].嵌入性视角下信息采集学课程“翻转课堂”教学模式研究[J]. 现代情报 2015(01)
- [16].青海省人民政府办公厅关于规范信息采集使用管理的意见(暂行)[J]. 西宁市人民政府公报 2019(11)
- [17].浅谈“互联网+”时代的数字化校园建设[J]. 吉林教育 2016(43)
- [18].浅谈职业信息采集对促进大学生就业的重要性[J]. 青春岁月 2013(07)
- [19].地空两用信息采集机器人设计[J]. 农机化研究 2021(08)
- [20].历史档案数字化信息采集之我见[J]. 数字与缩微影像 2020(04)
- [21].浅谈基础性地理国情监测变化信息采集[J]. 测绘与空间地理信息 2020(03)
- [22].陆空两栖农业信息采集机器人设计[J]. 农机化研究 2020(11)
- [23].公安大数据预测与信息采集研究[J]. 数字通信世界 2019(10)
- [24].用电信息采集运行维护管理的探讨和研究[J]. 中国战略新兴产业 2018(24)
- [25].医学信息采集的策略与方法[J]. 中国高新区 2017(24)
- [26].农田信息采集装备用光伏电池封装材料研究[J]. 科技资讯 2015(23)
- [27].谈图书馆信息采集工作开展[J]. 戏剧之家 2016(07)
- [28].强化灭火救援综合信息采集工作分析[J]. 消防界(电子版) 2016(08)
- [29].论做好职业信息采集对促进大学生就业工作的重要性[J]. 人力资源管理 2015(10)
- [30].北京完成16万名儿童小学入学信息采集[J]. 中国校外教育 2014(17)