WEB个性化信息采集与管理关键技术研究

WEB个性化信息采集与管理关键技术研究

论文摘要

根据国家信息产业部对振兴软件业和推动社会服务信息化的具体要求,以及政府、企事业单位对WEB个性化信息采集与管理的需求,Web信息服务行业已成为目前最热门的行业之一。然而面对目前通用搜索引擎的诸多缺陷,使得人们不再满足于充当关键词的提供者,因此用户如何参与到WEB个性化信息采集与管理,并提供智能化、个性化、语义化的信息服务已成为人们的迫切需求。基于人们的迫切需求,本文针对WEB个性化信息采集与管理的相关技术进行研究,主要研究工作包括以下几个方面:(1)分析信息源结构,提出一种基于网络爬虫、元搜索引擎、深网搜索三种搜索策略的WEB信息采集方法;然后分析网页结构,根据个性化定制内容,提出一种基于双重净化的网页主题内容提取方法,从而达到WEB信息个性化采集的目的。(2)分析网页的HTML结构特点,提出一种根据用户偏好进行网页去重和净化算法。通过抽取网页要素中用户偏好的短语来抽取网页的内容,根据学习的网页内容设置兴趣库,利用经典逻辑推理推测出它们的相似度来判断网页的重复度。实验结果表明,该方法能够完成针对中文内容网页的去重,并得到相对较高的查全率和查准率。(3)针对企事业单位关注的网络评论,提出一种基于语言学结构的情感倾向识别模型,即:固定情感词元模型。该方法利用基于固定情感词元的三种特定搭配模式来构造识别算法,通过基于增量的tf-idf模型的相关用户反馈不断更新特征词元集合,通过与传统的情感识别方法相比较,可以得到较为明显地提高情感分类的效率和准确率。(4)分析用户的搜索行为,提出一种用户搜索行为预测模型:ARIMA-SVM模型。该方法首先将一段时间内特定用户使用搜索的行为记录视为有序的随机序列,通过特征选择和文档表示的方法抽取搜索行为特征并进行标记,然后利用ARIMA时序分析方法来近似描述这一期的搜索行为记录,从而预测下一期的用户搜索行为,最后采用基于RBF核的SVM分类器去除噪声提高预测精确度。实验测试表明,新方法能够纠正预测用户行为的方向,与ARIMA模型相比,具有更好的预测性能。本文最后设计和实现了一个网络个性化采集与管理系统,并对文中所提出的算法与模型进行试验与分析,试验数据表明本系统在WEB个性化信息采集的查准率和召回率,以及WEB信息的个性化管理和分析方面都取得了较好的效果。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题背景及意义
  • 1.2 国内外研究现状
  • 1.3 研究内容及目标
  • 1.4 论文的结构安排
  • 第二章 WEB个性化信息定制采集与提取
  • 2.1 WEB个性化信息采集
  • 2.1.1 搜索策略分析
  • 2.1.2 WEB个性化信息采集框架简介
  • 2.2 WEB个性化信息提取
  • 2.2.1 信息提取的具体步骤
  • 2.2.2 基于双重净化的网页主题内容提取
  • 2.2.3 实验结果与性能分析
  • 2.3 本章小结
  • 第三章 WEB个性化信息去重
  • 3.1 网页重复与网页去重
  • 3.1.1 网页去重的特点
  • 3.1.2 网页去重方法
  • 3.1.3 检索系统中的匹配方式
  • 3.2 网页主题要素的去重算法
  • 3.2.1 主题要素提取
  • 3.2.2 主题要素的关系
  • 3.2.3 去重算法设计
  • 3.3 基于经典逻辑推理的去重算法
  • 3.3.1 经典逻辑推理
  • 3.3.2 冲突消解策略
  • 3.3.3 去重流程设计
  • 3.4 实验结果与分析
  • 3.5 本章小结
  • 第四章 WEB个性化信息分析
  • 4.1 情感倾向识别的传统方法
  • 4.1.1 预处理
  • 4.1.2 情感特征选择
  • 4.1.3 文档表示
  • 4.2 FST模型
  • 4.2.1 网络评论的语言学结构
  • 4.2.2 固定语义词元的识别算法
  • 4.2.3 动态更新特征词元
  • 4.3 实验及结果分析
  • 4.3.1 实验数据集和测试方法
  • 4.3.2 实验结果评测指标
  • 4.3.3 分类器
  • 4.4 结果与分析
  • 4.5 本章小结
  • 第五章 WEB个性化信息预测
  • 5.1 预测用户的搜索行为分析
  • 5.2 ARIMA模型
  • 5.3 SVM分类器
  • 5.4 预测性能评价指标
  • 5.5 实验验证
  • 5.5.1 实验步骤
  • 5.5.2 ARIMA模型数据处理
  • 5.6 预测结果及分析
  • 5.7 本章小结
  • 第六章 搭建WEB个性化信息定制与管理系统
  • 6.1 需求分析
  • 6.2 系统目标及设计
  • 6.2.1 系统目标
  • 6.2.2 系统设计原则
  • 6.2.3 开发环境
  • 6.2.4 数据库设计
  • 6.2.5 系统架构设计
  • 6.2.6 系统编程思路
  • 6.2.7 系统功能模块设计
  • 6.3 WEB个性化信息采集与管理系统实现
  • 6.3.1 准备工作
  • 6.3.2 系统实现
  • 6.4 本章小结
  • 总结与展望
  • 总结
  • 下一步研究工作
  • 致谢
  • 参考文献
  • 附录1 攻读硕士学位期间发表论文目录
  • 附录2 攻读硕士学位期间获得科研鉴定成果
  • 相关论文文献

    • [1].谈新形势下图书馆信息采集工作的变化及其对策[J]. 品位经典 2019(12)
    • [2].基于电力信息采集的计量管理探究[J]. 科技创新与应用 2020(05)
    • [3].试论“新技术+警务”背景下基层公安信息采集——以某公安分局信息采集模式为例[J]. 科技传播 2020(05)
    • [4].大数据对档案信息采集和管理工作的影响初探[J]. 数字通信世界 2020(08)
    • [5].档案学视角下的突发事件网络信息采集策略初探——以新冠肺炎疫情相关开源项目为例[J]. 档案学通讯 2020(05)
    • [6].江苏启动知识产权质押融资需求信息采集工作[J]. 河南科技 2018(12)
    • [7].我国工业遗产信息采集与管理体系建构总述[J]. 城市建筑 2019(19)
    • [8].太阳能农机发动机监测系统设计—基于智慧农业物联网信息采集[J]. 农机化研究 2018(05)
    • [9].大数据下图书馆信息采集编撰整合研究[J]. 无线互联科技 2018(06)
    • [10].农业信息采集与开发及信息资源开发利用模式探讨[J]. 山东工业技术 2016(23)
    • [11].大数据时代网络下云信息采集方法的改进与研究[J]. 电子技术与软件工程 2016(21)
    • [12].山东推进“多表合一”信息采集[J]. 农村电气化 2017(09)
    • [13].大规模定制家具销售过程中的信息采集与处理[J]. 林业工程学报 2016(01)
    • [14].美国管理预算局对政府信息采集的影响及启示[J]. 图书馆论坛 2014(12)
    • [15].嵌入性视角下信息采集学课程“翻转课堂”教学模式研究[J]. 现代情报 2015(01)
    • [16].青海省人民政府办公厅关于规范信息采集使用管理的意见(暂行)[J]. 西宁市人民政府公报 2019(11)
    • [17].浅谈“互联网+”时代的数字化校园建设[J]. 吉林教育 2016(43)
    • [18].浅谈职业信息采集对促进大学生就业的重要性[J]. 青春岁月 2013(07)
    • [19].地空两用信息采集机器人设计[J]. 农机化研究 2021(08)
    • [20].历史档案数字化信息采集之我见[J]. 数字与缩微影像 2020(04)
    • [21].浅谈基础性地理国情监测变化信息采集[J]. 测绘与空间地理信息 2020(03)
    • [22].陆空两栖农业信息采集机器人设计[J]. 农机化研究 2020(11)
    • [23].公安大数据预测与信息采集研究[J]. 数字通信世界 2019(10)
    • [24].用电信息采集运行维护管理的探讨和研究[J]. 中国战略新兴产业 2018(24)
    • [25].医学信息采集的策略与方法[J]. 中国高新区 2017(24)
    • [26].农田信息采集装备用光伏电池封装材料研究[J]. 科技资讯 2015(23)
    • [27].谈图书馆信息采集工作开展[J]. 戏剧之家 2016(07)
    • [28].强化灭火救援综合信息采集工作分析[J]. 消防界(电子版) 2016(08)
    • [29].论做好职业信息采集对促进大学生就业工作的重要性[J]. 人力资源管理 2015(10)
    • [30].北京完成16万名儿童小学入学信息采集[J]. 中国校外教育 2014(17)

    标签:;  ;  ;  ;  ;  

    WEB个性化信息采集与管理关键技术研究
    下载Doc文档

    猜你喜欢