海量短语信息挖掘技术的研究与实现

海量短语信息挖掘技术的研究与实现

论文摘要

互连网和信息技术的飞速发展造成海量的数据积累,其中很大一部分是短文数据,如文章摘要和聊天室的会话。对海量的短文数据进行自动的分析和挖掘,从中获取有价值的隐含知识,已经成为一项迫切的需求。与普通文档不同,短文中关键词出现的次数很少,传统的基于词频的文本挖掘技术在处理短文数据时很难得到可接受的准确度。同时,面对几百GB甚至TB级的海量数据,传统的文本挖掘算法变的很低效甚至根本无法运行。本文在对海量短语信息挖掘的研究现状和面临的挑战进行深入分析的基础上,以海量数据处理系统项目为背景、以开发高准确度和高可伸缩性的海量短语信息挖掘算法为目标,在海量短语信息数据库中的频繁词集挖掘、分类、聚类等方面开展了深入的研究。为了提高挖掘算法的准确度主要采用了基于语义的方法。为了提高算法的性能和可伸缩性主要采用了并行化的方法。本文的贡献主要包括以下方面:1.针对海量短文本数据库中的频繁词集挖掘所面临的挑战,提出了一个top-k频繁词集挖掘的并行算法parTFT。该算法使用了一种新颖的逻辑纵向数据划分方法来确保top-k频繁词集挖掘能够在各数据分区中并行执行。同时在每个挖掘结点通过启发策略来裁剪H-struct的header table,从而提高算法的性能。实验结果表明该算法在进行海量短文数据库中的频繁词集挖掘时具有比同类算法更好的性能和可伸缩性。parTFT算法的相关成果发表在第六届Web时代信息管理大会(WAIM2005)上,SCI检索号BDG49。2.针对短语信息分类中的低准确度问题,提出了一个基于语义的短文分类算法SDCS。该算法使用文本语义特征图来表示语义信息,并通过K-近邻(KNN)的思想来进行短文分类。实验结果表明该算法在处理大规模短文数据时,性能和准确度都超过了其它的短文分类算法。相应的成果已投计算机研究与发展杂志。3.在对短文本聚类面临的挑战进行分析的基础上,针对不同的应用需求提出了基于频繁词集的短文本聚类算法FTSDC和基于密度的短文本聚类算法DSDC。FTSDC首先根据频繁词集进行初始簇划分,然后利用语义信息进行簇优化。DSDC使用语义信息来计算样本距离,基于共享近邻(SNN)图来进行基本聚类,并通过数据抽样和子图划分来实现并行聚类。实验结果表明两种方法在准确度和可伸缩性上都比类似的算法有一定的提高。FTSDC的相关成果发表在WISE2006的研讨会“基于Web的海量信息处理(WMDP2006)”上,SCI检索号BFF82。DSDC的相应成果已投软件学报。4.针对基于语义信息的文本挖掘中准确度仍然有待提高以及语义信息不易管理和交换的问题,定义了领域本体并给出了其构建方法,并在此基础上提出了基于频繁词集和领域本体的聚类方法OFSDC,以及基于密度和领域本体的聚类方法DFSDC。实验结果表明基于领域本体的文本挖掘方法能够更好地利用语料中的语义信息,从而获得更高的准确度。OFSDC的相关成果发表在VLDB2006的研讨会“数据库和信息系统中基于本体的技术(ODBIS2006)”上,SCI检索号待查。5.在对并行数据挖掘的体系结构进行研究的基础上,提出了基于CORBA的海量短语信息并行挖掘体系结构,并在大规模事务处理中间件StarTPMonitor的背景下实现了海量短语信息挖掘引擎。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题背景
  • 1.1.1 信息时代的数据规模
  • 1.1.2 海量文本挖掘需求
  • 1.2 研究现状
  • 1.2.1 文本挖掘的相关工作
  • 1.2.2 海量短语信息挖掘面临的挑战
  • 1.3 本文工作
  • 1.4 论文结构
  • 第二章 海量短文数据库中的频繁词集挖掘
  • 2.1 频繁词集挖掘
  • 2.1.1 关联规则挖掘和频繁词集
  • 2.1.2 频繁项集挖掘方法
  • 2.1.3 频繁词集挖掘面临的挑战
  • 2.2 并行Top-k频繁词集挖掘算法
  • 2.2.1 问题描述和基础工作
  • 2.2.2 短词集和重复词集排除
  • 2.2.3 H-struct裁剪策略
  • 2.2.4 数据划分和并行化处理
  • 2.2.5 parTFT算法
  • 2.3 算法实验研究
  • 2.4 本章小结
  • 第三章 海量短语信息分类
  • 3.1 文本分类
  • 3.1.1 问题描述
  • 3.1.2 向量空间模型和文本特征选择
  • 3.1.3 基于向量空间模型的文本分类
  • 3.1.4 基于语义的文本分类
  • 3.2 概念语义空间和信息流
  • 3.2.1 HAL概念语义空间
  • 3.2.2 概念组合策略
  • 3.2.3 基于HAL的信息流计算
  • 3.3 文本语义特征图
  • 3.3.1 基于图的语义信息表示
  • 3.3.2 基本语义树构建
  • 3.3.3 优化语义树
  • 3.3.4 语义特征图构建
  • 3.4 基于语义的短语信息分类算法
  • 3.4.1 基于TSFG的KNN方法
  • 3.4.2 加权最短路径问题
  • 3.4.3 SDCS算法
  • 3.5 算法分析和实验研究
  • 3.5.1 准确度度量
  • 3.5.2 实验环境和数据集
  • 3.5.3 实验方法和结果
  • 3.6 本章小结
  • 第四章 海量短语信息聚类
  • 4.1 短文本聚类
  • 4.1.1 文本聚类方法
  • 4.1.2 短文本聚类面临的挑战
  • 4.2 基于频繁词集的短文本聚类
  • 4.2.1 基本聚类方法和簇的表示
  • 4.2.2 并行化方法
  • 4.2.3 基于语义信息的簇重叠消除
  • 4.2.4 FTSDC算法
  • 4.3 基于密度的短文本聚类
  • 4.3.1 基本的密度聚类方法
  • 4.3.2 基于SNN的密度聚类
  • 4.3.3 短文本距离计算
  • 4.3.4 并行化方法
  • 4.4 算法实验研究
  • 4.4.1 FTSDC算法实验研究
  • 4.4.2 DSDC算法实验研究
  • 4.5 本章小结
  • 第五章 基于本体论的海量短语信息挖掘
  • 5.1 基于本体论的文本挖掘
  • 5.1.1 本体论概述
  • 5.1.2 基于本体论的文本挖掘方法
  • 5.2 短文数据库上的领域本体构建
  • 5.2.1 本体描述
  • 5.2.2 形式概念分析
  • 5.2.3 领域本体构建
  • 5.3 基于领域本体的海量短语信息聚类
  • 5.3.1 OFSDC的基本思想
  • 5.3.2 基于频繁概念集的短文聚类
  • 5.3.3 基于领域本体和密度的短文聚类
  • 5.4 算法实验研究
  • 5.4.1 OFSDC算法实验研究
  • 5.4.2 ODSDC算法实验研究
  • 5.5 本章小结
  • 第六章 海量短语信息挖掘引擎的设计与实现
  • 6.1 StarTPMonitor系统结构
  • 6.2 StarSTMiner总体设计
  • 6.2.1 总体结构
  • 6.2.2 并行化体系结构
  • 6.3 StarSTMiner子模块的设计与实现
  • 6.3.1 汉语分析模块
  • 6.3.2 语义信息构建模块
  • 6.3.3 短文挖掘模块
  • 6.4 本章小结
  • 结束语
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    • [1].基于海量数据的电子政务关键技术的研究[J]. 民营科技 2013(12)
    • [2].面向海量数据网络服务的设计原则和策略[J]. 林区教学 2010(09)
    • [3].基于图书馆的海量数据性能优化[J]. 福建电脑 2011(12)
    • [4].应用存储过程实现数据分页[J]. 计算机系统应用 2012(12)
    • [5].海量数据的实时通讯[J]. 演艺科技 2010(02)
    • [6].基于边缘计算的智慧工厂系统[J]. 湖北工业大学学报 2019(02)
    • [7].一种可用于数据采集的接口协议方案[J]. 无锡南洋学院学报 2008(03)
    • [8].分布式数据库技术的研究与实现[J]. 电子科学技术 2015(01)
    • [9].利用大数据技术进行海量数据治理[J]. 网络安全技术与应用 2018(11)
    • [10].海量数据广义线性模型变量选择算法研究[J]. 北京化工大学学报(自然科学版) 2020(02)
    • [11].海量数据快速查找算法及优化[J]. 电脑开发与应用 2013(03)
    • [12].基于RBNB和MapReduce的海量结构工程数据处理与分析[J]. 计算机应用与软件 2012(09)
    • [13].大数据时代背景下企业管理模式的思考[J]. 智库时代 2019(27)
    • [14].一种文本信息关联的IR树检索[J]. 工业控制计算机 2016(06)
    • [15].海量数据处理系统设计的几点探讨[J]. 信息安全与通信保密 2014(04)
    • [16].基于海量存储的三维地理信息系统应用与研究[J]. 数字技术与应用 2017(12)
    • [17].基于Hubble.net的仓储系统设计与实现[J]. 计算机技术与发展 2017(10)
    • [18].数字图书馆的海量信息存储策略[J]. 图书馆论坛 2015(12)
    • [19].一种基于文件系统的海量遥感影像存储组织结构[J]. 福建电脑 2011(01)
    • [20].SQL Server大数据量数据库性能优化初探[J]. 武汉船舶职业技术学院学报 2010(01)
    • [21].基于MapInfo的海量卫星影像管理与分析[J]. 测绘与空间地理信息 2019(03)
    • [22].解读大数据[J]. 统计与咨询 2019(01)
    • [23].云计算平台的海量数据知识提取框架[J]. 计算机系统应用 2016(11)
    • [24].海量数据的组织与管理方法研究[J]. 情报工程 2016(01)
    • [25].基于组合定位海量数据处理的铁路机车安全距离预警[J]. 中国安全生产科学技术 2015(10)
    • [26].海量数据处理及其系统建设问题刍论[J]. 电子制作 2014(11)
    • [27].海量数据的版权保护问题探究[J]. 电子知识产权 2009(07)
    • [28].海量数据分布式存储与检索优化分析研究[J]. 网络安全技术与应用 2013(04)
    • [29].造船车间海量数据定向分类传输技术[J]. 造船技术 2018(02)
    • [30].基于海量数据的深基坑本体变形特征研究[J]. 岩土工程学报 2014(S2)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    海量短语信息挖掘技术的研究与实现
    下载Doc文档

    猜你喜欢