面向短消息的文本聚类研究

面向短消息的文本聚类研究

论文摘要

在网络信息时代,随着通信技术的不断发展,即时通信得到了广泛应用,产生了巨大的短消息数据,短消息数据中蕴藏了大量有用信息资源,如何对短消息数据进行采集、存储、分析和挖掘,对于信息管理和信息检索等具有重要意义。短消息具有动态性、错综复杂性、非规范性、大规模性等特点,这些给数据挖掘带来极大挑战。本文以短消息挖掘为背景,研究短消息聚类相关技术,涉及短消息预处理、合成会话、相似性度量以及聚类算法的研究,其中重点对相似性度量和聚类算法进行了研究,并试图提高聚类准确性和聚类算法的可伸缩性,为聚类输出提供实际应用。研究的主要内容如下:首先提出了短消息文本聚类场景系统。聚类系统包括数据接收采集、归档消息数据库、聚类节点、输出节点四部分。本文描述了聚类场景系统的结构体系,分析各个部分的功能,其中重点研究了接收采集部分需要处理的问题:如何采集,能否按时间段划分消息记录,如何合成会话等。该系统的提出为本文展开短消息聚类相关技术研究提供了基础。接着提出了基于语义的短文本相似性度量方法。本文的相似性度量方法基于词法分类器Hownet,通过Hownet计算词语的语义距离,得到词语相似度,并可结合特征词权重一起计算文本相似度。该方法能够解决短文本的关键词稀疏带来的相似度偏离问题。针对短消息的文本聚类算法,本文提出了基于频繁词集和Ant-Tree的混合聚类方法SMHC。基于频繁词集的文本聚类算法执行效率很高,且可以适应高维的大规模数据。Ant-Tree算法得到的聚簇更接近于数据的真实分类,且算法基于树结构,执行效率较高。基于频繁词集和Ant-Tree的混合聚类方法,利用基于频繁词集聚类算法处理文本数据的效率优势,生成初始聚簇;计算轮廓系数来消除初始聚簇中的重叠,在此基础上再通过Ant-Tree算法继续精化,最终得到高质量的结果输出。而且聚类结果保留了树状层级结构,为应用提供了更丰富的信息。最后设计了应用于聊天软件中的短消息文本挖掘系统,介绍了该系统的总体结构,阐述了各单元的功能结构与设计实现。

论文目录

  • 摘要
  • Abstract
  • 插图索引
  • 附表索引
  • 第1章 绪论
  • 1.1 研究背景和意义
  • 1.2 研究的主要问题和挑战
  • 1.3 本文的研究内容
  • 1.4 本文的组织结构
  • 第2章 文本模型及聚类方法分析
  • 2.1 文本表示模型
  • 2.1.1 布尔模型
  • 2.1.2 向量空间模型
  • 2.1.3 概率模型
  • 2.1.4 其他模型
  • 2.2 相似度计算方法
  • 2.2.1 基于向量空间模型的 TF-IDF 方法
  • 2.2.2 潜在语义标引法
  • 2.2.3 基于汉明距离的文本相似度计算方法
  • 2.2.4 基于语义理解的文本相似度计算方法
  • 2.3 主要聚类算法
  • 2.3.1 划分的方法
  • 2.3.2 层次的方法
  • 2.3.3 基于密度的方法
  • 2.3.4 基于网格的方法
  • 2.3.5 基于模型的方法
  • 2.3.6 后缀树(STC)聚类算法
  • 2.4 本章小结
  • 第3章 短消息会话场景聚类系统设计
  • 3.1 常规文本聚类过程
  • 3.2 短消息文本特性分析
  • 3.2.1 会话交错性特征
  • 3.2.2 文本稀疏性特征
  • 3.2.3 大规模特征
  • 3.3 短消息聚类系统设计
  • 3.4 会话抽取技术
  • 3.5 本章小结
  • 第4章 短文本相似度计算
  • 4.1 相关问题及技术分析
  • 4.1.1 相关问题
  • 4.1.2 相关技术
  • 4.2 基于词法分类器度量词间关系
  • 4.2.1 《知网》简介
  • 4.2.2 义原相似度计算
  • 4.2.3 概念相似度计算
  • 4.2.4 词语相似度计算
  • 4.3 短文本相似性度量算法
  • 4.4 实验
  • 4.5 本章小结及改进设想
  • 第5章 短文本聚类算法 SMHC
  • 5.1 基于频繁词集的聚类算法
  • 5.2 Ant-Tree 算法
  • 5.3 基于频繁词集和 Ant-Tree 的混合聚类算法
  • 5.3.1 构建初始聚簇
  • 5.3.2 轮廓系数
  • 5.3.3 SMHC 算法
  • 5.4 实验
  • 5.4.1 实验设置
  • 5.4.2 评价指标
  • 5.4.3 实验结果及分析
  • 5.5 本章小结
  • 第6章 短消息文本聚类系统应用设计
  • 6.1 系统结构
  • 6.2 各功能单元结构分析
  • 6.2.1 数据访问单元
  • 6.2.2 文本预处理单元
  • 6.2.3 相似性度量单元
  • 6.2.4 会话合成单元
  • 6.2.5 聚类单元
  • 6.2.6 检索单元
  • 6.3 本章小结
  • 总结
  • 参考文献
  • 附录 A 攻读硕士学位期间所发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].移动网络中短消息响应时间的研究[J]. 邮电设计技术 2008(06)
    • [2].CDMA手机中短消息的存储机制和实现[J]. 信息与电脑(理论版) 2010(14)
    • [3].短消息加密程序设计与实验研究[J]. 通信技术 2009(12)
    • [4].短消息业务优化思路及方案[J]. 邮电设计技术 2008(08)
    • [5].OTA消息PUSH技术研究[J]. 技术与市场 2015(02)
    • [6].中英文混合短消息命令在监控系统中的应用[J]. 通信技术 2008(12)
    • [7].基于短消息的车辆报警系统设计与实现[J]. 电子工程师 2008(08)
    • [8].一种简单的短信收/发系统的设计与实现[J]. 现代计算机(专业版) 2009(01)
    • [9].基于GPRS短消息收发系统的设计[J]. 电子测试 2014(S1)
    • [10].一种GSM短消息通信编码方法的设计[J]. 科技创新与应用 2012(32)
    • [11].一种基于短消息的入侵监测系统的设计与实现[J]. 科技信息 2009(29)
    • [12].关于短消息成功率的优化[J]. 中国新通信 2012(16)
    • [13].基于短消息功能修改负荷终端参数的程序设计[J]. 单片机与嵌入式系统应用 2009(06)
    • [14].DCS技术浅析——一种拓展短消息增值业务的新技术[J]. 黑龙江科技信息 2008(35)
    • [15].基于GPS与GSM的交通事故自动呼救系统的设计[J]. 中国安全科学学报 2008(04)
    • [16].移动教育的现状及发展前景研究[J]. 吉林省教育学院学报 2009(05)
    • [17].无线商用安全短消息系统设计[J]. 计算机安全 2008(12)
    • [18].用计算机控制手机收发短信的实现[J]. 计算机时代 2008(06)
    • [19].短消息可靠性技术研究[J]. 计算机与信息技术 2008(04)
    • [20].基于手机的匿名聊天信息系统的开发[J]. 福建电脑 2008(11)
    • [21].通过GPRS网络进行嵌入式应用软件升级[J]. 单片机与嵌入式系统应用 2008(11)
    • [22].SMS在真空控制系统维护中的应用[J]. 微计算机信息 2008(13)
    • [23].基于GTM900-C模块实现短消息收发[J]. 科技风 2014(10)
    • [24].基于无线通信的设备远程监控系统[J]. 微计算机信息 2009(19)
    • [25].基于GPRS远程数据采集系统[J]. 濮阳职业技术学院学报 2008(02)
    • [26].基于TC35模块实现短消息收发[J]. 电脑知识与技术 2010(17)
    • [27].PDU中7-bit字符串编解码的程序设计[J]. 电脑编程技巧与维护 2009(02)
    • [28].移动证券交易系统的设计与实现[J]. 电脑知识与技术 2009(16)
    • [29].面向聊天记录的语义分析研究[J]. 信息网络安全 2017(09)
    • [30].基于SIM908的车辆实时定位系统的设计[J]. 电子产品世界 2015(01)

    标签:;  ;  ;  ;  ;  

    面向短消息的文本聚类研究
    下载Doc文档

    猜你喜欢