一种基于向量空间模型的商品分类算法

一种基于向量空间模型的商品分类算法

论文摘要

近年来,随着万维网的广泛应用,电子商务也渐渐引起了人们的关注。无论是供应商还是消费者,都被电子商务突破时间和空间的限制所带来的便捷所吸引。与传统的商务活动相比较,电子商务在交易形态和方式上有着许多不同,因此也带来了商品营销方式的变化。将商品高效合理的分类,是电子商务环境下销售者为顾客提供的重要的技术手段之一,为买卖双方的交易提供了极大的便利。商品自动分类技术(Product Automatic Classification)基本任务就是对一件商品,根据其内容,从预先定义好的类别集中找出一个或者多个最适合于该商品的类别。商品自动分类算法是电子商务的重要研究方向,它能在给定的分类体系下,根据商品的内容自动判别商品类别。近年来,商品分类技术已经逐渐与搜索引擎、机器学习、信息过滤等文本处理技术相结合。基于向量空间模型的商品分类算法,能依据商品的特征词将大量的商品自动分门别类,从而更好地帮助电子商务网站及用户把握商品信息,有效地提高了商品分类的质量。商品自动分类技术从开始出现到现在,经历了从基于规则到基于统计分类,再到规则和统计相结合的一个过程。本文的研究内容主要有以下几个方面:首先,本文对商品分类的国内外研究现状进行了分析和总结,并提出了本文研究的主要内容。接着详细介绍了基于向量空间模型的商品分类系统所涉及到的一些技术,包括商品分类原理和模型、商品特征选择、常用商品分类算法和评估方法等。论文介绍了传统的树状结构商品分类模型,提出了改进的DAP模型表示法。然后,论文对传统的基于向量空间模型的AutoCat算法进行了分析,针对该算法的不足,提出了引入多元词组紧密度的基于向量空间模型的商品分类算法,最后通过实验验证了算法的有效性。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 电子商务的发展现状
  • 1.2 电子商务中的商品分类问题
  • 1.3 数据挖掘和商品自动分类研究
  • 1.4 论文作者的工作
  • 1.5 论文结构
  • 第二章 常用商品分类算法介绍
  • 2.1 商品分类原理和模型
  • 2.2 商品分类评估方法
  • 2.3 商品特征选择
  • 2.3.2 频次方法
  • 2.3.3 信息增益
  • 2统计(CHI)'>2.3.4 X2统计(CHI)
  • 2.3.5 互信息MI
  • 2.3.6 期望交叉熵(Cross Entropy)
  • 2.3.7 证据权(Weight of Evidence)
  • 2.4 常用商品分类算法技术
  • 2.4.1 朴素贝叶斯方法(Naive Bayes)
  • 2.4.2 神经网络方法(Neural Network)
  • 2.4.3 近邻学习算法(Nearest Neighbor)
  • 2.4.4 向量空间模型(SVM)
  • 第三章 经典商品分类模型与算法
  • 3.1 商品信息的表示形式
  • 3.2 商品类别的层次表示
  • 3.2.1 传统的树状结构表示法
  • 3.2.2 DAP模型表示法
  • 3.3 以往商品分类模型中存在的问题
  • 第四章 改进的向量空间模型商品分类算法
  • 4.1 算法设计思路
  • 4.2 多元词组紧密度
  • 4.3 改进算法
  • 4.3.1 词在段落中的权重
  • 4.3.2 段落紧密度的计算
  • 4.3.3 词在商品信息向量中的权重
  • 4.4 基于词同现和文本结构的商品分类的探讨
  • 4.5 小结
  • 第五章 商品自动分类算法实现与实验结果
  • 5.1 改进的向量空间模型算法的实现
  • 5.1.1 预处理
  • 5.1.2 特征选择
  • 5.1.3 分类器构造和分类
  • 5.2 DAP商品分类模型的实现
  • 5.3 系统实验
  • 5.3.1 实验数据
  • 5.3.2 算法精确度分析
  • 5.3.3 DAP模型性能分析
  • 第六章 总结与将来的工作
  • 6.1 本文总结
  • 6.2 下一步的工作
  • 附录
  • 参考文献
  • 攻读硕士期间发表论文及参与的科研项目
  • 致谢
  • 相关论文文献

    • [1].大数据挖掘中的数据分类算法技术研究[J]. 电子技术与软件工程 2015(14)
    • [2].基于粒度空间的最小生成树分类算法[J]. 南京大学学报(自然科学) 2017(05)
    • [3].一种心律失常分类算法[J]. 电子世界 2020(04)
    • [4].数据挖掘中数据分类算法的比较分析[J]. 吉林师范大学学报(自然科学版) 2008(04)
    • [5].数据挖掘分类算法研究综述[J]. 中国高新技术企业 2008(24)
    • [6].包分类算法研究综述[J]. 计算机工程 2015(12)
    • [7].传统图像分类与深度学习分类算法比较研究[J]. 荆楚理工学院学报 2020(02)
    • [8].Titanic生存问题常见分类算法对比分析[J]. 电子世界 2017(22)
    • [9].基于贝叶斯理论的分类算法研究[J]. 计算机光盘软件与应用 2014(16)
    • [10].数据挖掘中分类算法综述[J]. 重庆师范大学学报(自然科学版) 2011(04)
    • [11].基于多层感知器神经网络的智能分类算法[J]. 通信电源技术 2020(05)
    • [12].百科实例的分类算法探究[J]. 科技创新与应用 2015(13)
    • [13].一种快速的五元一维包分类算法[J]. 电脑知识与技术 2009(36)
    • [14].因素空间理论下基点分类算法研究[J]. 智能系统学报 2020(03)
    • [15].低代价的数据流分类算法[J]. 计算机系统应用 2016(12)
    • [16].云环境下的信息分类算法研究[J]. 太原师范学院学报(自然科学版) 2015(04)
    • [17].基于距离的粒计算分类算法[J]. 信阳师范学院学报(自然科学版) 2015(02)
    • [18].快速流分类算法的研究[J]. 数字通信 2010(01)
    • [19].基于基因表达式编程的代价敏感分类算法[J]. 吉林大学学报(信息科学版) 2009(04)
    • [20].集成学习之随机森林分类算法的研究与应用[J]. 电脑知识与技术 2020(21)
    • [21].基于组合分类算法的源代码注释质量评估方法[J]. 计算机应用 2016(12)
    • [22].社交地点分类算法设计与实现[J]. 现代计算机(专业版) 2017(20)
    • [23].关于数据挖掘中的数据分类算法的综述[J]. 电子制作 2014(13)
    • [24].稀有类分类算法的研究[J]. 电脑开发与应用 2010(09)
    • [25].基于K近邻分类算法的敏感信息过滤方法研究[J]. 科学技术创新 2020(28)
    • [26].大数据处理中分类算法的数值比较[J]. 数学的实践与认识 2019(13)
    • [27].一种改进的并行K_近邻网络舆情分类算法研究[J]. 微电子学与计算机 2015(06)
    • [28].基于分布式数据流的大数据分类算法[J]. 饮食科学 2019(04)
    • [29].基于聚类核的半监督情感分类算法研究[J]. 计算机技术与发展 2016(12)
    • [30].基于多传感器数据融合的目标分类算法[J]. 航天电子对抗 2013(04)

    标签:;  ;  ;  ;  

    一种基于向量空间模型的商品分类算法
    下载Doc文档

    猜你喜欢