基于机器学习的经济行业分类方法研究

基于机器学习的经济行业分类方法研究

论文摘要

随着我国市场经济的繁荣,国民经济在各行各业中的发展走向成熟,跨行业甚至跨产业的企业不断涌现。然而,人工划分经济行业时,仅将一个经营机构划分到单一经济行业和产业中,并没有考虑经营活动可能出现的行业和产业兼类现象。如何高效的统计经济行业和三次产业的发展情况,科学、准确的体现跨行业、跨产业的现象,已成为当务之急。“经营机构的经营范围描述了企业、事业单位、机关团体和个体从业人员所从事的生产经营活动或其他社会经济活动”。通过某个经营机构的经营范围描述可以将该机构划分到相应经济行业中。本文依据机构经营范围描述,利用基于机器学习的文本分类技术,结合多种特征选择方法,构建了高效的经济行业和三次产业自动分类系统,并深入研究了行业和产业的兼类现象。具体如下:本文研究了在训练数据集上的类别标号不够准确,训练集噪声严重的情况下,利用支持向量机和信息检索技术,获得能够满足作为训练集要求的高质量数据的方法。随后,本文探索了在特定领域的文本分类问题中,利用卡方检验和词频从候选特征中选取和优化特征集的方法,并对比了两者之间的差异。针对实际情况,在TFIDF特征权重表示不能满足本课题多元分类要求的情况下,提出一种TFIDF的变体;利用该特征权重表示方法,在文本集是多类的前提下,能够大幅提高文本之间的区分度,从而大幅提高分类器分类能力。在利用基于机器学习的文本分类方法效果不佳的情况下,研究了当利用基于机器学习的文本分类方法不能很好的体现多元类别的分类结果时,通过考虑其他文本域(如文本名称等)对分类结果进行重排序,使之满足多元分类的情况。综上,本文设计并实现了针对国民经济行业(95个类别)和产业(3个产业)的大规模多元文本分类系统。实验表明,本系统在人工标注数据存在严重噪声并考虑兼类的情况下,以人工评判自动分类系统结果为依据,行业分类(top5)的准确率达到91.34%,产业分类(top1)的准确率达到94.26%,能够满足实用化大规模批量分类的要求。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景及研究的目的和意义
  • 1.2 文本分类及其相关理论的发展概况
  • 1.2.1 国内外文本分类技术发展概况
  • 1.2.2 特征项选择方法概述
  • 1.3 本文的主要研究内容
  • 第2章 基于机器学习的经济行业划分方法研究
  • 2.1 引言
  • 2.2 国民经济行业划分原则
  • 2.2.1 一般性原则
  • 2.2.2 行业分类的基本单位
  • 2.2.3 确定单位行业性质的基本原则
  • 2.2.4 国民经济行业划分原则小结
  • 2.3 经营范围描述详细情况分析
  • 2.4 数据预处理策略分析
  • 2.4.1 基于svm 的训练语料纠正方法研究
  • 2.4.2 基于卡方检验的特征选择方法研究
  • 2.5 基于最大熵原理的中文文本分类方法研究
  • 2.5.1 最大熵原理简述
  • 2.5.2 基于最大熵原理的经济行业自动分类方法研究
  • 2.6 本章小结
  • 第3章 经济产业划分方法研究
  • 3.1 引言
  • 3.2 我国经济产业划分原则简述
  • 3.3 经济产业划分方法研究
  • 3.3.1 基于组合分类器的产业划分方法研究
  • 3.3.2 产业划分特征权重计算方法调整策略
  • 3.4 本章小结
  • 第4章 基于机构名称的分类结果重排序策略研究
  • 4.1 引言
  • 4.2 中文机构名称特点分析
  • 4.3 基于机构名称的分类结果重排序方法研究
  • 4.3.1 经济行业特征词提取策略研究
  • 4.3.2 基于机构名称中行业特征词的分类结果重排序策略
  • 4.4 基于规则的分类结果重排序方法研究
  • 4.5 本章小结
  • 第5章 经济行业和产业分类系统的设计与实现
  • 5.1 引言
  • 5.2 经济行业自动分类系统的构建及性能分析
  • 5.2.1 经济行业自动分类系统的构建
  • 5.2.2 经济行业划分评价准则
  • 5.2.3 经济行业自动分类系统性能分析
  • 5.2.4 经济行业分类系统错误分析
  • 5.3 经济产业自动分类系统的构建与性能评价
  • 5.3.1 经济产业自动分类系统的构建
  • 5.3.2 经济产业划分正确性评价原则
  • 5.3.3 经济产业自动分类系统性能分析
  • 5.3.4 经济产业分类系统错误分析
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].一个轻量级分布式机器学习系统的设计与实现[J]. 计算机工程 2020(01)
    • [2].百度研究院发布2020年十大科技趋势预测[J]. 中国经济周刊 2020(01)
    • [3].浅谈中高年级本科生机器学习知识传授与科研素养培育的三大主线[J]. 教育教学论坛 2020(10)
    • [4].自动化机器学习中的超参调优方法[J]. 中国科学:数学 2020(05)
    • [5].机器学习系统毒化攻击综述[J]. 通信技术 2020(03)
    • [6].机器学习在地球物理测井中的应用进展[J]. 测井技术 2020(02)
    • [7].基于自动机器学习的云平台动态资源调度研究[J]. 科技视界 2020(13)
    • [8].非经典条件下的机器学习方法专题前言[J]. 软件学报 2020(04)
    • [9].“机器学习+量子计算”未来可期[J]. 张江科技评论 2020(03)
    • [10].机器学习在粒子加速器的应用(英文)[J]. 数据与计算发展前沿 2019(06)
    • [11].机器学习如何改变教育[J]. 计算机与网络 2020(12)
    • [12].机器学习诞生新型“研究员”[J]. 机床与液压 2020(14)
    • [13].机器学习如何推动5G网络[J]. 计算机与网络 2020(13)
    • [14].一种机器学习与相变之间的新型映射(英文)[J]. 中国科学技术大学学报 2020(01)
    • [15].机器学习预测金融市场走势[J]. 数据分析与知识发现 2020(08)
    • [16].魏德米勒自动化机器学习解决方案[J]. 石油化工自动化 2020(05)
    • [17].面向数据科学研究生的机器学习课程教学研究[J]. 计算机教育 2020(11)
    • [18].基于机器学习的智慧农业决策系统设计与实现[J]. 信息与电脑(理论版) 2018(24)
    • [19].分布式机器学习平台与算法综述[J]. 计算机科学 2019(03)
    • [20].机器学习在反洗钱领域的应用与发展[J]. 清华金融评论 2019(04)
    • [21].机器学习让计算机更智能[J]. 计算机与网络 2019(14)
    • [22].机器学习在经济学中的应用[J]. 纳税 2019(24)
    • [23].机器学习在网络空间安全研究中的应用分析[J]. 电脑知识与技术 2019(24)
    • [24].基于机器学习的城市生成方法研究[J]. 智能建筑与智慧城市 2019(11)
    • [25].降低机器学习门槛的六大工具[J]. 电脑知识与技术(经验技巧) 2019(10)
    • [26].机器学习在企业级场景中的实践与探讨[J]. 中国建设信息化 2018(03)
    • [27].机器学习——我们该如何与机器竞争[J]. 数字通信世界 2018(01)
    • [28].机器学习的能力范围及其对劳动力的影响[J]. 世界科学 2018(04)
    • [29].机器学习即服务[J]. 网络安全和信息化 2017(10)
    • [30].机器学习作用于信息安全的五大顶级案例[J]. 网络安全和信息化 2018(01)

    标签:;  ;  ;  ;  ;  

    基于机器学习的经济行业分类方法研究
    下载Doc文档

    猜你喜欢