基于网格的文本分类PSE研究

基于网格的文本分类PSE研究

论文摘要

问题求解环境(Problem Solving Environments,PSE)是目前计算机应用领域的研究热点之一,并已得到了广泛的应用。本文提出并构建了基于网格的文本分类PSE(PSE for Text Categorization,PSE-TC),实现了能同时处理数值与非数值数据的多学科问题求解环境(MultidisciplinaryPSE,MPSE)。PSE以一致的接口提供研究某类问题的多种技术和方法;文本分类是数据挖掘的核心技术之一,但现有的多种文本分类方法的接口存在很大差异。为了提高研究效率,利于分类方法研究及使用,作者提出将这些分类方法放在统一的环境内,创建文本分类PSE平台。由于现有技术难以满足文本分类过程所需计算资源,而网格技术能够有效积聚资源,满足分类技术对资源的要求。因此,作者提出将网格与文本分类PSE相结合,构建PSE-TC,实现二者优势互补,以满足大规模数据处理的要求,并提高分类结果精度。本文提出并实现了四层网格架构的PSE-TC,以统一的接口对外提供服务。在PSE-TC中,作者在三层网格架构加上新的中间件层—Agent,(1)该层包装了底层的单个网格服务,对用户屏蔽了不同网格服务提供者间差异;(2)通过Agent中的工作流工具规划了文本分类中常用底层服务调用序列,整合并包装这些服务,用户调用单个这类服务,即可完成一系列的底层服务调用,以简化用户调用过程,提高运行效率;(3)Agent中服务均以统一接口对外提供,使用户服务调用组件具有可复用性;(4)Agent中工作流工具也使用户能够规划、定义自己的任务,动态创建用户应用,增强了系统的重构功能。考虑到网格的资源共享特征也带来了安全隐患,仅有授权和认证等安全措施还难以保证用户隐私在传输及计算等过程中不被泄漏。因此,在分析研究现有分布式SVM文本分类器基础上,本文提出并实现了基于同态加密(homomorphic encryption)技术的数据隐私保持(数据隐私保持包括原始用户训练数据隐私保持、原始用户数据隐私保持、用户数据隐私保持,Privacy Preserving)。作者研究并实现了一种分布式SVM文本分类器—GSVC(Growing Support Vector Classifier),(1)在训练该文本分类器过程中,分布在不同服务器上的GSVC服务无需交换核心向量及训练数据,即可构建本地分类器模型,实现原始用户训练数据的隐私保持;(2)在计算用户文本所属类别时,根据同态加密理论等,作者提出对原始用户文本中单词进行乱序排列,并分成多个部分在不同的GSVC上进行计算,保持原始用户数据隐私;(3)分布式GSVC间传递加入干扰的向量,避免分布式GSVC根据来自其他GSVC的向量推导出用户原始数据分布,以实现用户数据隐私保持。实验结果显示,该方法在保护用户原始数据隐私的基础上,仍能取得较好的分类精度。另外,在网格应用中,网格服务调用慢的问题尚未得到彻底解决。针对该问题,作者改进了原远程服务调用技术,在服务调用代理中采用缓存池技术,加速远程服务调用,实验结果显示,该法可有效提高调用网格服务的速度。最后,为方便用户使用及结果分析,PSE-TC以Portal技术为基础,提供了Web界面,将网格功能以透明的方式集成到该界面上,为用户提供了简单、直观的服务调用方法,及多种的应用程序启动方法;采用Java 3D技术,实现计算结果的可视化,便于用户对计算结果做进一步分析。综上所述,PSE-TC的设计结合并利用了计算机科学中多个领域的最新成果,突破了现有PSE平台资源不足的限制,提供了安全高效的研究平台,可望对今后的MPSE研究起到一定的推动作用,为多学科的融合提供了新的途径。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 引言
  • 1.2 PSE概述
  • 1.2.1 PSE概念及目的
  • 1.2.2 PSE研究简述
  • 1.2.3 不断改进的PSE客户端
  • 1.2.4 现有PSE的不足
  • 1.3 网格的概念及其架构进化
  • 1.3.1 网格的概念
  • 1.3.2 网格的特点
  • 1.3.3 网格体系结构的进化
  • 1.4 基于网格的PSE研究进展
  • 1.4.1 基于Globus的PSE
  • 1.4.2 基于Web Service的PSE
  • 1.5 研究基于网格的文本分类PSE的意义
  • 1.6 论文的主要研究内容及成果
  • 1.6.1 本文主要研究内容
  • 1.6.2 主要研究成果及创新
  • 第二章 PSE-TC的总体架构
  • 2.1 文本分类技术概述
  • 2.1.1 文本分类概念及研究意义
  • 2.1.2 文本分类方法简介
  • 2.1.3 亟待解决的问题及PSE-TC设计目标
  • 2.2 基于网格的文本分类PSE平台—PSE-TC架构
  • 2.2.1 四层网格架构的MPSE
  • 2.2.2 一致的服务调用接口
  • 2.2.3 基于网格的SOA架构
  • 2.3 PSE-TC分层结构
  • 2.3.1 PSE-TC分层设计思想
  • 2.3.2 资源层和网格层—PSE-TC文本分类组件及其服务
  • 2.3.3 Agent层—Agent和工作流定义
  • 2.3.4 PSE-TC Portals层
  • 2.4 本章小结
  • 第三章 PSE-TC的中间件—Agent
  • 3.1 Agent原理
  • 3.1.1 Agent总体结构
  • 3.1.2 Agent工作原理
  • 3.2 服务的自动化—工作流模块
  • 3.2.1 工作流模块的作用
  • 3.2.2 工作流的表示
  • 3.2.3 工作流的执行模型
  • 3.2.4 工作流中辅助模块
  • 3.3 从SOA角度来看Agent
  • 3.3.1 Agent的角色
  • 3.3.2 Agent中服务调用协议
  • 3.3.3 Agent中服务描述及信息交换
  • 3.3.4 服务发现
  • 3.4 文本分类器训练服务
  • 3.5 本章小结
  • 第四章 基于分布式系统的SVM文本分类方法
  • 4.1 基于SVM的文本分类方法
  • 4.1.1 SVM分类原理
  • 4.1.2 SVM文本分类器
  • 4.2 分布式SVM
  • 4.2.1 增长式SVM分类器—GSVC
  • 4.2.2 分布式SVM分类器
  • 4.3 基于SVM的文本分类服务
  • 4.3.1 创建符合Bean规范的对象
  • 4.3.2 发布服务
  • 4.4 本章小结
  • 第五章 PSE-TC的隐私保持
  • 5.1 预备知识
  • 5.1.1 安全两方计算
  • 5.1.2 同态加密理论
  • 5.2 基于安全两方计算
  • 5.2.1 问题定义
  • 5.2.2 关联规则发现算法
  • 5.2.3 隐私保持关联规则发现
  • 5.2.4 安全两方点积计算协议
  • 5.2.5 协议分析
  • 5.3 分布式SVM文本分类的隐私保护
  • 5.3.1 基于SVM的隐私保护分类算法
  • 5.3.2 基于SVM的隐私保护训练算法
  • 5.3.3 实验结果
  • 5.4 本章小结
  • 第六章 PSE-TC环境中的Portal界面
  • 6.1 Portal与Web Service
  • 6.1.1 Portal简介
  • 6.1.2 Portal与Web Service相结合的系统
  • 6.2 PSE-TC Portal
  • 6.2.1 PSE-TC Portal架构
  • 6.2.2 PSE-TC Portal层次
  • 6.3 Portal调用性能改进
  • 6.3.1 服务调用
  • 6.3.2 SOAP调用的性能改进
  • 6.4 本章小结
  • 第七章 总结与展望
  • 7.1 总结
  • 7.2 展望
  • 参考文献
  • 作者在攻读博士学位期间完成的学术论文
  • 作者在攻读博士学位期间所作的项目
  • 致谢
  • 相关论文文献

    • [1].PSE治疗肝硬化继发脾功能亢进的可行性分析[J]. 中国实用医药 2016(35)
    • [2].PSE联合TACE治疗肝癌合并脾功能亢进的疗效观察及护理干预[J]. 临床放射学杂志 2012(08)
    • [3].PSE技术在石化工业的应用与研究进展[J]. 产业与科技论坛 2011(24)
    • [4].中国石化的节能减排与PSE技术应用[J]. 当代石油石化 2008(10)
    • [5].基于PSE框架的多区域溢出分析器的构建[J]. 地理与地理信息科学 2008(06)
    • [6].PSE治疗外伤性脾破裂临床疗效及对患者机体免疫功能的影响[J]. 中国现代医生 2017(24)
    • [7].PSE治疗肝硬化并脾功能亢进35例护理[J]. 中国中医药现代远程教育 2013(04)
    • [8].浅析日本PSE认证对检测设备的要求[J]. 质量与认证 2020(07)
    • [9].PSE治疗外伤性脾破裂对患者机体应激反应的影响[J]. 中国现代医生 2017(22)
    • [10].浅谈电气产品PSE认证的规则与流程[J]. 计量与测试技术 2017(01)
    • [11].用部分性脾动脉栓塞术(PSE)治疗脾功能亢进的临床疗效分析[J]. 当代医药论丛 2014(14)
    • [12].TACE联合PSE治疗伴有肝硬化脾功能亢进的原发性肝癌[J]. 中国现代医生 2009(13)
    • [13].PSE联合手术治疗门脉高压症合并脾功能亢进的临床研究[J]. 安徽医学 2012(02)
    • [14].TACE联合PSE在原发性肝癌并脾亢治疗中的应用[J]. 现代肿瘤医学 2015(08)
    • [15].针对铜绿假单胞菌毒力蛋白伪唾液酸酶Pse的新药设计分子对接研究[J]. 中华保健医学杂志 2013(02)
    • [16].浅谈电气产品PSE认证的规则与流程[J]. 日用电器 2016(09)
    • [17].不同胴体重对猪轻度PSE肉的理化和感官性状的影响[J]. 猪业科学 2014(05)
    • [18].基于PSE模型的矿业城市经济发展脆弱性研究[J]. 地理研究 2011(02)
    • [19].部分脾脏栓塞术(PSE)围手术期观察与护理[J]. 实用临床护理学电子杂志 2017(21)
    • [20].南非农业政策的支持水平与结构特征——基于生产者支持估计(PSE)指标的分析[J]. 价格理论与实践 2011(12)
    • [21].宰前应激对生猪血液生理生化指标和PSE肉的影响研究进展[J]. 肉类研究 2017(07)
    • [22].猪宰后正常肉与PSE肉中肌联蛋白和伴肌动蛋白变化[J]. 食品工业 2015(10)
    • [23].基于PSE模型的矿业城市生态脆弱性的变化研究——以辽宁阜新为例[J]. 经济地理 2010(08)
    • [24].减少PSE猪肉的营养调控措施[J]. 中国饲料 2009(13)
    • [25].PSE在肝癌合并脾功能亢进患者中的辅助治疗作用[J]. 中国现代医生 2010(31)
    • [26].卡拉胶和黄原胶对转谷氨酰胺酶处理PSE兔肉糜蒸煮损失与成胶能力的影响[J]. 食品科学 2014(15)
    • [27].早期抗凝干预用于经颈静脉肝内门体静脉支架分流术联合PSE治疗肝硬化患者价值探讨[J]. 实用肝脏病杂志 2020(01)
    • [28].PTVE联合PSE、内镜下硬化治疗食管胃底静脉曲张破裂出血效果分析[J]. 现代消化及介入诊疗 2016(02)
    • [29].猪屠宰后正常肉与PSE肉中整联蛋白变化与持水性的相关性[J]. 食品工业科技 2015(21)
    • [30].PTVE联合PSE治疗肝硬化门静脉高压症、上消化道出血[J]. 医学影像学杂志 2008(10)

    标签:;  ;  ;  

    基于网格的文本分类PSE研究
    下载Doc文档

    猜你喜欢