论文摘要
数据挖掘和文本挖掘是商业数据处理应用中比较有效的技术和方法,它们同时也是商业数据处理高端技术的代表,而数据处理结果的展示和传递则是商业数据处理的一个完整的解决方案所不可或缺的;另外这三个方面也是商业智能中应用最广泛的领域,成功实现了这三个方面的应用,也就构建和完善了商业智能应用的基本框架和商业智能应用解决方案的主体部分;而目前国内外的有关这三个方面的研究和应用仍存在较大探索空间。本文对这三个方面进行了较深入而全面的研究和实践,在消化、吸收和应用各种(新)技术的基础上论述了实现这三个方面的应用的多种方法,提出了一个完整的解决方案,并以它们为应用范例来论述如何完善这三个方面的应用。本文指出了目前数据挖掘研究和应用中的欠缺,例如应用中算法比较单一;对数据挖掘的概念和理论以及数据挖掘过程的理解仍不够深刻,甚至存在一些误解;对挖掘结果的理解、分析及应用不足。针对这些欠缺,本文择要论述了数据挖掘的理论、技术基础和相关概念以及它们之间的关系,对各种常见数据挖掘算法进行了分析和比较,论述了数据挖掘系统的选择原则,为数据挖掘应用提供了若干指导原则,并举例论述了数据挖掘与商业数据处理的其它应用的集成。本文对文本挖掘预处理的若干重要技术、文本数据的分类和聚类挖掘、自动文摘以及文本挖掘的其它领域的技术和原理进行了较系统和深入的研究和分析,论述这些技术时本文前后呼应,并将其中的一些技术结合起来论述,理清了文本挖掘的思路。本文提出了关于商业信息的展示和传递的5个重要的、亟待解决的问题。针对这些问题,本文论述了商业信息的展示和传递的多种技术、采用信息传递技术的策略,重点论述了SQL Server 2005的报表服务和通知服务的技术,这两种技术能够很好地支持商业信息的展示和传递的应用开发。在对数据挖掘、文本挖掘以及商业信息的展示和传递的相关技术的理论分析的基础上,本文详细论述了对数据挖掘结果的理解和分析以及对挖掘模型的评估技巧;详细论述了实现文本挖掘的预处理、英文文本数据的分类挖掘、中文文本文档的自动分类以及英文文本数据的聚类挖掘的应用范例。本文以SQL Server 2005为开发工具(重点应用了其报表服务),结合微软的SharePoint服务、Windows域的应用和管理以及网站开发技术,开发了展示和传递商业信息的完整可行的应用系统。此系统经过实际运行与验证,达到了预定的目标,并解决了此领域存在的若干问题;该解决方案完全可以应用于很多机构的相关项目中。本文的意义在于深化了对数据挖掘、文本挖掘以及商业信息的展示和传递的研究和应用,弥补了此前这些方面的不足,并为这些方面重新提出了研究热点。