论文摘要
数据采集是构建数据仓库和决策支持系统的基础。在医疗、金融等应用领域,由于不同医院、不同银行采用了不同的软件系统,使得这些领域存在大量的异构数据。异构数据采集需要解决对象识别、数据转换、数据整合等诸多问题,论文试图通过研究具有数据映射定义能力的采集代理,较好地解决“信息孤岛”问题,从而有效地实现数据共享。比较分析了通过使用专业数据采集工具进行数据采集、利用数据仓库方案供应商提供的采集工具进行数据采集等采集方式,针对现有的数据采集方式不能很好地解决针对用户级数据字典数据库数据采集的问题,引入了基于数据映射和Agent的数据采集策略。在数据采集过程中,根据用户的需要为使用用户级数据字典的数据库建立采集工程,通过数据映射将异构数据转换为同构数据,通过Agent之间的通信来协调各个Agent之间的工作,从而有效地实现异构数据获取、转换和存储任务。系统中,Agent与Agent间以客户端、服务器端的工作模式,建立安全的通信连接,一个服务器端Agent对应一个客户端Agent。客户端Agent基于描述数据映射的采集工程工作,根据采集工程定义,将数据从异构系统中提取出来,按照预先设计的规则对提取的数据进行转换,使本来异构的数据在格式上统一起来,以标准的XML (Extensible Markup Language,超文本标记语言)文档形式存储,传输到服务器端,服务器端Agent从XML文档中读出数据,进行对象识别后存储到服务器数据库中。设计并实现了基于Agent的数据采集系统,通过采集东风卫生系统数据库中的数据进行了验证实验。