Web数据抽取在商业银行信用风险监控系统中的应用

Web数据抽取在商业银行信用风险监控系统中的应用

论文摘要

对于商业银行来说,银行的利润就是经营风险的收益。而如何打破银行间的界限,跳出银行产品的“窠臼”,使客户的信用风险信息共享,最终以完整的视图看待一名客户的风险,是商业银行急需解决的一个问题。而随着Internet/Web技术的快速普及和迅猛发展,各种海量的客户基本数据信息可以在网络上获得。如何合理的利用这些客户信息,是一个值得大家探讨和研究的课题。本文讨论和研究了基于XML的Web信息抽取在商业银行实际系统的具体应用,对Web上客户信息的有效采集和搜索做了进一步研究。主要研究了和Web数据抽取相关的XML技术、Web数据挖掘理论,以及Web信息采集技术、网页信息抽取技术、Web信息搜索技术等,在此基础上结合商业银行自身的特点和要求,根据XML技术的特点和要求,采集抽取已知Web系统的客户详细信息,完成Web页面解析,Web数据采集,Web数据清理,Web数据服务等功能,实现客户的“一站式”查询和检索,使得商业银行的风险监控由事后反应转变为事前预测,实现经营风险的自动预警,全面提升商业银行分析、使用信息和管理风险的能力。商业银行客户信息风险监控系统合理的对外部Web系统上各种海量的客户基本数据信息进行数据采集、挖掘、清理、分析,使之成为商业银行自己可以充分利用的数据。系统打破了银行间的界限,跳出银行产品的“窠臼”,使客户的信用风险信息共享,最后以完整的视图看待一名客户的风险。因此,Web数据抽取在商业银行中的应用将变得非常具有现实意义。从技术成熟度和业务需求的迫切性来讲,Web数据抽取研究具有一定的可行性和必要性。课题将结合实际,将理论与现实需求相结合,提炼出Web数据抽取在商业银行客户风险监控中的实际意义和影响。同时也可以提供同行业借鉴和参考。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 论文研究背景
  • 1.2 论文研究的意义
  • 1.3 国内外研究现状及发展趋势
  • 第二章 相关理论研究
  • 2.1 XML 语言
  • 2.1.1 XML 的产生背景
  • 2.1.2 XML 语言的主要特点
  • 2.2 数据挖掘
  • 2.2.1 Web 数据挖掘
  • 2.2.2 XML 与Web 数据挖掘
  • 2.3 WEB 信息搜索
  • 2.3.1 搜索引擎工作流程
  • 2.3.2 主题搜索
  • 2.3.3 垂直搜索
  • 2.4 HTML TIDY
  • 2.5 SpringFrameWork
  • 2.6 本章小结
  • 第三章 系统设计
  • 3.1 信用风险监控系统体系
  • 3.2 WEB 信息抽取
  • 3.2.1 数据采集
  • 3.2.2 结构化信息抽取
  • 3.3 WEB 数据定位
  • 3.3.1 信息定位的优化方法
  • 3.3.2 基于树路径的定位
  • 3.3.3 基于文本的定位方式
  • 3.4 核心模块
  • 3.4.1 模块说明
  • 3.4.2 流程说明
  • 3.5 WEB 数据处理框架
  • 3.6 系统架构
  • 3.6.1 Html2DB 组件
  • 3.6.2 针对系统开发的考虑
  • 3.6.3 针对外部系统的变化考虑
  • 3.6.4 性能考虑
  • 3.7 本章小结
  • 第四章 系统实现
  • 4.1 系统术语
  • 4.2 实现思路
  • 4.3 总体框架
  • 4.4 页面抓取
  • 4.4.1 模拟用户操作
  • 4.4.2 辅助处理类
  • 4.4.3 信息存储
  • 4.5 页面解析
  • 4.5.1 HTML 语法分析
  • 4.5.2 页面清洗
  • 4.5.3 正文提取
  • 4.6 功能实现
  • 4.6.1 功能列表
  • 4.6.2 功能描述
  • 4.7 系统测试与分析
  • 4.7.1 压力测试
  • 4.7.2 测试结果分析
  • 4.8 本章小结
  • 第五章 总结与展望
  • 5.1 主要结论
  • 5.2 研究展望
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    Web数据抽取在商业银行信用风险监控系统中的应用
    下载Doc文档

    猜你喜欢