Web数据抽取在商业银行信用风险监控系统中的应用

论文摘要

对于商业银行来说,银行的利润就是经营风险的收益。而如何打破银行间的界限,跳出银行产品的“窠臼”,使客户的信用风险信息共享,最终以完整的视图看待一名客户的风险,是商业银行急需解决的一个问题。而随着Internet/Web技术的快速普及和迅猛发展,各种海量的客户基本数据信息可以在网络上获得。如何合理的利用这些客户信息,是一个值得大家探讨和研究的课题。本文讨论和研究了基于XML的Web信息抽取在商业银行实际系统的具体应用,对Web上客户信息的有效采集和搜索做了进一步研究。主要研究了和Web数据抽取相关的XML技术、Web数据挖掘理论,以及Web信息采集技术、网页信息抽取技术、Web信息搜索技术等,在此基础上结合商业银行自身的特点和要求,根据XML技术的特点和要求,采集抽取已知Web系统的客户详细信息,完成Web页面解析,Web数据采集,Web数据清理,Web数据服务等功能,实现客户的“一站式”查询和检索,使得商业银行的风险监控由事后反应转变为事前预测,实现经营风险的自动预警,全面提升商业银行分析、使用信息和管理风险的能力。商业银行客户信息风险监控系统合理的对外部Web系统上各种海量的客户基本数据信息进行数据采集、挖掘、清理、分析,使之成为商业银行自己可以充分利用的数据。系统打破了银行间的界限,跳出银行产品的“窠臼”,使客户的信用风险信息共享,最后以完整的视图看待一名客户的风险。因此,Web数据抽取在商业银行中的应用将变得非常具有现实意义。从技术成熟度和业务需求的迫切性来讲,Web数据抽取研究具有一定的可行性和必要性。课题将结合实际,将理论与现实需求相结合,提炼出Web数据抽取在商业银行客户风险监控中的实际意义和影响。同时也可以提供同行业借鉴和参考。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 论文研究背景

1.2 论文研究的意义

1.3 国内外研究现状及发展趋势

第二章相关理论研究

2.1 XML 语言

2.1.1 XML 的产生背景

2.1.2 XML 语言的主要特点

2.2 数据挖掘

2.2.1 Web 数据挖掘

2.2.2 XML 与Web 数据挖掘

2.3 WEB 信息搜索

2.3.1 搜索引擎工作流程

2.3.2 主题搜索

2.3.3 垂直搜索

2.4 HTML TIDY

2.5 SpringFrameWork

2.6 本章小结

第三章系统设计

3.1 信用风险监控系统体系

3.2 WEB 信息抽取

3.2.1 数据采集

3.2.2 结构化信息抽取

3.3 WEB 数据定位

3.3.1 信息定位的优化方法

3.3.2 基于树路径的定位

3.3.3 基于文本的定位方式

3.4 核心模块

3.4.1 模块说明

3.4.2 流程说明

3.5 WEB 数据处理框架

3.6 系统架构

3.6.1 Html2DB 组件

3.6.2 针对系统开发的考虑

3.6.3 针对外部系统的变化考虑

3.6.4 性能考虑

3.7 本章小结

第四章系统实现

4.1 系统术语

4.2 实现思路

4.3 总体框架

4.4 页面抓取

4.4.1 模拟用户操作

4.4.2 辅助处理类

4.4.3 信息存储

4.5 页面解析

4.5.1 HTML 语法分析

4.5.2 页面清洗

4.5.3 正文提取

4.6 功能实现

4.6.1 功能列表

4.6.2 功能描述

4.7 系统测试与分析

4.7.1 压力测试

4.7.2 测试结果分析

4.8 本章小结

第五章总结与展望

5.1 主要结论

5.2 研究展望

参考文献

致谢

Web数据抽取在商业银行信用风险监控系统中的应用

论文摘要

论文目录

相关论文文献

猜你喜欢