论文摘要
在电子商务方兴未艾的今天,企业上网不但是为了展示企业形象,提高知名度;也意味着无穷的商机与财富。而内部网Intranet则为企业带来了全新的沟通方式和管理理念。因此构建企业Web站点已经排上了许多企业信息部门的日程。Web的优点在于可以方便的展示大量信息,但同时也带来了信息的泛滥使得寻找有效信息非常困难。为此,好的企业网站都拥有强大的搜索引擎,使得网站更加友好和便利。对于有政策法规、合同定单等大量文档上网的企业网站,信息搜索的服务必不可少。Index Server是专门为企业网站设计的专业搜索引擎,利用它可以非常轻松的在网站中加入功能强大的信息搜索功能。并且Index Server搜索的文件不局限于HTML格式,还支持TXT、DOC、EXL、RTF、GIF、JPEG等多种文件格式,并可以通过插入第三方插件来支持更多的文件格式。搜索范围可以是存放在本地服务器中的内容,也可以是网络中其他机器的共享资源,包括INTERNET中的资源。搜索时除了文档中的关键字词以外,还可以就文件大小、修改日期、作者等属性进行搜索。此外Index Server还支持英文、简体中文、德语、法语、日语等语种,无须编程,就可在网站中实现多语种的搜索引擎。由于Index Server是零维护设计,故只需启动Index Server服务,搜索引擎就会自动运行。而在Web服务器端,需要加入与Index Server连接的页面。传统Index Server的工作过程由浏览器通过HTML文档的FORM表单向Web服务器发出请求开始,Web服务器通过一个类似于数据库接口的专用文件.IDQ与Index Server连接,将客户的请求转换成Index Server理解的语句。Index Server再将查询结果按照模板文件HTX定义的格式组织成HTML文档,通过Web服务器返回给浏览器。这种方式称为HTML/IDQ/HTX方式,需要三个文件配合完成查询。使用这种方式不能对查询结果进行处理,并且模板文件HTX格式单一。因此微软在Index Server 2.0中加入了对asp.net的支持,用一个ASPX文件替代先前的三个文件。由于asp.net有灵活且功能强大的脚本语言操纵,因此Web开发者可以设计条件复杂的查询,并能更加精确的处理查询结果。本文围绕站内搜索这一课题,对Index server索引技术、数据采集这两大站内搜索的核心支撑技术进行了深入细致的研究与分析,并在对google、百度、搜狗等已有站内搜索产品和市场详细调研的基础上实现了一个实时站内搜索系统。本文所做的主要工作、技术难点与创新处如下:1.大量查阅了站内搜索的相关资料,追溯了站内搜索兴起的原冈及其发展过程,认真学习了站内搜索的体系结构、架构过程及应用实施的知识,深入领会了站内搜索的概念及其核心支撑技术。2.深入细致的学习了Index Server索引的概念、特点以及Index Server系统的体系结构,并研究了数据的索引过程:过滤,字分离和规范化,并对实现索引查询的数据流程、体系结构、查询后的结果集以及将Index server索引服务器的数据库连接器做为二次开发的类库进行了详细的分析与研究,而且也从应用的角度对Index server服务器中的时间排序、精确排序做了深入的学习。3.认真学习了SQL数据库的相关知识,分析了数据库的体系结构,并重点学习了如何实现对数据库的监控和安全访问。4.深入学习Visual Studio 2003开发工具,详细的研究了Windows服务的开发模式,把Windows服务应用到Socket通信服务器端,充分利用Windows服务的优点,扬长避短,不仅大大提高了生产效率,而且明晰了系统结构,为系统稳定安全的运行提供了保障。5.深入的学习了网络通信编程技术,以及TCP/IP协议和信息包的知识,并将之用在数据采集的C/S系统中。6.基于上述原理和已有的研究成果,设计并实现了站内搜索系统,该系统具有的特点与创新如下:1)本系统中数据采集子系统采用了C/S结构,系统的所有用户可以通过Internet使用本查询系统,不受时间和地点的限制,而且系统基于web的操作方式,对于有着庞大的互联网用户数量的中国市场来说更加具有竞争力。2)实时信息查询:百度和Google等著名的搜索引擎巨头他们也提供了免费的站内搜索系统,他们也可以完成快速的站内搜索功能,但是百度或Google的站内搜索系统却不能查到网站内的最新的新闻内容或查到网站中已经不存在的信息,因为他们的网络蜘蛛不能实时的对每一个网站的内容进行数据的采集,然后进行索引。所以对于很多数据有一个延迟性。而本站内搜索系统通过对网站内的数据库进行实时监控处理,有效地采集到网站的最新信息变动,实现了实时查询。3)信息数据的生成和管理,为了能使网站的客户能查询到最新的信息,使用Window后台服务对SQL的数据库信息更新进行实时的监控,及时的把变更信息用TXT文件形式存储并添加到索引服务器中。4)采用TXT文件形式存储数据信息,Index Server支持HTML、XML等多种文件形式的索引功能,但是TXT是最稳定、高效的存储格式。目前,本系统已经在证券之星进行内部安全测试,效果良好。作者在校期间,所发表的文章见附录。