基于合作式的网站资源采集系统的建设
详细内容
1 基于合作式采集的概念及系统建设的背景意义 1.1 基于合作式采集的概念 所谓基于合作式的采集是指资源的生产者与资源的采集者通过管理以及技术手段上的协同与配合,完成一定范围内的资源采集与保存。合作式采集的突出特点是能够即时获知网站资源的变更情况,并根据变更特征采取相应的措施。这样就能够保证相对完整地采集和保存网站资源。
1.2 前非合作式采集项目及典型采集策略 目前, 对网站资源进行持续、大规模的采集活动主要有两类。一是开始于20世纪90年代中期并延续至今的各类网络资源长期保存项目。如IA、PANDORA、Kulturarw3 Web信息资源采集实验项目。其目标在于防止人类越来越多地以数字形式出现的科学、文化信息的消失。这种类型的采集活动它的采集模型是资源采集者利用采集工具定期采集或者资源提供者呈缴的方式对资源进行采集并保存;二是各种商业搜索引擎,它们定期、大范围地采集Inter资源建立索引,提供给最终用户访问。无论是网络信息的长期保存项目还是商业搜索引擎的大规模采集,它们的目标都是尽可能多、尽可能全地采集网页资源。而它们所采用的方法都是根据一定的频率选择策略,定期重访网页。常用的集中频率选择策略包括:统一策略 (Round-robin)、基于网页变化历史的策略(Change-frequency-based)、基于样本的策略(Sampling-based)。
1.2.1 统一策略(Round-robin)。这种策略使用相同的频率,重新访问 URL列表中的所有链接,而不考虑它们各自的更新频率。原理是对检测频率给定一个取值,爬行器每到需要检测网页变化的时间点, 就重新爬行一次所有的网页,将变化了的网页下载、保存。这种策略简单易行,但是完全忽略了网页本身更新的个性化特征。
1.2.2 基于网页变化历史的策略(Change-fre- quency-based)。基于网页变化历史的策略,需要搜集网页变化的历史轨迹。简单的方法是变化的总次数 X/时间间隔T。起初为每一个网页设定一个生存周期,到达生存周期结束时刻就进行重访监测。当对某个网页的变化频率有一定的统计估计值后,根据估计的网页变化频率来调整这个网页的生存周期。另外,网页的变化频率常常是不规律的, 通常很难分析出精确的网页变化频率。
1.2.3 基于样本的策略(Sampling -based)。这种策略的基本出发点是:绝大多数网页以网站或其他群体形式聚集, 不同的网页群体之间的平均变化频率相差极大,但同一群中变化频率接近,因此通过采集一定数量的样本页面,以样本页面的变化频率来确定所属群体的变化频率。由此可见,由于网页资源的个体差异极大,这些采集频率选择策略都存在一定的缺陷,无法完整地采集网页资源。
1.3 非合作式采集模式遇到的问题 无论是国家层面的网络信息保存项目如PANDORA,还是组织联盟形式的如IIPC或者项目形式的网络信息保存项目如Web at risk,无论是使用完整性的采集策略,还是选择性的采集策略,他们的采集模型都是资源采集方单方面地对选中的网站或者整个Inter网进行爬行,这种基于非合作式的采集模型使他们在采集过程中遇到了一些困难。现存的资源采集方法是在Inter上周期性地采集资源,如果网页的内容在一个采集周期内更新了多次,将会漏掉对一些网页版本的采集。如果在一个采集周期内网页内容没有发生改变,就会对同样的内容采集两次甚至更多次(如图1所示)。资源采集周期间隔示意图网址可能会发生变化,如图2所示,资源可能会换一个新地址;或者一个网页分裂成了两个网页,导致产生了新的地址;或者某一个地址停止使用一段时间后又被不同内容的资源再利用。虽然现存的存档系统应该能够跟踪到资源地址的变化,但是一般来说,如果没有资源提供者的通知或者其他智能工具的跟踪,不太容易知道发生了什么样的变化。