使用索引页补全机制来优化网站
时间:2012-07-04 来源:深圳时代华奥 分类:建站知识
使用索引页链接补全机制来优化网站对于按发布时间有序排布在索引页系列的资源链接,如何保证新发布的资源都被收录呢?
首先,当spider抓取18小时后的第1页时,将新发现的资源链接集合,与上一次18小时前第1页索引页调度记录的资源链接集合作比较,会发现两次调度发现的资源链接没有交集,所以就可能存在漏链。进而需要继续发起第2页的调度,第2页发现的资源链接集合与之仍然没有交集,所以还可能存在漏链,继续发起第3页,第4页的调度,最终如图2所示,红框中的链接与上一次索引页调度记录的资源链接有交集,因此可以断定已经补全了这段时间内新增的资源,从而结束翻页系列的调度,并保证了该翻页系列的所有链接的补全,从而提升搜索产品的收录效果。
翻页条的识别和翻页条对应的链接序列区块的识别
为了达到上面的效果,除了需要识别翻页系列的排序方式是不是按照时间排序,还需要识别索引页中的翻页条和其对应的链接区块。
因为没有翻页条的识别,spider系统就不可能把这个翻页序列的所有链接绑定起来,整体考虑它们的状态,那么调度抓取的结果就是随机的,从而不能保证补全效果,当前通过网页中的翻页的一系列特征,通过机器学习的方法来识别网页中的翻页区块和翻页深度,以及上一页,下一页的链接,从而为上述补全机制提供基本数据。
优化网站遇到网页特殊情况时,一个网页可能包含多个翻页条,这种情况更需要进行翻页条和链接区块的对应。
另外一方面,即使有了翻页条的识别,没有对应链接区块的识别,上述补全机制还是不能工作,因为上述机制需要对比发现的链接的集合来判定终止条件,所以,也需要识别翻页条对应的链接区块,从而提供翻页终止条件。