百度发布《移动搜索建站优化白皮书》:网站优化篇(4)
什么是死链及死链的标准 页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,比较常见死链形式共有 3 种,协议死链和内容死链是比较常见两种形式,除此之外还有跳转死链。
3.1.4 访问稳定性 访问稳定性主要有以下几个注意点: DNS解析 DNS是域名解析服务器,关于DNS,这里建议中文网站尽可能使用国内大型服务商提供的DNS服务,以保证站点的稳定解析。 分享一个DNS稳定性的示例: 搜索资源平台曾收到多个站长反馈,称网站从百度网页搜索消失,site发现网站数据为0。 经追查发现这些网站都使用国外某品牌的DNS服务器 *.DOMAINCONTROL.COM,此系列DNS服务器存在稳定性问题,百度蜘蛛经常解析不到IP,在百度蜘蛛看来,网站是死站点。此前也发现过多起小DNS服务商屏蔽百度蜘蛛解析请求或者国外DNS服务器不稳定的案例。因此这里建议网站,谨慎选择DNS服务。 蜘蛛封禁 针对爬虫的封禁会导致爬虫认为网站不可正常访问,进而采取对应的措施。爬虫封禁其实分两种,一种就是传统的robots封禁,另一种是需要技术人员配合的IP封禁和UA封禁;而绝大多数情况下的封禁都是一些操作不当导致的误封禁,然后在搜索引擎上的反应就是爬虫不能正常访问。所以针对爬虫封禁的操作一定要慎重,即使因为访问压力问题要临时封禁,也要尽快做恢复处理。 服务器负载 抛开服务器硬件问题(不可避免),绝大多数引起服务器负载过高的情况是软件程序引起的,如程序有内存泄露,程序出core,不合理混布服务(其中一个服务消耗服务器资源过大引起服务器负载增大,影响了服务器对爬虫访问请求的响应。)对于提供服务的机器一定要注意服务器的负载,留足够的buffer保证服务器具有一定的抗压能力。 其他人为因素 人为操作不当引起访问异常的情况是经常见到的,针对这种情况需要严格的制度约束,不同站点情况不一样。需要保证每一次的升级或者操作要准确无误。 3.1.5 可访问链接总量 3.1.5.1 资源可穷尽 一般来说网站的内容页面是可穷尽的,万级别,百万级别甚至亿级别,但一定是可穷尽的。而现实中确实存在这样一些网站,爬虫针对这些网站进行抓取提链时会陷入"链接黑洞";通俗的讲就是网站给爬虫呈现的链接不可穷尽;典型的是部分网站的搜索结果页,不同的query在不同anchor下的a标签链接不一样就导致了"链接黑洞"的产生,所以严禁URL的生成跟用户的访问行为或者搜索词等因素绑定。 3.2 页面解析 (编辑:ASP站长网) |