设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 重新 数据 创业者
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

网站收录及抓取创建指南

发布时间:2021-10-31 10:43 所属栏目:21 来源:互联网
导读:抓取友好性优化 1、URL规范: 任何一个资源都是通过URL来抓取的,URL相对于网站的门牌号,那么URL的规划就非常重要了。尤其是如上图所示,待抓URL的环境,爬虫在首页的时候,并不知道URL是什么样子。 优秀的URL的特点是主流的、简单的,竟可能不要去做一些非
抓取友好性优化
1、URL规范:
 
任何一个资源都是通过URL来抓取的,URL相对于网站的门牌号,那么URL的规划就非常重要了。尤其是如上图所示,“待抓URL”的环境,爬虫在首页的时候,并不知道URL是什么样子。
 
优秀的URL的特点是主流的、简单的,竟可能不要去做一些非主流的样式,让人看起来很直观的URL。
 
如上图所示,第一条是百度知道的链接,整个链接分成三段,第一段是网站的站点,第二段是资源类型,第三段是资源的ID。这种就是非常简单,并且爬虫看起来非常优质的URL。
 
如上图所示,第三条相对百度知道多了一个段,首先第一段是网站的站点,第二段是站点的一级目录,第三段是站点的二级目录,最后一段是站点的内容ID。像这种的URL也是符合标准的。

(编辑:ASP站长网)

    网友评论
    推荐文章
      热点阅读