搜索引擎蜘蛛爬行JS和CSS怎么做
发布时间:2022-06-20 14:30 所属栏目:21 来源:互联网
导读:这是一个存在多年的问题,经常出现,但从来没有一个标准的解决方案:搜索引擎爬虫(特别是百度)抓取JS、CSS、JSON文件,而机器人屏幕仍然抓
这是一个存在多年的问题,经常出现,但从来没有一个标准的解决方案:搜索引擎爬虫(特别是百度)抓取JS、CSS、JSON文件,而机器人屏幕仍然抓取。 crawler如何获取JS和CSS?2、爬虫程序能执行JS吗?3、crawler的JS对SEO有什么影响? 针对以上问题,我想谈谈自己的看法: 首先,crawler抓取CSS判断页面元素的重要性,保证快照显示的完整性;抓取JS查找新链接,判断是否存在欺骗 其次,JS将被执行,但不确定是否所有JS都将被执行。正如互联网上许多人所说,“搜索引擎将直接忽略JS和iframe,只捕获纯文本信息”。这在实际情况下是站不住脚的。如果搜索引擎对JS和iframe来说不是鸟,那么那些戴着黑帽子的学生不高兴死吗?请阅读前两篇关于黑帽子的文章,你会明白的 第三,我不知道。在某些情况下,它可能会占用抓取配额,但我经历了几个蜘蛛抓取JS的站点,流量没有异常。 说到这里,我现在的工作站上半年就经历过这种情况。百度疯狂地抓取JSON,机器人屏蔽了各种低效。但交通并未出现下降等异常情况。我不在乎基本的,根据我的心理承受能力,但对JSON的抓取率的检查确实让我的菊花变紧了,接近40%。是的,你没有错,40%。假设百度每天抓取100万个页面,40万都是JSON。 JSON path是用JS明文写的,百度是否已经识别出JSON的路径,还是执行了JS,还不得而知。不管怎样,只要我们掌握了包含这个函数的页面,我们就会获取相应的JSON文件。 综上所述,有两个预先确定的解决方案:一是直接删除与此函数对应的JS;二是不返回此JS,直接面对搜索引擎访问。所以蜘蛛看不见,也抓不到。 (编辑:ASP站长网) |
相关内容
网友评论
推荐文章
热点阅读