搜索引擎蜘蛛爬行JS和CSS怎么做

发布时间：2022-06-20 14:30 所属栏目：21 来源：互联网

导读：这是一个存在多年的问题，经常出现，但从来没有一个标准的解决方案：搜索引擎爬虫（特别是百度）抓取JS、CSS、JSON文件，而机器人屏幕仍然抓

　　这是一个存在多年的问题，经常出现，但从来没有一个标准的解决方案：搜索引擎爬虫（特别是百度）抓取JS、CSS、JSON文件，而机器人屏幕仍然抓取。

　　crawler如何获取JS和CSS？2、爬虫程序能执行JS吗？3、crawler的JS对SEO有什么影响？

　　针对以上问题，我想谈谈自己的看法：

　　首先，crawler抓取CSS判断页面元素的重要性，保证快照显示的完整性；抓取JS查找新链接，判断是否存在欺骗

　　其次，JS将被执行，但不确定是否所有JS都将被执行。正如互联网上许多人所说，“搜索引擎将直接忽略JS和iframe，只捕获纯文本信息”。这在实际情况下是站不住脚的。如果搜索引擎对JS和iframe来说不是鸟，那么那些戴着黑帽子的学生不高兴死吗？请阅读前两篇关于黑帽子的文章，你会明白的

　　第三，我不知道。在某些情况下，它可能会占用抓取配额，但我经历了几个蜘蛛抓取JS的站点，流量没有异常。

　　说到这里，我现在的工作站上半年就经历过这种情况。百度疯狂地抓取JSON，机器人屏蔽了各种低效。但交通并未出现下降等异常情况。我不在乎基本的，根据我的心理承受能力，但对JSON的抓取率的检查确实让我的菊花变紧了，接近40%。是的，你没有错，40%。假设百度每天抓取100万个页面，40万都是JSON。

　　JSON path是用JS明文写的，百度是否已经识别出JSON的路径，还是执行了JS，还不得而知。不管怎样，只要我们掌握了包含这个函数的页面，我们就会获取相应的JSON文件。

　　综上所述，有两个预先确定的解决方案：一是直接删除与此函数对应的JS；二是不返回此JS，直接面对搜索引擎访问。所以蜘蛛看不见，也抓不到。

（编辑：ASP站长网）