wawos 发表于 2025-2-13 15:47:05

现在蜘蛛抓取是不是基本都会执行网页的JS脚本了啊?

<font size="3"><font color="RoyalBlue">网上教程都说蜘蛛机器人抓取不会去执行网页的.js脚本,<br />
<br />
但是现在很多站点的真实内容, 都是先加载一个主框架,<br />
<br />
然后通过.js 代码再在页面后台获取的,搜索引擎抓取展示的内容根本不受影响, <br />
<br />
是不是现在蜘蛛抓取是不是基本都会执行网页的JS脚本了?<br />
<br />
</font></font>

wawos 发表于 2025-2-13 15:50:03

如果蜘蛛会允许js代码, 是不是我现在用 判断访问是否含有某个cookie, <br />
<br />
来判断是蜘蛛还是真实用户, 这个方法就不行了 (cookie是在js代码设置的) ?<br />
<br />
如果蜘蛛会运行js, 那它肯定也会有这个cookie了啊

hins 发表于 2025-2-13 16:10:32

有时候会执行js的

胖虎_ 发表于 2025-2-13 20:12:03

<div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16232014&ptid=1388860" target="_blank"><font color="#999999">wawos 发表于 2025-2-13 15:50</font></a></font><br />
如果蜘蛛会允许js代码, 是不是我现在用 判断访问是否含有某个cookie, <br />
<br />
来判断是蜘蛛还是真实用户, 这个方 ...</blockquote></div><br />
蜘蛛请求头不是会带User Agent的嘛,把常用的UA收集一下。去拿他的User Agent。<br />
百度ua:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)<br />
谷歌ua:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

wawos 发表于 2025-2-13 15:50:00

<div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16232462&ptid=1388860" target="_blank"><font color="#999999">胖虎_ 发表于 2025-2-13 20:12</font></a></font><br />
蜘蛛请求头不是会带User Agent的嘛,把常用的UA收集一下。去拿他的User Agent。<br />
百度ua:Mozilla/5.0 ( ...</blockquote></div><br />
标准的蜘蛛UA才会带这些spider信息,<br />
<br />
蜘蛛会模仿普通浏览器来判断你网站内容有没有作弊的

胖虎_ 发表于 2025-2-13 20:20:43

<div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16232469&ptid=1388860" target="_blank"><font color="#999999">wawos 发表于 2025-2-13 20:20</font></a></font><br />
标准的蜘蛛UA才会带这些spider信息,<br />
<br />
蜘蛛会模仿普通浏览器来判断你网站内容有没有作弊的 ...</blockquote></div><br />
那就不清楚咯,现在大部分蜘蛛都是可以执行js的。<br />
问问ai看看,有哪些是浏览器特有的,蜘蛛无法模仿的。
页: [1]
查看完整版本: 现在蜘蛛抓取是不是基本都会执行网页的JS脚本了啊?