全球主机交流论坛备用站

 找回密码
 立即注册

QQ登录

只需一步,快速开始

全球云38元起免备案V2EX搬瓦工VPS
SEO查询超级PING网站测速
Virmach特价鸡乌云漏洞吾爱破解
123
返回列表 发新帖
楼主: 唐王李世民

求助一个PHP Curl网页源码动态的问题

[复制链接]

48

主题

597

回帖

1788

积分

金牌会员

Rank: 6Rank: 6

积分
1788
发表于 2024-11-11 16:43:09 | 显示全部楼层
20230417
似毛非毛 发表于 2024-11-12 12:35
。。。你这刚学爬虫就爬淘宝么?哪有新手村出来就打boss的。爬点简单的吧

大佬哪里看到我是爬淘宝?
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

0

主题

55

回帖

196

积分

注册会员

Rank: 2

积分
196
发表于 2024-11-11 15:06:00 | 显示全部楼层
确实,由于今日头条等网站使用大量的 JavaScript 来动态加载页面内容,直接使用 cURL 请求无法完整获取动态内容。可以尝试以下两种方法来解决这个问题:

1. 使用无头浏览器 (Headless Browser)
无头浏览器,如 Puppeteer(Node.js 环境)或 Playwright,可以完全模拟浏览器访问页面,包括执行 JavaScript 代码,从而获得完整的内容。这种方法可以确保页面完全加载后抓取内容。

以下是 Puppeteer 的简单示例:



2. 使用 PHP 的 Selenium WebDriver
如果你希望继续使用 PHP 语言,可以结合 Selenium WebDriver 和 ChromeDriver。PHP 有适配的 FB WebDriver 库,通过它可以操控 Chrome 浏览器,获取完整的网页内容。

以下是一个使用 PHP WebDriver 和 ChromeDriver 的示例:



注意事项
环境准备:Puppeteer 需要 Node.js 环境,而 PHP WebDriver 需要启动 Selenium Server 和 ChromeDriver。
效率和资源占用:无头浏览器会消耗更多资源,适合获取高精度数据时使用。
避免频繁请求:使用这些方法抓取数据时要注意频率,以免被网站封禁。
通过这两种方式,你可以更好地获取今日头条视频页面等动态内容。
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

0

主题

55

回帖

196

积分

注册会员

Rank: 2

积分
196
发表于 2024-11-11 17:46:59 | 显示全部楼层
唐王李世民 发表于 2024-11-12 09:04
谢谢您的回复,我试一试

还没搞定?
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

0

主题

55

回帖

196

积分

注册会员

Rank: 2

积分
196
发表于 2024-11-11 16:36:00 | 显示全部楼层
本帖最后由 imdong 于 2024-11-12 13:58 编辑

只需要设置UA和Cookie ttwid参数就行
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

展开

QQ|Archiver|手机版|小黑屋|全球主机交流论坛备用站

GMT+8, 2025-2-27 18:19 , Processed in 0.040984 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表