akatom 发表于 2025-3-15 23:10:06

求一个爬虫的解决方案。技术佬请进。

google的notebookml,没有api。这个notebookml主要作用就是读论文,返回一些文章的摘要。 <br />
<br />
试问各位大佬,我用python写个爬虫还是什么样子的自动化工具, 然后买一台服务器,我通过一些方式(服务器搭建一个Django或者springboot的接口)上传这个需要阅读的论文,然后获取到这个文件之后,python写一个自动化的脚本,例如使用selenium,或者drissionpage,进行提交到这个notebookml(是一个在线网址,需要国外的服务器),然后这个notebookml会生成一些内容,然后通过爬虫把这些内容获取到之后,再用Django写个api 暴露这些内容,传给一个自动化的平台(make or coze)这样是不是就可以发不到公众号上了? 请问大佬这些步骤是不是有哪些是可以优化的? 谢谢各位大佬。

悲伤的K 发表于 2025-3-16 00:50:33

看起来好复杂

akatom 发表于 2025-3-16 20:10:49

其实不复杂

千手如来 发表于 2025-3-16 20:38:14

用高铁不是就行了 何必这么复杂 还去搞个爬虫

jep 发表于 2025-3-16 20:44:44

论文不都是有现成的摘要吗

伊吹風子 发表于 2025-3-16 20:45:26

思路可行,但逆向api得自己慢慢搞,并随时失效,碰到其他风控也无解,工程量比你想象的要大得多。

Ausxilia 发表于 2025-3-16 21:10:44

感觉我一个外行都觉得你技术栈有点落后了<br />
<br />
用playwright 代替selenium, 用fastapi代替Django

akatom 发表于 2025-3-16 21:18:47

<div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16284126&ptid=1396312" target="_blank"><font color="#999999">伊吹風子 发表于 2025-3-16 20:45</font></a></font><br />
思路可行,但逆向api得自己慢慢搞,并随时失效,碰到其他风控也无解,工程量比你想象的要大得多。 ...</blockquote></div><br />
不逆向,直接使用selenium 这种解决方案

wg198300 发表于 2025-3-16 20:45:00

去看看抓包吧,这个都没有任何加密,直接就能获取,简单到不能再简单<img src="https://hostloc.com/static/image/smiley/default/lol.gif" smilieid="12" border="0" alt="" />

host0108akatom 发表于 2025-3-16 21:19:29

我也觉得,搞这么复杂,对性能没要求,直接上webkit<div class="quote"><blockquote><font size="2"><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16284175&ptid=1396312" target="_blank"><font color="#999999">host0108 发表于 2025-3-16 21:25</font></a></font><br />
我也觉得,搞这么复杂,对性能没要求,直接上webkit</blockquote></div><br />
能解决上面的一套流程吗
页: [1]
查看完整版本: 求一个爬虫的解决方案。技术佬请进。