💪 用 AI 为朋友江湖救急(小满足

14 条回复
62 次浏览

背景:朋友是专利相关行业,明天上级突然要来检查,要同步更新上百份最新的法律文件,在公开的政府网站可以直接下载,自己每一个保存再转 pdf 很费时间,没办法做其他事情了,问我有什么快速办法。

于是我就让 ai 试了一下,先是在 perplexity 来去尝试,毕竟他做检索厉害,我理解了他的思路通过.py 自动化在本地部署,但是网页端没办法执行;于是又在本地 opencode 尝试,用 gpt-5.4 模型,一开始直接网页爬下来的文件格式,带着很多 md 格式,而且会有很多识别错误问题,好在这个网站有下载按钮,于是通过搜索发现,这个好用的 mcp, chromedevtools

然后执行测试下来一切很丝滑 😁,还贴心的帮我设置随机等待时间,第一次感觉本地化部署的实际作用,总消耗 0.8u

思考了个问题:小批量爬可能没问题,如果比较频繁是不是需要服务器轮换 ip 呢?

image
image

❤️2
👍2
💡1
400
都听我说!
OP

嘻嘻 非程序员,这样的实际场景用 ai 解决了具体问题,感觉很有满足感

都听我说!
OP

@Wyntal 哈哈哈哈别慌,以后不用亲自搬砖了!直接化身包工头,天天指挥 AI 干活,出 Bug 了还能理直气壮地骂它,你只管验收把关,多爽doge

大平衡者
Admin

非程序员就更厉害了,技术是服务于需求的,能解决就不错

都听我说!
OP

@Jimmy poor ai 应该能解决大部分执行问题,流程清晰,线索准确的内容;我做图像和视频就很难控制,用 key 好费钱啊~

前排打手
GRD

友情提示一下 爬取 gov 的数据是一件很危险的事情

很容易被套 破坏信息安全罪

因为你不知道这些老旧的 gov 什么时候会挂掉 挂掉的时候会不会查到你

前排打手
GRD

@life 看我最后说的场景,这些 gov 网站都很脆弱,如果刚好被你赶上宕机,刚巧碰上检查,很容易被推出去顶包,因为你的爬虫造成了宕机,直接套破坏网络安全了

前排打手
GRD

@life 很早之前我还经常接爬虫的活,后来看到有个判例的新闻,就去搜了下,发现这里面还挺坑.
加上国内越来越紧的网络安全政策,后面都没接过爬虫的活了

都听我说!
OP

@JoeJoeJoe 确实,越来越不稳定的环境,很容易出岔子
以后谨言慎行,真没想到会有这风险

发表一个评论

R保持