💪 用 AI 为朋友江湖救急（小满足

14 条回复

62 次浏览

背景：朋友是专利相关行业，明天上级突然要来检查，要同步更新上百份最新的法律文件，在公开的政府网站可以直接下载，自己每一个保存再转 pdf 很费时间，没办法做其他事情了，问我有什么快速办法。

于是我就让 ai 试了一下，先是在 perplexity 来去尝试，毕竟他做检索厉害，我理解了他的思路通过.py 自动化在本地部署，但是网页端没办法执行；于是又在本地 opencode 尝试，用 gpt-5.4 模型，一开始直接网页爬下来的文件格式,带着很多 md 格式，而且会有很多识别错误问题，好在这个网站有下载按钮，于是通过搜索发现，这个好用的 mcp， chromedevtools

然后执行测试下来一切很丝滑 😁，还贴心的帮我设置随机等待时间，第一次感觉本地化部署的实际作用，总消耗 0.8u

思考了个问题：小批量爬可能没问题，如果比较频繁是不是需要服务器轮换 ip 呢？

❤️2

👍2

💡1

400

真不错！

嘻嘻非程序员，这样的实际场景用 ai 解决了具体问题，感觉很有满足感

不嘻嘻程序员，以后我们越来越没用了

@Wyntal 哈哈哈哈别慌，以后不用亲自搬砖了！直接化身包工头，天天指挥 AI 干活，出 Bug 了还能理直气壮地骂它，你只管验收把关，多爽 doge

非程序员就更厉害了，技术是服务于需求的，能解决就不错

@Jimmy poor ai 应该能解决大部分执行问题，流程清晰，线索准确的内容；我做图像和视频就很难控制，用 key 好费钱啊～

友情提示一下爬取 gov 的数据是一件很危险的事情

很容易被套破坏信息安全罪

因为你不知道这些老旧的 gov 什么时候会挂掉挂掉的时候会不会查到你

啊我去，还有这回事儿不敢了

可以搜一下相关的案件和判例

@JoeJoeJoe 看了下公开数据好像没问题，我这个是公开渠道数据库

@life 看我最后说的场景，这些 gov 网站都很脆弱，如果刚好被你赶上宕机，刚巧碰上检查，很容易被推出去顶包，因为你的爬虫造成了宕机，直接套破坏网络安全了

@JoeJoeJoe 嗯嗯想想后怕，以后不敢了

@life 很早之前我还经常接爬虫的活，后来看到有个判例的新闻，就去搜了下，发现这里面还挺坑.
加上国内越来越紧的网络安全政策，后面都没接过爬虫的活了

@JoeJoeJoe 确实，越来越不稳定的环境，很容易出岔子
以后谨言慎行，真没想到会有这风险

发表一个评论

R保持