搞了一个 V2EX 的日报, 每天发布一篇关于 V2EX 的相关数据.

8 条回复
126 次浏览

地址: https://info.v2ex.pro

RSS: https://info.v2ex.pro/rss.xml

转换的代码已经开源了, 地址在这: https://github.com/HelloWorldImJoe/data2markdown

后续会加上 tg 的机器人通知, 再后续就是将相关的工具整合成一套自动化模板开源.

最终的目标是能让用户快速的使用模板自定义创建一个支持 rss 和电报通知的日报生成工具.

OP

等我搞完这个工具, 理论上所有网站都能出一份类似的运营日报? 核心目标就是让用户用最低代价来完成这件事.

Admin

需要每个网站都单独配置一遍抓取处理吗,是否考虑加入 llm

OP

@Jimmy 本质上只是提供一个工具, 最终的产物可能是一个可以自定义的 markdown 模板+自动采集的程序+自动渲染 md 模板的脚本.

自动采集的程序只需要知道要存那些字段,从哪个地方获取,是接口获取还是界面解析,界面解析需要什么规则.

数据来源之类的其他问题, 在我的设想里都不是这个工具应该考虑的范围.

llm 的话可以在这个工具上层采集数据的时候添加一个对应字段, 然后再 md 模板中渲染这个字段.

ps: 我也不知道这个事什么时候能做完, 会不会夭折, 毕竟被我自己干掉的拍脑袋项目也不少了 😂

Admin

@JoeJoeJoe 这看起来有些复杂。

存那些字段,从哪个地方获取,是接口获取还是界面解析,界面解析需要什么规则

光这个就要很多工作要做,能做但要做到最低代价比较难 😵

发表一个评论

R保持