跨站点通用自定义屏蔽词插件的思路征集：有没有人做过/在维护？

tomeric

13 条回复

102 次浏览

这里想抛个砖引玉，讨论一个“提升信息密度”的小需求：跨站点的自定义屏蔽词/无意义回复过滤。

背景是我最近在论坛/社交平台（X、B 站等）的评论区刷信息，经常会遇到一些“看起来很积极但信息量很低”的短回复，比如：

“干得漂亮”

“字数补丁”

（类似的：纯情绪/纯口号/纯复读，不带问题、不带细节、不带上下文）

这些内容本身不违规，但它们会把真正有价值的讨论“冲稀”，尤其是长帖/技术帖里想快速定位有效信息时很痛苦。

我自己在做一个本地过滤脚本（按关键词隐藏/折叠），但立刻遇到一个现实问题：每个站点 DOM 结构不一样，要做“精准隐藏评论块”就得为不同站点写不同的选择器/适配规则。于是我想问问大家：

1）有没有已经存在的成熟插件/方案？

能覆盖多种站点（Discourse、常见论坛、X、B 站评论等）

支持自定义关键词/正则

最好还能“识别评论容器”，尽量减少误伤、性能也别太差

我现在看到的要么是“单站点专用增强”，要么是“通用过滤但适配不稳定”，还没见到适用性很强、可长期维护的。

2）有没有人维护过常用站点适配规则 + 屏蔽词这种同步列表？

我设想的是类似：

一份可同步的“屏蔽词词库”（我个人维护/社区共建）

再配套一个“站点适配映射”（每个站点定义：评论块选择器、正文选择器、忽略引用/代码规则等）

插件定期拉取更新，做到“词库一次维护，多站点生效”

想请教：

这种东西社区里有人做过吗？有没有现成仓库/项目可参考？

如果要做成可共建的规则库，你们觉得规则怎么组织更合理？（按站点、按模块、按平台类型、还是按“评论系统类型”归类）

有没有更聪明的做法：比如通过可视化选取评论容器来生成规则、或用轻量启发式自动识别评论块结构，从而减少适配成本？

3）关于“信息质量”提升的边界

我不想一刀切把短评都干掉（比如有人一句话指出 bug 点其实很有价值）。你们会怎么设计“默认策略”？

只过滤明显模板化短语？

或者对短内容做折叠而不是删除？

允许每个站点单独调参（阈值、白名单关键词、只在技术区启用等）？

欢迎大家分享：

你们平时是怎么“净化信息流/评论区”的？

有无推荐的插件/脚本/规则集？

如果没有现成的，你们觉得做一个“常用站点适配+词库同步”的项目，最大难点会在哪？

先谢过各位，期待思路/链接/经验如果大家有兴趣，我也可以把我目前的原型整理出来供参考

❤️1

👍2

200

#屏蔽词插件

#信息过滤

#社区共建

这和我之前做灌水分析处理有些联系，但你这是从已有内容上处理的。关键词完全匹配可以是一点，若采用 AI 或接口的方式就会延长评论的加载时间，所以没有特别好的办法，能实现但总会有一些体验损失。

能提醒到我的是，我应该将评论的分析存到表上，往后若能提供评论的分数过滤显示可能是个不错的主意。

tomeric

我觉得应该做一个公共的屏蔽词列表，大家一起维护可能会好一些。

刚好我有两个插件与这个话题有关。

小鱼标签

小鱼标签通过屏蔽用户、分类、帖子等实现过滤。
从设计开始就考虑了通用性，但实现过程中遇到过很多难题。比如佬说的每个站点 DOM 结构不同的问题。

但其使用你的插件的用户群体，他们常用的站点并不多，也就几百个吧（:rofl:）
小鱼标签已经适配接近 100 个了。
每当有用户提适配新网站的要求时，可以马上实现就可以了。（目前我还做不到 :sweat_smile:）

我打算实现过程中，设计规则来匹配更多的站点，目前已经有些思路了。

UTags Advanced Filter

小鱼标签是给固定的用户或分类加标签过滤，感觉还是不够用。于是开始开发了 UTags Advanced Filter，一个通过关键字、用户、内容长度、日期等多维度组合过滤的插件。

目前只适配了 GreasyFork，等有时间我打算做成依靠规则实现适配更多的网站。
规则可以靠大家一起增加、优化。

通过小鱼标签，已经总结了很多适配各种网站的经验了。这个新插件与小鱼标签可以共用一部分规则实现。

现在靠 AI 可以很轻松分析 DOM 结构，让 AI 适配新网站。Prompt 做得好，实时分析也可以实现，但我觉得没必要实时。

“屏蔽词词库” 也是不错的想法，这个应该不难实现。如果是用户是开发者群体，GitHub 就是很好的协作平台。

libra2

这个问题其实值得讨论，这些屏蔽词，确实会影响到信息密度，

但是绝对不允许吧，就像是现实生活中围观表演的人只允许点评，不允许喝彩一样，少了喝彩声也没有了氛围感 doge
点赞，表情，打赏这些其实也算是变相替代了一部分屏蔽词，但是还是没有我发一句"牛劈"来的存在感强。

当然我也要反思我为什么这么词穷，以至于没有高雅的喝彩。但是『高雅的喝彩』多了，会不会那些高雅的词也变得庸俗了 facepalm

所以，表情里边除了点赞，多几个粗暴的词，譬如强，牛，之类更粗狂有力地表达我滔滔如江水般的崇拜之情 good

或者评论可以分级，屏蔽词也可以发，但是排序的时候主动降级显示或者合并起来。

tomeric

我觉得我们应该在用户侧做优化允许用户说废话也允许用户是否选择看废话

libra2

感觉就是堵不如疏，比如我就是有时候手痒就发个表情，或者单字调侃一下。

但是这种灌水允许灌水者自首，有个标记，自己勾选自己这个属于灌水喝彩。不需要系统去判定，对于这种有标记的评论，展示的时候很小或者自动折叠，减轻或者不去处罚。

对那些明明灌水，还不愿意自己标记、自首的加重处罚。

这样既能减轻系统判定的压力和资源浪费，也能给情绪一个出口。因为人会每天会打很多字，说很多话，但是 80% 确实是废话，不说废话可能会憋死。

muted64

通用论坛屏蔽插件 | Universal Forum Block 我发现这里有人已经实现过一个可以自定义规则的屏蔽用油猴脚本，对 Discuz!和 Discourse 都有效，其它的一些站点也有适配（中文论坛：v2ex，nodeseek，nodeloc，nga，百度贴吧，知乎，豆瓣，巴哈姆特；英文论坛：Lowendtalk, reddit），此外对不支持的网站（比如主帖说的 X、B 站等）还可以自己用 XPath 自定义。

我试了一下使用体验不错。我用类似这种正则屏蔽了一系列灌水评论。

复制

^.{1,6}$
^.{0,8}(好耶|来了|来辣|报到|欢迎|互赞|恭喜).{0,8}$`
^.{0,8}(感谢|谢谢|感恩)(佬|佬友|大佬)?(分享)?[！!~]?.{0,8}$
^.{0,8}(佬|大佬|佬友)(牛逼|nb|NB)[！!~]?.{0,8}$
^.{0,8}(支持|前排)(佬|佬友|大佬|一下)?[！!~]?.{0,8}$
^.{0,8}(先赞后看|[Mm][Aa][Rr][Kk])[！!~]?.{0,8}$
^.{0,5}(写的?真?|好文)?(不错|真好|牛逼|牛鼻|nb|NB)[！!~]?.{0,3}$

tomeric

谢谢这个太赞了希望知道怎么找到的

tomeric

可惜作者好像跑路了。

如果作者能弄一个公共维护的关键词库，还有 XPath 库就好了。看来目前还得自己手搓了。

tomeric

//div[contains(@class,'topic-post')]//div[contains(@class,'cooked')]
试了一下，用这个对一些 Discourse 论坛（比如小众软件论坛）发现无效，而且会让原本开启配置的白色触发按钮消失，很奇怪。

老友可以分享一下 XPath 吗？

muted64

其实是最近也有这类需求，然后 Google 换各种关键词搜了搜找到的，你的这个帖子也是这样搜到的

关键词公共库好像没看到，但是正则和屏蔽词规则可以找一些现成的，比如 B 站弹幕屏蔽规则之类的凑合一下；网站适配应该是在 GitHub 仓库的那个 website 文件夹里面定义的，有需要的话说不定可以自己提 PR，曲线救国作为公共库

Discourse 论坛可能每个论坛之间也会有小区别，小众软件我没试过，LINUX DO 的 XPath 是这个//article//div[@class="cooked"]/p/text()，我不清楚是不是通用在所有 Discourse 论坛。当然一个更简单的方法是 F12 打开元素，复制需要屏蔽的部分的 HTML，把文档和网页结构直接发给 AI 去让它生成 XPath 规则。LINUX DO 的 XPath 我是这样生成的。

tomeric

@muted64 感谢分享，尝试了一下，发现用正则只能过滤掉一些。

很多比较长的、没有内容含金量的评论还是会出现，这个没办法，可能只能接入 AI 了

tomeric

目前的思路是用老友推荐的插件思路再做一个版本：

首先用正则过滤一些简短、避重就轻的内容
后面接入 AI（当然，必须显示过滤了多少条）
过滤的信息可以单独查看
在过滤的信息里再接入一个 AI 大模型，从检测到的垃圾话中抽出来两三句

这个产品雏形应该还可以，实现起来不是很难。

👉 登录
未有账号？立即注册

「 2Libra 」，To Balance，走向平衡，一个以工作与生活平衡为核心的社区。

搜索⌘ K

👉 登录
未有账号？立即注册

「 2Libra 」，To Balance，走向平衡，一个以工作与生活平衡为核心的社区。

搜索⌘ K

跨站点 通用 自定义屏蔽词插件的思路征集：有没有人做过/在维护？

发表一个评论

👉 登录未有账号？立即注册

👉 登录未有账号？立即注册

跨站点通用自定义屏蔽词插件的思路征集：有没有人做过/在维护？

👉 登录
未有账号？立即注册

👉 登录
未有账号？立即注册