一个技术简单的有用服务,谁有空做?
我想到一个有用的工具,但自己懒得动手。看看谁有兴趣做:
用途:敏感词解码。
刚刚看到墙内有些网站敏感词屏蔽得丧心病狂,例如:给你量一××温,其实这个很容易破。思路如下:
1、学习大量语料,只要把语料里所有连续二至六个字的串(不含标点)都存下来,每个串出现的频率可以不存。
语料可以偏向特定的类型,例如你特别喜欢小黄文,可以开展专项学习。
2、要维护一个长度不超过四个字的敏感词库。
3、开始匹配:对敏感文中每个敏感词的位置,用所有长度相同的敏感词来替换,替换后从语料库评估是否符合语言习惯。这样就能很快解码敏感词了。
在小概率下,可能有多个敏感词都解得通,这时不妨把它们都列出来,读者自然知道该怎么选。
谁有兴趣快来做吧,最好做成网页,我等着用现成的。
靠!思路都被你说出来了,我连思考的乐趣都没有了,你当我是工具人吗?
@dongdongfm #1 你能不能有更好的思路?
@饱读书名 #2 更好的思路,就是先分析一下这东西对自己有没有用。 只在墙内发表的文章值不值得自己看?我个人没有需求。如果我做,我也会做成浏览器的扩展。但是依然还有很多问题:视频弹幕的也能替换吗?百度文库的能替换吗?还有,大家都用移动端APP了,我的PC端浏览器扩展有多少人会用?
上面的黑体两边各有两个英文星号
只有密文没有明文,训练个鬼。
我强烈怀疑现在已经没有敏感词库了,所有东西都是先审后发