【安全】详细讲解共产党这些年是怎么抓反贼的

By 张怀义 at 2020-07-17

预判对手的预判

跟着我一路向北

雷霆嘎巴,欧青蛤辣少~

反贼, 讲解, 共产党, 详细, 安全


看完,记得一键三连啊!!!

还有投币,不要再“下次一定了”,这对我真的很重要!!!


某些菜鸟、小白,总觉得自己在国内,不公开骂习近平就可以没事,天真!

今天,我让小白长点见识。

开始上课!第一讲,大数据之数据挖掘之推荐算法

举个例子,我喜欢看动漫,比如,格莱普尼尔。你觉得哔哩哔哩如何知道该给我推荐哪些动漫我会喜欢呢?

物以类聚,人以群分,当然是找到和我类似的人,然后把他看的动漫推荐给我啊

问题来了,如何知道我和对方是同类人,我们看动漫的口味一样?

张怀义 at 2020-07-17
1

这里有个技术叫“数据挖掘”。通过挖掘我们的共同处,去找到我没看过,你看过的动漫给我推荐。

玩过数独没有?一个大表格,里面有些格子有数据,有些没数据,你需要把这个表格填满!

大数据,类似你玩超级大的数独。游戏规则还一样!

我们来设计一个表格

行是动画片,比如,鬼灭之忍,宝石之国。。。

列是你们的名字,比如,阿猫,阿狗。。。

表格里的内容是评分,第A行第B列,表示用户A对动漫B的评分

但是,用户A不可能所有动漫都打分了。同时动漫B也不可能被所有用户打分。

所以,这个表格,里面只有几个格子有数据,其他都是空的,就像是一个数独游戏。

现在开始来玩游戏,如何给空格里面填入数据呢?

张怀义 at 2020-07-17
2

因为刚才说的表格是一个数独一样的表格,残缺不全。

所以,我们可以认为这个表格是一个“稀疏矩阵”

看到稀疏矩阵,我们就会想到,矩阵分解!【非负矩阵分解(Non-negative Matrix Factorization),简称NNMF】

也就是评分矩阵 RATING = USER*ACG

RATING就是残缺的评分矩阵

USER是一个【用户数量 * 特征数量】的矩阵

ACG是一个【特征数量*动漫数量】的矩阵,特征数量和上面的USER相同,随便定一个数好了比如80

完美~

通过给USERT和ACG赋值,两个矩阵相乘,得到了一个完整的矩阵!!!

这样就完美模拟了,你可能会对自己没看过的动漫打多少分!!!

游戏规则介绍完毕!那么和共产党有什么关系呢?

张怀义 at 2020-07-17
3

换个玩法:

用户不是哔哩哔哩了,是微博所有用户!

动漫,改成微博上的话题。

评分改成对话题喜欢或者不喜欢。

得到了一个表格:每个用户对每个话题的喜欢与否,喜欢就是1,不喜欢就是0

以已经抓到的反贼为样本,表格里增加一个话题【反共】,反贼们的这列标注为1

动用刚才的原理,就可以马上找到【反共】这列是1的其他人!


很多人,估计觉得这个东西不靠谱。

很遗憾,现在你们微信朋友圈的广告,淘宝购物车推荐,抖音你可能喜欢的视频。。。这些全都是用我刚才说的方法,推荐的!这个推荐算法有个名字,叫交替最小二乘【ALS算法,亚马逊发明的广告推荐算法】!

很多人觉得,所有微博用户都有好几亿,话题能有几百万。这个表格这么大,共产党怎么可能算的过来呢?

很遗憾,这个就是最近特别火的大数据。你看着不可思议的事情,在大数据面前可以通过秒级查询完成! 你没有看错,你在微博上随便一个操作,微博就会立刻开始计算该给你推荐什么广告,猜你喜欢什么话题。这些都是秒级完成的!


很多人,觉得自己什么个人信息都没有透露,自己非常安全。幼稚!

根据刚才那个矩阵,可以立刻发现你可能会感兴趣什么话题,这些话题里如果包含了反共,你就完蛋了。

虽然你没有在微博上参与这类话题。但是“物以类聚,人以群分”,共产党就是通过刚才的算法,找到和反贼类似的人,这样你就进入了共产党的观察名单,然后就是收集证据,证明你是反贼就可以了。

误报率非常低!

张怀义 at 2020-07-17
4

再来第二讲

大数据之数据挖掘之PrefixSpan算法

先讲故事。

这是一个很老但很有意思的故事我们去沃尔玛超市会发现一个很有趣的现象:货架上啤酒与尿布竟然放在一起售卖,这看似两者毫不相关的东西。。。

故事懒得讲完。只是你们发现我想说什么就好了。

没错,两个不相干的东西,会被关联起来!那么,自然可以根据这个规则,我们去找到某个话题和反贼有关系。

张怀义 at 2020-07-17
5

这个算法还挺难解释的,但是看图片还是很容易理解的。建议大家去看看Wikipedia上的图片,自学一下,,,

大概就是 ,根据我说的PrefixSpan,可以找到一个频繁模式,根据这个模式去匹配对应的人和人的关系。

用这个算法,可以根据你平时说话题,去预测,你平时说话的风格。然后根据墙内,微博的话题列表,找到你们的频繁模式一样。然后就可以人肉到你了!!!

很多人,觉得这个算法很复杂。。。

其实很简单,最起码,用这个算法,立刻就可以发现V2ray的bug【Client Hello的特征模式】

明明用数据挖掘算法,立刻就可以发现这个bug,居然有人用神经网络去深度学习

杀鸡用牛刀,浪费时间啊。说实话,找翻墙流量特征,明明是数据挖掘的工作!秒级搞定!

却一堆人想着用神经网络去找特征,,,无法理解他们的脑回路~


欢迎大家问我大数据方面的问题。不过,我没钱买个集群跑大数据,,,

但是,算法我很熟的,我可以用N种数据挖掘算法,找到反贼。或者找到翻墙流量的可能

而这些,不需要你会人工智能,神经网络,,,你只需要知道数据挖掘就可以了!

数据挖掘,大数据的应用场景。大数据才是未来的方向,找工作就应该找大数据,人工智能是没有未来的!

张怀义 at 2020-07-17
6

第一节课的课后资料

https://datasciencemadesimpler.wordpress.com/tag/alternating-least-squares/

第二节课的课后资料

http://hanj.cs.illinois.edu/pdf/span01.pdf

张怀义 at 2020-07-17
7

漲知識了

看看大數據

霏艺Faye at 2020-07-17
8

这个也不准的,因为人是变化的,所谓的反贼个个人都是,因为每个人都想当皇帝

原罪 at 2020-07-16
9

根本不需要这些,ip地址,身份证,银行卡,手机号码,就让你在这个国家没有任何隐私,除非你都不用,再加上到处都是摄像头,没地方跑!

Wwssxx688 at 2020-07-18
10