从天后演唱会出道有声最新章节_第675章第1页_从天后演唱会出道有声全文免费阅读

博炮作文网>从天后演唱会出道有声 > 第675章（第1页）

技术部经理一脸黑线：“废话！这点东西掉一调后台数据就知道，你们就研究这个研究了一宿？”

汇报人员定了定心神，揉了揉已经快要闭上的眼睛：“不是的，这件事情让我们确定了这一定是某一个群体在作祟！随后我们对昨晚进行评分的四万人提取了id。”

“头，你知道吧，很多人，在不同的平台习惯用一个id的。而且这批新用户注册的那么急，所以肯定有不少人用了常用的id。”

还是那句话，人走过，必留痕迹。

而且这痕迹里，往往带着很浓重的个人特色。

汇报人员继续说：“然后我们根据这四万个id，逐一在微博上进行了搜索，然后爬取了这些用户名的所有的发言，再利用这些用户动态的相似性，进行深度挖掘。”

这是个极大的工作量。

一个id在微博上有可能有成千上万个同名的账号。

这些帐号的动态内容都得爬下来（这不违法，在地球上，好像是在2017年12月份，微博才关闭了api接口的。）。

爬下来之后还得对这些id曾经发布的动态和内容进行关键词提取、照片信息提取，然后存档。

注意哦，这只是一个id的工作量。

比如说有一个人在豆半上注册了一个帐号叫张三，你按照这个名字在微博上搜索，结果出现了一万个叫张三。

那这些张三的人的所有的动态都得爬下来。

可是你怎么知道这一万个张三里面，哪一个是你想要的呢。

豆半的工作人员坚信昨晚这些人肯定是有相似性的，比如他们都是某一个人的粉丝。

那么他们的发言里一定会提到同样的东西。

这个时候就要再拿出来一个新的id，比如李四。

利用李四这个id，在微博上进行搜索，又出来一万个李四。

照例，全给爬取下来。

接下来是王五、赵六……

然后再进行横向比对，一个个的去试！

总能试出来蛛丝马迹。

这个工作量是无比巨大的，对计算机的要求也很高。

这种情况下，豆半只能增加人手，外聘公司。

只是过去的这一夜，花了至少上千万。

但是这是目前为止豆半唯一的方法了。

其实还有一个方法，那就是豆半后台有这些新注册的人绑定的电话号码，如果他们拿着这些电话号码去找微博，在微博数据库里直接用电话号码查找的话，基本上一两个小时就能解决。

但是，这违法。

不同平台不可以把彼此的数据互通有无。

然而，豆半还真是高估了这些小粉丝们的水平了。

到第二天中午的时候，工作人员兴奋地跑来找北总：“北总！结果出来了！”

北总已经一夜没睡了。

听到这话，整个人从椅子上弹了起来。