“东莞迁徙”里的大数据圈套
从整个事情的流程来看,这是一个非常经典的大数据的应用案例。首先结论来源于数据而且数据足够大,然后用到了大数据的分析方法,当然这个具体的模型和算法百度帮大家做了,然后用最时尚最酷的可视化方式展现出来,最后从数据的结果推出了实际想要的结论,一切都那么完美。
这个大数据的例子比起很多教科书上的例子还要好。从分析的方法来看,逻辑也是非常严密的,要研究的方向是央视曝光之后的影响,这个说得专业一些叫做干预分析。关于影响的可能结果,见仁见智,这个研究选择了一个公众非常感兴趣的结论,也就是出逃的嫖客的去向。该研究选择的方法也很到位,直接利用到了百度的迁徙可视化工具,从数据到结论的完整步骤都有了。
那么,在大数据时代,一个严密而完善的分析流程是否代表着正确呢?这个问题的答案涉及到了大数据的一个非常重要的本质和误区,并不是用了大数据就一定有结果。
实际上,不论是大数据还是小数据,数据分析的本质一定是方法要和假设匹配、模型要和数据匹配。我们不用说得那么深奥,就用这个例子的程度来还原一个真正的大数据分析的流程。
首先,这个迁徙图的数据到底是什么,读者及“分析师”们真的了解了吗?根据百度提供的资料,数据来自于LBS(基于地理位置的服务)开放平台,我们深入探究一下,实际上是来自移动客户端。百度的开发平台上写得很清楚,提供了安卓、Symbian和IP定位的接口,简单点来说,大家通过移动终端来调用百度地图或者其他基于百度地图的服务,会被百度记录下来,然后利用这些数据进行分析。 (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |