您的位置: 威海信息港 > 历史

腾讯陷阱多多我们都被大数据给忽悠了

发布时间:2019-08-15 18:05:44

  前不久腾讯举办了一场夏季思享会,其主题是大数据。关于大数据,大家炒作得更多的是机遇、威力,比方说越来越多人利用Google的大数据来研究趋势,辅助分析决策,但是这场思享会从另一个角度分享了一个很好的思考:大数据也可能是 大忽悠 。

  而近对Google Flu Trends(流感趋势)的一些研究正好佐证了这一点。

  说到 Google Flu Trends,首先必须先提一提Google Trends 和Google Correlate。Google Trends 利用对用户搜索的大数据分析来获得人类某些活动的趋势,只要在 Google Trends 上输入某些查询关键字即可返回相关活动的数据序列。而 Google Correlate 则是输入数据序列可返回一组结果呈类似模式(相关性)的查询,有点类似于 Google Trends 的反函数。

  Google Flu Trends 是 Google Trends 早也是知名的应用之一。鉴于很多人患流感是往往会上 Google 查询了解疾病情况和用药,因此 Google 发现这种查询与流感爆发存在着某种相关关系。Google Trends 曾经有过多次对流感的成功预测,包括 2011/12 年的美国流感、2007/08 年瑞士流感、2005/06 年德国流感、2007/08 比利时流感等,其及时性甚至要比美国疾病预防控制中心还要高。

  这显示出了搜索 流感 与流感爆发的相关性。

  另一个例子是 宿醉 。比方说在 Google Trends 输入 hangover(宿醉) ,你会发现这种情况在周六开始冒头,然后周日到达,而到了周一则急剧下降。这种模式与输入 伏特加 的查询结果类似(滞后一天)。

  但是数据越大未必就能带来更高的预测率。甚至还会带来 假规律 和 伪相关 。比方说,搜索 2004 至 2012 年间的美国汽车销售与 印度餐馆 ,结果发现二者之间竟然存在相关关系。这个东西显然是无法解释的。

  伪相关的原因是什么呢?

  首先,相关性并不意味着因果关系。比方说,Google Flu Trends 对趋势的预测并非屡试不爽。有几次 Google Trends 就严重高估了流感病例的数量,包括 2011/12 的美国流感,2008/09 瑞士流感,2008/09 德国流感、2008/09 比利时流感等。

2012年上海旅游种子轮企业
2012年呼和浩特会务战略投资企业
2015年重庆C轮企业
猜你会喜欢的
猜你会喜欢的