• QQ空间
  • 收藏

数据是一种信仰——它到底是否值得信赖?

| 2018-12-21 阅读 20

数据真实性

现如今,我们可以用很多不同种类型的性质来描述数据,在大数据时代,其中有三种关于数据的特性——规模、速度和多样性——已经主导了人们在谈论大数据话题时候的内容。但是还有一些人又为数据的特性引入了另外三种特性(比如Value-价值,Veracity-真实性,Viability-可行性)。但是Seth Grimes正确地指出了这三种新特性正在误导人们对大数据的理解,因为和三种特性并没有清晰地向你解释你的数据有何“大”之有。尽管如此,我们还是需要考虑数据的这些特性——你的数据体量庞大还是渺小,稳定还是不断移动,结构化的还是非结构化的。

你的数据的真实性关乎到数据的准确和可信赖程度,也关乎数据分析得到的结果。你的数据的真实性会因其生成、收集以及分析等过程中所产生的不同类型误差而收到影响。如果你的数据在处理过程中引入越多的误差,那么你的数据的可信任程度就不会很高。

EnsuringVeracity of your Data

务必确保数据的准确真实性

在2013年年初,Kate Crawford(凯特·克劳福德)在《哈弗商业评论》期刊上面以一篇名为《大数据背后隐藏的偏见》的文章发表了自己对于数据“真实性”的这种特质的观点。“如果你的足够量的数据的话,它的数量就已经不言而喻了”——对于这个观点的争论,凯特正确地阐述道人们为数据赋予了发言权;人们从数据当中得出推断,并赋予了数据跟多的内涵。但不幸的是,人们将自己的偏见引入到了其中,无论是刻意为之还是出于无意,这种做法都将数据的质量大打折扣。

如果向提高数据的真实性,那么你必须降低来自不同误差源的发生频率。这些误差源往往和以下方面息息相关:采样方法、缺失数据、科研偏见以及差强人意的测量方式等。

在你利用数据做出决定之前,请先认真回答下面的问题:

1.What is (are) your hypothesis(es)?

你的假设是什么?

“大数据技术就是找到各个变量之间的关联性而非检测有这种关系存在的原因”——尽管该观点广受欢迎,但是我相信对于企业的长期价值而言,大数据技术应该是弄清楚变量之间的偶然关联问题。假设实验是为了辨认出为什么变量相互之间会存在某种关联,以及驱使这些被发现的关系的基本流程。假设实验有助于通过试错法改进分析模型,这样做可以找到因果变量并帮助你从不同的条件当中找到新发现。

在过剩的变量和数据集的帮助下,企业能够快速检测出成百上千种关系。发现数据中存在的统计学关系的可能性会在检测关系的绝对数量时有显著的提升。经常因为几率的原因,当变量之间的关联性不存在原因的时候,实际上,我们可以发现两个变量之间存在的统计学关系。因此,如果你使用这些虚假的发现结果为支持你现存的想法的化,那么这样做的结果就是你的决策肯定不是最优的。

你能做的就是先做一个假设,然后对其进行测试。

2.Whatare your biases?

你的偏见有哪些?

人们总是寻找/记住/解释支持他们现有观念的结果,并忽略或者低估那些无法支撑他们观点的结果。这些被当作确认偏见的认知捷径,往往导致你对数据的错误结论。

你能做什么呢?具体来讲,你需要做的是就是查看你的数据,并从中得到可以驳斥你的信念的证据。如果你在预测消费者忠诚度的是时候人为产品质量远比服务质量重要的话,那么你一定要为服务质量带来的相关影响搜集证据。

你也不要依赖你的记忆。在任何一种数据的基础上做决策的时候,记得要引述那些有相关数据出现的报告或者研究案例。参考你的信息员可以帮助其他人辨认信息并帮助他们理解你的决策,并让他们知道你将如何实现你的决策。如果他们得到结论和你大相径庭,一定要弄清楚你的结论和别人相比存在怎样的差异(数据质量?不同的指标?还是不同的分析?)

你还要使用推理统计学方法从随机杂音当中区分出真实的、系统性的以及有内涵的数据差异。在图片下面要加上语言描述。清晰的描述可以保证你的图片不会引起太多的误解。你也可以让来自不同领域的专业人士(比如IT或者销售)为你进行阐述,,这样的话你会得到关于一个数据的不同角度的解读。

3.What isthe sample size?

样本的大小如何?

我们几乎很少(或者根本没有)获取到那些对我们感兴趣的所有群体。相反,我们依靠从该群体中提取出的样本的测量来对这些群体进行推断。比如从我们的客户群(样本)中的一部分收集消费者满意度信息来了解整个消费群体的满意度。

当你使用样本来理解整个群体情况的时候,你不得不去了解样本中存在的误差。样本误差可以反映出来自客户群体数据的样本的误差。因为这种样本仅仅是整个群体的一个子集,我们的评估仅仅会因为样本只是整个消费群体的一部分,而涵盖误差在里面。

你可以做什么?你可以利用推断统计学方法帮助你进行理解,如果你发现样本有可能会反映出整体人群当中的情况。

4.What is the data source?

数据源是什么样子的?

即使当我们有大量数据集的时候,其中存在的样本误差可能会因为数据量的巨大而有所降低,我们需要知道数据源在哪里——因为数据不会凭空产生。我们可以刻意产生一些数据并进行收集,然后通过这些数据来解决问题。比如,我们可以分析在飓风桑迪发生期间人们发布推特的地点,数据向我们展示了和新泽西相比,更多的博文来源于曼哈顿的闹市区。依靠简单的数据计数,你会发现飓风的主要攻击地点位于曼哈顿闹市区。但事实上,飓风袭击的是新泽西,但是飓风让新泽西电力供应瘫痪,所以人们一时无法使用推特发布推文。

除此之外,据估计仅有18%的美国青年网民使用推特,其年龄主要分布在18到29岁之间。同样,在2012年仅有8%的人使用移动设备进行购物并通过推特发布自己的购物体验。推特,在商业情景当中,代表了一小撮,也许也是一种有偏见的数据集。

你能做什么?仔细审查数据源,看看数据是否适合有足够信息量来支撑你的发问。可以考虑使用不同的数据源对你的假设进行测试。多重线路的聚合证据总比单一线路的证据更有说服力。

最后的想法:

商业决策的质量取决于商业数据的质量(以及使用数据的预测分析模型)。如果你从最最华而不实的分析模型当中进行推论的时候,而且你的数据建立在不可靠而且无效的信息基础之上,那么当你的模型在实际中运行时(比如你的模型可以预测现实),整个过程就像炼狱一样。就像业内人士说的那样——输入的是垃圾,输出的也是垃圾!

编译丨化学数据联盟-丑灿

2018-12-11
站长资讯 Google的用户体验设计是什么做的?
数据真实性 现如今,我们可以用很多不同种类型的性质来描述数据,在大数据时代,其中有三种关于数据的特性... <详情>
2018-12-04
站长资讯 IAB:2018年数据状态报告
IAB发布了新报告“2018年数据状态”。到2018年年底,美国公司将花费超过190亿美元用于支持其... <详情>
2018-12-25
站长资讯 浩华国际咨询:2018年欧洲连锁酒店市场解读
上一期中,我们着重分析了地中海沿岸的四个主要国家——西班牙、意大利、塞浦路斯和克罗地亚——的连锁酒... <详情>
2018-12-05
站长资讯 2018中国上市房企绿色信用指数TOP50报告
发布机构:中国投资协会投资咨询专业委员会、标准排名 一、报告编制背景 (一)绿色建筑发展刻不容缓 2... <详情>
2018-12-16
站长资讯 OAAA:2018年Q3户外广告收入同比增长3.8%
        根据美国户外广告协会(OAAA)的最新数据,第三季度户外广告收入同比增长3.8%。今... <详情>
2018-11-30
站长资讯 艾瑞深:2019中国大学最具影响力百篇论文排名
艾瑞深中国校友会网正式发布《2019中国大学评价研究报告—高考志愿填报指南(校友会版)》,报告将由科... <详情>