当心狡猾的数据分析

在缺乏对业务的深入了解的情况下进行数据分析可能会导致灾难性的后果。

数据科学享有盛誉的时间只有15分钟。

每个人都来自 约翰·奥利弗(John Oliver) HBO的“上周今晚”节目向著名的选举统计学家Nate Silver 538.com 相信基于数据的发现会导致看似疯狂的结论的危险正在陷入困境。

约翰·奥利弗(John Oliver)注意到一个特别狡猾的发现,即在体育馆喝一杯酒像一个小时一样健康。据推测,另一项“研究”证明了巧克力饮食对怀孕妈妈的好处。其他研究发现,吊死,勒死和窒息造成的自杀人数与美国在科学,太空和技术上的支出高度相关。

正如我们在业务/数据分析领域中工作的人们所知甚少,这些奇怪但不幸的是,真正的研究中的每一个共同之处在于未能区分显示 相关性 变量之间(这是统计学家的头等大事)与建立 因果关系 -经过数据检验的结论是一件事实际上导致了另一件事。

尽管这种混乱可能导致怀孕的母亲多吃一两个Hershey酒吧,但这可能对您公司的利润是致命的。

看起来似乎很明显,但是作为研究和教授数据分析的教授,我们反复看到这个问题。一些业务示例:

优惠券灾难

一种常见的营销工具是通过邮件,电子邮件或移动设备发送优惠券,以诱使客户购买更多产品。为了评估此工具对市场的影响,公司通常会建立一个简单的统计模型,指示其统计部门衡量使用优惠券的顾客与未使用优惠券的顾客之间的购买差异。

这种分析(不明智地留给了对实际营销策略知之甚少的统计人员)通常没有考虑到优惠券通常会被最重地发送给公司的忠实客户这一事实。因此,除非公司控制着在没有优惠券的情况下从这些忠实客户那里获得的销售水平,否则该分析将夸大实际的“优惠券效应”。

该公司利用调查结果做出预测并制定优惠券策略,可能会“优惠券疯狂”并不必要地亏损。

不正当定价

定价是相关/因果混乱可能致命的另一个领域。想象一下一个咖啡品牌正在尝试估算其价格弹性(即客户对价格变化的敏感程度)。为此,他们从一家杂货店获取每周的销售和价格数据,该杂货店出售多个咖啡品牌。在这家特定的商店中,这个单一品牌的数据令人惊讶地显示,当价格上涨时,销量会增加。

那么,这是否应该导致公司制定不间断提价的战略?当然不是。市场营销团队可能会解释说,在杂货店中,产品价格通常是在类别级别(所有品牌的咖啡加在一起)管理的,而不是按品牌划分的。因此,在这种情况下,当焦点品牌的价格提高时,竞争对手的价格可能会上涨得更多,相比之下,焦点品牌看起来更便宜。

除了焦点品牌的价格之外,如果没有市场上正在发生的事情的信息,简单的统计模型通常会导致误导和令人困惑的结果。

奇怪的搜索

在数字营销的世界中,公司在关键字搜索广告上花费了越来越多的美元。为了最积极地决定预算哪些关键字,公司通常会测量点击率(CTR),即点击广告的次数相对于广告在搜索结果中出现的频率。点击率越高,该关键字的预算就越大。

但是,如果以数据为唯一起点,这可能会产生误导。

一方面,该公司可能从为某个关键字(例如“可爱的婴儿服装”)的少量预算开始。多亏了Google AdWords设计的出价系统,当用户搜索关键字“可爱的婴儿服装”时,只有针对该关键字在特定算法基准之上出价的公司才能向其展示广告。如果您的公司在“可爱的婴儿服装”上的支出不足,那么您的公司可能获得多少点击次数的信息就为零。   

而且,大多数人不会点击搜索结果首页以外的广告。因此,即使您确实在有人搜索“可爱的婴儿服装”时露面,但您支付的费用不足以获得首页定位,您在黑暗中也同样会获得多少点击(和销售)通过支付最高费用。

推迟分析数据并让营销团队进行更多的选择和仔细的实验​​,为诸如“可爱的婴儿服装”之类的关键字词组出价更高,可能是明智的。这样可以生成更好的数据,以帮助确定最佳的搜索策略。

怎么办呢?

消除所有这些问题的最有效的补救方法是了解从中生成数据的确切过程—数据生成过程(DGP)。每个数据集都是一组记录,描述了所发生的事情的一部分-选择了一个搜索词,单击或未发生单击。在营销中,大多数数据集描述了消费者的行为。但是,上面讨论的数据集并不能全面反映消费者的决策过程-如果您拥有最高的搜索字词,他们会怎么做?如果您不提供优惠券,他们会买多少?

结果:做出营销决策时就好像相关性实际上是因果关系。  

您可以执行以下几项操作来了解DGP并避免这些常见的陷阱:

1.绘制数据图

数据可视化已在大数据领域引起了广泛关注,部分原因是它有助于解释数据并将其呈现给不懂数据的受众。即使是最简单的数据图,也通常可以极大地帮助分析人员理解数据并发现样本中的异常点。只有在绘制数据并全面了解数据之后,分析人员才能找到最适合数据以及他/她试图解决的问题的建模方法。

2.分析数据时,请同时包括营销人才和统计人才。

尽管制图可以帮助您理解DGP,但还是与直接参与DGP的人交谈的理想选择。例如,如果营销团队决定向谁发送优惠券,他们可以解释用于选择收件人的确切决策规则。该信息对于开发统计模型的分析师至关重要。

3.如有可能,请评估每个数据点,看看是否可以讲述一个引人入胜的故事,说明其为何具有它所具有的价值,而不是另一个价值。

例如,如果您认为某个关键字非常受欢迎并且与您的广告相关,那么该关键字的点击率非常低,请在搜索引擎中输入该关键字,然后查看显示的内容,尤其是广告的显示位置。为了快速测试分析师是否对DGP有很好的了解,分析师可以选择任何数据点,并查看是否可以完整地讲述该数据点,并且可以用外行的术语进行解释。

4.在可行的情况下,在完成研究之前,坚持让统计学家考虑行为经济学理论。

统计学家可能会坚持认为“我们让数据选择模型”,但是如果数据生成过程中存在缺陷,这可能导致混乱。一位数据分析专业人员看着他们的肩膀解释营销现状的事实将有助于他们的分析。

正如约翰·奥利弗(John Oliver)所证明的那样,这些常见的傻瓜正在满足对具有业务分析背景和对计量经济学的了解的聪明人的需求激增。

知道统计地雷潜伏在哪里至少可以成为避免数据灾难的第一步。

_______________

Dong Xiinging是市场营销和业务分析副教授,John Heineke是圣塔克拉拉大学的莱维商学院的经济学和业务分析教授。

版权© 2016 IDG通讯,Inc.