你一定听说过“酸男辣女”的说法,就是妈妈爱吃酸就生男孩,爱吃辣就生女孩。当然,大多数人把这个当做玩笑话——如果妈妈爱吃酸辣土豆丝难道就要生个不男不女的了? 但是,你觉得妈妈的饮食情况会影响到孩子的性别吗? 2008年,在权威杂志《英国皇家学会学报》上发表了一篇文章:《You are what your mother eats: evidence for maternal preconception diet influencing foetal sex in humans》。研究人员就打算回答上面的问题。他们通过对740名女性进行分组研究,考察她们孕前、早孕期、中晚孕期的饮食情况对于胎儿性别的影响。研究人员对133种食物进行问卷调查研究,结果发现,怀孕前早饭吃更多燕麦的女性,更容易生男孩!而除了燕麦,调查的其他食物都和男女性别没有明显关联。 这篇文章一发表,马上引起广泛关注,Google点击超过50000。要知道,这可是一篇纯学术文献,也可以有如此之高的点击量! 如此高的关注度,自然逃不过学术界的质疑。2009年,同样在《英国皇家学会学报》上,一篇针锋相对的质疑文章发表出来:《Cereal-induced gender selection? Most likely a multiple testing false positive》。提出质疑的,是三位统计学家:Stanley Young,Heejung Bang和Kutluk Oktay。他们撇开实验设计中的数据获取的问题,比如回忆偏倚、测量误差、精确测量的困难性等等,直接针对前一篇文章的统计学方法提出质疑。他们在对前一篇文章中提供的原始数据进行重新统计之后发现,那些数据其实全部没有相关性,而所得出的“吃燕麦生男孩”的结论,其实只是一个偶然事件。 也就是说,之前研究的那133种食物,对于生男生女的影响都是随机分布的;但是在那一次研究的时候,恰好发现那一批研究对象吃了燕麦更容易生男孩,这纯粹属于偶然事件。那篇文章把一个偶然事件当做结论报道出来了。
坏球舆情调查中心和坏球时报,你们真的很坏!不带这样欺负没学过统计学的同学的。David S. Moore在《统计学的世界》里提到:有许多抽样调查不能提供准确地和有用的结果,特别是那些设计来影响、而不是记录公众意见的 (especially those designed to influence public opinion rather than just record it),说的就是你报吧?
附录2:相信某个抽样调查结果前该问的问题 Questions to ask before you believe a poll
若调查者使用好的统计技巧,准备一个尽可能完整的抽样框,注意提问的措辞,减少无回应,则抽样调查确实能能提供准确和有价值的信息。但亦存在许多抽样调查不能提供准确地和有用的结果 (especially those designed to influence public opinion rather than just record it)。为此,在你更多关注某个抽样调查结果之前,有必要先问几个问题 :
谁做的调查(Who carried out the survey)?——遵从良好调查习惯的专业抽样机构更值得信赖。
总体是什么(What was the population)?——想反映何人意见。
样本如何选择(How was the sample selected)?——有否提及随机抽样。
采用多大的样本(How large was the sample)? ——好能提供误差界限与置信度。
回应率多高(What was the response rate)?——无回应(no response)同样能带来有偏。
如何与被调查个体进行接触(How were the subjects/units contacted)?——不同的联系方式(面对面、电话访谈等)影响到回应率、回答的真实性、调查的成本。
有否受突发事件影响(Was it just after some event which might have influenced opinion)?——是否在某件会影响民意的事发生之后就进行调查?
提问的具体措辞(What were the exact questions asked)?——比如采用诱导性的“加料问题(loaded question)"?
栗子2:普林斯顿大学的信息技术政策中心(CITP)和北卡罗莱纳州大学教堂山分校(University of North Carolina at Chapel Hill)在2013年发表了一篇文章《Big Data: Pitfalls, Methods and Concepts for an Emergent Field:大数据:一个新兴领域的陷阱、方法和概念》。通过实验对一些市场营销人员发出警告:请首先确认抽样的方法是否能够真正地覆盖的整个市场,不要对从社交媒体渠道(如Twitter和Facebook)收集的消费者数据过于自信。
1.Inadequate attention to the implicit and explicit structural biases of the platform(s) most frequently used to generate datasets (the model organism problem).
2.The common practice of selecting on the dependent variable without corresponding attention to the complications of this path.
3.Lack of clarity with regard to sampling, universe and representativeness (the denominator problem).
4.Most big data analyses come from a single platform (hence missing the ecology of information flows).