统计学上看西南财经大学中国家庭金融调查 (CHFS) 抽取 28000 户家庭的全国调研方法上严谨吗？

甘犁等一直强调样本数量不是问题，随机性是问题，而他们的分层抽样和一些处理方法充分考虑了随机性。但感觉让一户家庭代表类似的万户家庭不是那么容易的事。另外，中国如此之大，异质性如此之高，各地相同之处是有一个中央政府罢了，把全国当成一个总体是否意义有限呢？

项目官网：中国家庭金融调查

慧航 · 2018-9-23 04:06:16

谢邀。
可以说，CHFS的抽样从抽样设计到执行还是比较科学的。
统计上最好的抽样方法就是简单随机抽样。但是大家也知道，简单随机抽样在现实情况中操作性很差。所以一般都会采用分层抽样的办法。
题主谈到了异质性，从统计理论上来说，只要我们能保证总体中每个个体被抽中的概率是一样的就可以了。当然如果被抽中的概率不一样，但是我们又知道其被抽中的概率，统计处理的时候也可以通过概率加权的办法解决。
CHFS的抽样设计据我所知是先从行政区划上抽样，之后再对小区、街道抽样，最后具体到哪一个住户。
可以说，这个抽样设计问题不大。
差的抽样一定是有系统性偏差的。比如系统性偏向城市／农村，偏向高收入人群／低收入人群，偏向东部／西部等等。
你如果要说样本量，其实除了普查数据，世界各地的统计调查样本量有几万已经很不错了。包括美国最有名的PSID数据也只有5000个家庭的不到两万个个人：Panel Study of Income Dynamics。
本人有幸跟随CHFS的一只调查队伍走访了上海的部分街道。那次去其实是预调查，也就是说他们已经抽样抽好了街道等位置，他们的任务是走访小区等，把小区的情况摸清楚，画出具体的住户的地图，再从地图中抽出具体去调查的住户。可以说从这个设计上来说避免了具体到住户的偏差。
跟他们聊天，真正调查的时候也很辛苦，经常被人拒绝。他们的策略也是多次去采访打动被访户吧，不到最后不会换被抽中的住户的。所以从实际操作层面来讲，我也很信任这个调查。
在国内微观数据如此之稀缺的情况下，西南财经大学能花这么大力气做一份这么认真的调查，我个人呢还是很感激的。
至于数据质量，在我接触过调查过程之后，我还是很放心的。至于你新不信，我反正信了。
==================
再仔细一看，题主非常想知道样本量的大小是不是很关键的。我的看法是，甘犁的说法是对的。
为什么？刚刚说了，统计调查最害怕系统性的抽样偏差，但是如果你能保证随机性，剩下的问题不大。
为什么？一般来说，样本量影响的是估计量的方差，也就是说，如果我们的抽样是随机的，那么你得到的估计量就不会有系统性的bias。样本量只会影响到假设检验。
但是我们知道样本量，所以我们在给出一个估计的时候，我们也会确认其置信区间，有了这个置信区间，我们至少知道这个统计量有多可靠。
想起了一个故事，在这里给大家分享一下。
说有一个公司，手头上有海量的数据，要命的是数据量每天都在大量增加。公司每周会从数据库中抽取1%的样本做描述行统计交给客户。一开始的时候任务还可以轻松完成，但是到了后来，随着数据量的井喷，1%的抽样及计算也要花费大量的时间。公司请了一个统计学家，看看统计学家有没有什么好办法。统计学家只写出了大数定理和中心极限定理的式子，问这里面的N代表什么？答曰我们使用的数据量。统计学家进一步说，这个式子里面只跟我们使用了多少数据有关，跟我们拥有多少数据无关。所以不要每天抽1%的样本，可以每天随机抽比如10万条数据就够了。
恩，这就是题主所关心的样本量的问题。

chenqin · 2018-9-23 04:06:17

西南财经大学的家庭金融调查项目是一个很了不起的项目，他是第一个尝试准确估计家庭金融资产的调查。在此之前，各式各样的调查虽多，但对一些个人敏感问题，则至多涉及到收入、职位、有几套房子。再深入的问题，比如，家里有多少存款？不敢问了。

笃笃笃，敲门声传来，你打开门，礼貌的房产中介站在门外：先生您好您的房子卖多少钱。

如果一项调查要问到存款这种问题，那么一般来说，他的调查员的结局都不会比这个房产中介好多少。西南财大花了很大功夫进行事先宣传，让人们知道这项调查的重要性与个人隐私的安全性，学生调查员的一次次回访，也极大降低了这项调查的拒访率，最终得到了质量很高的问卷，这都是很了不起的成就。

言归正传。我们来回答这个问题：要了解中国家庭的金融资产情况，28000户家庭到底够不够？
答案是——看情况，看方法。你想要从这份数据中了解的信息，以及抽样方法，决定了数据的可靠程度。

如果仅仅想要了解所有城市家庭的资产平均数，那么，28000份问卷已经足够了。这篇关于CHFS的新闻显示，中国城市家庭资产的中位数为40.5万元，平均数为247.60万元。如果家庭资产服从对数正态分布，那么就有 $e^{\mu }=40.5, e^{\mu+\frac{1}{2}\sigma ^2}=247.6$ ，家庭资产的标准差应当等于 $E[X]\sqrt{e^{\sigma^2}-1}=247.6\times \sqrt{\frac{247.6}{40.5}^2-1}$ ，即1493万元。
在计算平均数时，随着样本量增大，样本平均值的方差会依概率收敛到零，收敛速度为样本量的平方根。当我们取28000个样本时，样本家庭资产平均数的标准差变成 $1493/\sqrt{28000}$ =8.9万元，也就是说，只要随机性足够，那么通过28000份问卷计算平均得到的家庭资产平均数，有很大可能会（66%）落在一个长度为18万元的区间内，几乎肯定会（96%）落在一个长度为36万元的区间内。上下各18万元的误差，对资产平均值估计来说已经足够准确了。

但是，如果你要精确了解那些最富裕的1%家庭的资产分布情况，28000份问卷则远远不够。很简单，最富有的1%家庭在问卷中只有280份，与28000份的总样本相比，280份问卷会将样本平均数的标准差扩大十倍。对上一个例子的数字来说，就是上下各180万元的误差。这就有些不可接受了。另一方面，仅仅280份问卷，也不利于我们了解富人的资产分布的尾部到底有多长。

怎么办呢？通常情况下，完全随机的抽样调查会得到下一幅图：

为了做图方便，该图假设一个人口的收入服从正态分布。当完全随机抽样实行时，被调查到的样本实际上如同红线一般分布，其特点是中间密集而两段稀疏，即收入处于中间水平的人口被调查到了很多，收入最高和最低的人口没有被足够的调查到。
在这种情况下，我们估计总样本平均数——没问题；估计中段人口收入平均数——更加没问题，中段的样本如此密集；但最高/低收入的人口——问题就来了。从2到4（-4到-2），区区两根红线，跨越了如此大的收入区间，根本无法与中间段的密集红线相比，因此不能很好代表该区间人口的收入情况。

对此，最简单的一个想法是，增加调查总量。当调查总量足够大时，我们必然也能在左右两段获得足够准确估计的密集红线，问题解决了吗？
没有。调查是一项高成本的活动。每十年一次的人口普查，仅仅是每户家庭一张纸的问卷，就需要650万名调查员，80亿元经费投入。当前，对一个比较详细的调查来说，每增加一个被调查样本，成本就增加300到500元不等。哪有那么多个几百万元来保证你的尾端准确率呢？

于是，人们想出了一种折衷的方法。中间段人口本身就比较密集，且收入分布较窄，就少调查一些；两端人口，就多调查一些吧。于是上一幅图变成了这样：

中间变稀疏，两段变密集的调查方法，反而使得在收入分布上调查得更均匀了。虽然上图的红线数量比第一幅图还要少几根，但显然下图对各个收入段的情况都有比较好的把握。这种折衷的方式，能够在不增加成本的情况下，同时获得中间收入段和高低两极的收入估计。如果要用这个样本计算总体平均数，只需要加权调整，让所有人口的被抽中概率乘以权重等于一个恒定值即可。比如可以让中段样本一个抵俩，而两端人口两个抵一，方法不一而足。

西南财大的家庭金融调查就使用了这种调整。他刻意多抽取了那些最穷和最富的人口，来保证尾端分布估计的准确性。具体方法见swufe.edu.cn 的页面。其中关键的一个步骤是：

第一，按照各市县的非农人口比例的分位数，将各市县分成 5 个组。分组的依据是各市县非农人口比重 20%、40%、60%和 80%的分位数。
第二，在非农人口比例最大的市县组中，居委会和村委会分配的样本比例是 4:0。
第三，在非农人口比例次大的市县组中，居委会和村委会分配的样本比例是 3:1。
第四，以此类推，在非农人口比例最低的市县组中，居委会和村委会分配的样本比例是0:4

也就是说，在城镇人口占比最高的地方（通常是沿海大城市），抽取尽量多的城镇人口；而在农村人口占比最高的地方（通常是内陆小城镇），抽取尽量多的农业人口。换句话说，在高收入地区尽量调查高收入人口，而在低收入地区尽量调查低收入人口，以此增加两端人口的被抽中概率，来接近上文第二幅图的情况。最后再通过加权来得到总样本平均值。

这种看似十分奇怪的抽样方式，其实正是同时权衡了成本与准确性后做出的选择。

最后，西南财大采用的这种抽样方法也有自己的问题。最大的问题在于一部分人口的代表缺失。根据2010年统计用区划代码和城乡划分代码，我们可以算出不同地区的村委会和居委会的分布情况。真实的分布与家庭金融调查的抽样选择相比，可用下图表示：

在城镇人口占比最多的地区，共有30.7%的地区实际上仍然属于村委会。但在抽样中，他们完全被舍弃了，也就是说，被抽中的概率为零。任何加权方式，都不能把被抽到概率为零的样本恢复出来。

如果把中国的近3000个县级单位按照2010年人口普查的非农人口比例排列，那么排名靠前的600个县级单位共有2.7亿人口，当其中占比为30.7%的村委会全部被抽样方法舍弃掉时，约8000万人将无论如何都不可能被反映到数据中。

如果被舍弃的样本可以用其他类似样本替代也就罢了，但我们实在难以否认：大城市的村委会人口其实有着非常丰富的数据特征。比如他们的征地收益可能会更高，从事非农工作的比例更高，自我雇佣的比例也可能更高等等，但我们却无法在数据中找到他们的身影，这是中国金融调查的一个莫大遗憾。

扈睿涵 · 2018-9-23 04:06:18

我个人就是访员，大家都说的有道理，我来讲两点细节上的问题吧，甘老师当时给我们上课的时候有讲过chfs选样本的两大遗憾是不能去军队，不能去类似富士康的大工厂，这导致样本对于20多岁的男青年的代表性削弱了很多

董易 · 2018-9-23 04:06:19

个人是2013年在中国北方跟访访员和绘图员的小记一枚……跑了陕西河南河北北京山东辽宁黑龙江天津山西宁夏这些省份的访问or绘图队伍。下面的内容从科学性上来说极不理性（计量和统计早忘光了原谅学渣= =），大家就当看故事吧……
总的来说这个调查在访问环节的随机性还是有保证的，拒访需要达到6次（其中还要在不同时间段上门，必须有一次社区工作人员陪同）以上才可以向中心提出更换样本申请。虽然在最后这条规定会有些走样，但整体上来说学生访员已经是尽了自己最大的努力去保证这个调查的随机性了。问：私自更换样本会不会被查出来？当然会，中心在接收到调查问卷后，每个季度还有回访。试想：“您好，请问您是住在XX小区XX栋XX单元XXX的王先生吗？”“不好意思我们一家都姓李。”嗯哼，这肯定就是有问题了。所以这种情况还算比较少。
你说一些特殊单位进不进得去？比如我们在西北某重镇的时候，划定的受访社区中就有一个军队大院我们就无法进入。另外在首都，富人区的保安都对我们说这户是啥啥你们可以进，那户是啥啥你们还是别进了……（两个啥啥请自行脑补= =）
这些对最后的数据准确度当然有影响。但我想这是调查的通病吧，CHFS已经尽可能地包括了其他调查中拒访率最高的富人阶层。通过学生访员在三伏天里的软磨硬泡（比如写万言书贴在门上啦，在门口朗读参加CHFS的21条理由啦，笑），CHFS在城市的拒访率控制在13%，而农村则更低（百分之几记不清了，3还是6来着，农民朋友可朴实了问啥答啥夏天还请我们吃西瓜虽然秉着不拿人民群众一针一线的精神但还是盛情难却），已经远低于国际上一些著名的资产调查。
CHFS的问卷，正常情况下都需要做1个多小时（在首都的时候一个帝都妹纸用纯正京腔和一受访大妈飞快问答45分钟搞定惊诧我也），内容几乎无所不包，而且问得都相当详细。具体的问卷大家可以去http://chfs.swufe.edu.cn调查官网上去查阅。反正当年发给我们纸质版的时候（调查时是用笔记本电脑系统，问题自动跳转）是挺厚的一本A4册子……
最后插几个小栗子。大富大贵的人家我是没跟进去过，穷苦人家倒是旁听过不少= =一个是在华北某省农村的一户老人家，老两口月生活费只有区区30元。在华北某省会城市的城乡结合部那建筑学上的奇葩汇集地进行绘图的时候，某绘图员还被狗咬伤了= =最后是在首都的地下室里，我们的访员和北漂男青年斗智斗勇，让别人从刚开始的凶神恶煞到最后和那访员称兄道弟……太不容易了。
大调查每两年进行一次，下一次就是2015年的夏天了。如果抽到您家，还请开个门。谢谢。

赵卿元 · 2018-9-23 04:06:20

谢邀。

关于抽样调查，我了解不深，经济调查知道的就更少了。前面 @chenqin和 @Jichun Si的回答都不错，我就试着补充一下吧。

题主主要提出了两个问题：
1. 样本数量和随机性的关系。
2. 把全国作为一个总体是否有意义。

首先讲一下第一个问题。 @Jichun Si总体观点妥当，特别是指出了抽样调查面临的最核心的问题——不能有系统偏差。只要调查方法没有系统偏差，那么增加到一定量的样本总是能得出正确的结论。这样就是题主提到的“甘犁等一直强调样本数量不是问题，随机性是问题”。

但是 @Jichun Si 的出发点“统计上最好的抽样方法就是简单随机抽样”是错误的。只有在对样本总体无甚了解的情况下，我们才会采用简单随机抽样，可以参考下面这一段（摘自wikipedia：Simple random sample）

Advantages are that it is free of classification error, and it requires minimum advance knowledge of the population other than the frame. Its simplicity also makes it relatively easy to interpret data collected in this manner. For these reasons, simple random sampling best suits situations where not much information is available about the population and data collection can be efficiently conducted on randomly distributed items, or where the cost of sampling is small enough to make efficiency less important than simplicity. If these conditions do not hold, stratified sampling or cluster sampling may be a better choice.

在我们对样本总体有一定了解的情况下，选择分层抽样可以增加抽样的效率。 @chenqin的回答中有一个非常直观的例子：如果我们需要知道中国家庭地贫富差距，那么适当的做法是多抽取一些最穷和最富的家庭。

在一切理想的假设下，任何正确的抽样方法（包括简单和分层）都是不会有偏差的。但是实际操作中往往并不如假设，会出现一些潜在的问题。在这项调查中，一个问题就是有的受访家庭会拒访。如果我们知道富裕的家庭更有可能选择拒访，那么最后得到的样本中富裕家庭的数量就会被低估（underrepresented）。为了检验这种可能存在的偏差，常用的方法是比较
(A) 权重调整过的样本
(B) 总体
间各个统计量的差距。例如在CHFS报告精选第四页表3，研究者就比较了CHFS和统计局的人口结构。从他们给出的数据来看，CHFS的样本是能代表全国的。

针对第二个问题，我认为这更多的是一个哲学问题。任何研究都有一个研究对象，CHFS选择的对象是所有的中国家庭，这当然是可行的。题主提到的“中国如此之大，异质性如此之高，各地相同之处是有一个中央政府罢了”，我并不太同意。中国的异质性当然高，但是不同省份之间的区别还是远远小于不同国家之间的区别，毕竟大的行政政策都是相同的。所以将中国作为一个研究主体还是有很大意义的。异质性可以作为另外一个研究课题，对比中国不同地域间的家庭金融状况，但我认为这在重要性是低于研究全国所有的家庭的。

草刀 · 2018-9-23 04:06:21

我有做访员的经历，那是“中国健康与养老追踪调查”，简称“Charls”，是北京大学社会科学调查中心的一个调查项目，覆盖150个县级单位，450个村级单位，约1万户家庭中的1.7万人。
这些样本以后每两年追踪一次，调查结束一年后，数据将对学术界免费公开。CHARLS采用了多阶段抽样，在县/区和村居抽样阶段均采取PPS抽样方法。CHARLS首创了电子绘图软件（CHALRS-GIS）技术，用地图法制作村级抽样框。CHALRS的问卷设计参考了国际经验，包括美国健康与退休调查（HRS）、英国老年追踪调查（ELSA）以及欧洲的健康、老年与退休调查（SHARE）等（本段摘自官网介绍，很高级有没有！）
作为访员，前期培训，十天，培训意义、方法、操作流程等。要求十分严格，要严格按照流程操作，七十多页的问题（实战时是电脑系统题目自动跳转）要逐个问，要严格按照准备好的问题原句问，还有录音，发回总部监督，不合格或者作假要重新做。这是一个规格绝逼高的调查研究项目，各种教授研究员，等着传回的数据做分析，然后写出牛逼的论文，得出牛逼的结论。这一切都是那么的科学、严谨、有意义。
但是。。。。。。这才是重点！
实际情况是，一部分目标访户找不到人，找到人不配合做访问（对于拒访户要求多次登门，实在不行就填拒访，我经常一次过，不配合就直接填拒访），配合做访问的有些问题访户都不知道怎么回答我们就瞎填。采访一户要将近五个小时，发展到最后我们干脆不采访，直接全蒙。作弊的数据发回去也没监督出来重做。这就是最前线收集数据的情况，教授们就是根据这样的数据得出高大上的研究成果的。原谅我的不负责任，但我不是唯一。（当时采访过程中我就常想，以后有机会我一定把这牛逼的情况说出来，高逼格的背后全是狗屎！）
注意！
我只是描述我做访员的情况，题主提到的研究项目我不清楚不做类比。
看了其他答案分析，我觉得抽取28000户家庭的全国调研做法统计学上挺严谨的，不过只是逻辑上。

匿名用户 · 2018-9-23 04:06:22

提示: 作者被禁止或删除内容自动屏蔽

匿名用户 · 2018-9-23 04:06:23

提示: 作者被禁止或删除内容自动屏蔽

晚华 · 2018-9-23 04:06:24

个人感觉最高票答案已经说得很好了
补充一个细节，chfs有拒访率，普遍来说城市家庭的拒访率远远高于农村家庭，收入较高家庭高于收入较低家庭。
如果我没有记错的话是访问家庭六次拒访，访员可以申请更换家庭。
还有如楼上知友所言，一些比较特殊的地方访员是没有办法访问的。
所以严格来说这对于最终数据的精确度是有影响的。
还有，做这样一项大型调查是有成本的，包括物力和访员的体力等等，所以扩大访问量对于学校来说有一定负担。
但2011，2013年，每一年的访问家庭数量都在增加，收入层级也在逐步细化。
这项调查正在变得越来越细致，越来越精准。

冬日犬Joker · 2018-9-23 04:06:25

前两天有幸听了甘犁教授的讲座，讲座上甘教授较为详细地介绍了CHFS的抽样问题，还好我做了笔记……先马一下回去再回答……
--------------------------------------------------------------------------------------------------------------------------------------------
中国家庭金融调查的抽样设计：三阶段规模度量成比例抽样（PPS）：
2011年

全国除西藏、新疆、内蒙之外的2585个区/县按人均GDP分为10组
每组抽取8个区/县，每个区县抽取4个社区/村
共抽出80个区县，320个社区/村

2013年

在2011年的基础上对称抽样，拓展样本量
262个区/县，1048个社区/村（481个社区、567个村）
除新疆、西藏之外的29个省级行政区有代表性

在数据的质量控制方面，有以下两类措施：

录音核查

对每位访员的首份访问录音进行核查
访问前期，随机抽取5%-10%的访问录音进行核查
访问结束后，对每份访问录音多次进行核查

2. 数据核查：根据键盘记录数据自动识别异常问卷

访问时间少于30分钟
有效题量小于200
“不知道”比例大于5%

这三种情况视为异常问卷。

CHFS还有一个环节也很重要，即电话回访。
在入户调查时获得受访户的电话号码，从2014年起，对这些访户会进行季度电话回访。且从2015年开始，CHFS计划进行月度电话访问。
电话回访的内容包括宏观预期、就业、资产负债、收入消费等等，通过电话回访可以及时反映经济动态变化，也可根据需要添加回访的内容。

另外在拒访问题方面CHFS也有严格的换样标准，一般来说是不同时段无人应答6次或者拒访3次，对于访员来说应该也是蛮磨人的…不过就拒访率来说CHFS做的还是不错，2013年拒访率整体控制在10.9%。
--------------------------------------------------------------------------------------------------------------------------------------------
写了这么多发觉没有看到补充问题= =
“中国如此之大，异质性如此之高，各地相同之处是有一个中央政府罢了，把全国当成一个总体是否意义有限呢？”
作为一个大一的小白，可能这个问题我还不好回答。但就个人的浅薄的看法而言，我觉得至少有两点意义是很重要的：
1、CHFS是一项开拓性的工作，先前没有机构涉足。中国家庭金融调查中心本年度准备再启动两个项目，带给人的感觉也是同样的令人感到振奋的，一个是中国小微企业调查，一个是中国基层治理调查。作为首开先河，CHFS提供的数据引发的关注和带来的影响我觉得可能是一件意义重大的事。
2、虽然中国地域广阔，异质性高，但许多数据还是有意义的……比如前两年CHFS对于中国老百姓储蓄率位居世界前列的言论用数据做出的回应，又比如这次讲座上甘教授提到的中国家庭住房空置率问题，我觉得在一国的范围内讨论这些问题还是有一定意义的啦……

统计学上看西南财经大学中国家庭金融调查 (CHFS) 抽取 28000 户家庭的全国调研方法上严谨吗？

10 个回复