谢邀。
关于抽样调查,我了解不深,经济调查知道的就更少了。前面 @chenqin和 @Jichun Si的回答都不错,我就试着补充一下吧。
题主主要提出了两个问题: 1. 样本数量和随机性的关系。 2. 把全国作为一个总体是否有意义。
首先讲一下第一个问题。 @Jichun Si总体观点妥当,特别是指出了抽样调查面临的最核心的问题——不能有系统偏差。只要调查方法没有系统偏差,那么增加到一定量的样本总是能得出正确的结论。这样就是题主提到的“甘犁等一直强调样本数量不是问题,随机性是问题”。
但是 @Jichun Si 的出发点“统计上最好的抽样方法就是简单随机抽样”是错误的。只有在对样本总体无甚了解的情况下,我们才会采用简单随机抽样,可以参考下面这一段(摘自wikipedia:Simple random sample)
Advantages are that it is free of classification error, and it requires minimum advance knowledge of the population other than the frame. Its simplicity also makes it relatively easy to interpret data collected in this manner. For these reasons, simple random sampling best suits situations where not much information is available about the population and data collection can be efficiently conducted on randomly distributed items, or where the cost of sampling is small enough to make efficiency less important than simplicity. If these conditions do not hold, stratified sampling or cluster sampling may be a better choice. 在我们对样本总体有一定了解的情况下,选择分层抽样可以增加抽样的效率。 @chenqin的回答中有一个非常直观的例子:如果我们需要知道中国家庭地贫富差距,那么适当的做法是多抽取一些最穷和最富的家庭。
在一切理想的假设下,任何正确的抽样方法(包括简单和分层)都是不会有偏差的。但是实际操作中往往并不如假设,会出现一些潜在的问题。在这项调查中,一个问题就是有的受访家庭会拒访。如果我们知道富裕的家庭更有可能选择拒访,那么最后得到的样本中富裕家庭的数量就会被低估(underrepresented)。为了检验这种可能存在的偏差,常用的方法是比较 (A) 权重调整过的样本 (B) 总体 间各个统计量的差距。例如在CHFS报告精选第四页表3,研究者就比较了CHFS和统计局的人口结构。从他们给出的数据来看,CHFS的样本是能代表全国的。
针对第二个问题,我认为这更多的是一个哲学问题。任何研究都有一个研究对象,CHFS选择的对象是所有的中国家庭,这当然是可行的。题主提到的“中国如此之大,异质性如此之高,各地相同之处是有一个中央政府罢了”,我并不太同意。中国的异质性当然高,但是不同省份之间的区别还是远远小于不同国家之间的区别,毕竟大的行政政策都是相同的。所以将中国作为一个研究主体还是有很大意义的。异质性可以作为另外一个研究课题,对比中国不同地域间的家庭金融状况,但我认为这在重要性是低于研究全国所有的家庭的。 |