大数据首次揭示中国人基因特征，具有怎样的意义？

提示: 作者被禁止或删除内容自动屏蔽

黄树嘉 · 2018-10-15 23:19:28

谢邀。
作为这个项目的核心成员之一，既然知乎朋友们谈及这个项目的意义，我先来回答一下吧。
对于意义，总的来说有如下几个：
[h1]1. 中国第一次真正意义上拥有了一个属于自己的大规模组学背景数据库[/h1]先说一下背景哈，我们来看一下下面这个图

全球主要的大规模基因组学计划发现了吧？如我图中红字“缺少中国身影”！要知道差不多二十年前，中国曾是“人类基因组计划”的6个参与国家之一，自那之后，测序技术发展快速，成本也不断下降。
其带来的一个结果就是，世界上一些有远见的发达国家和地区——主要是美国和英国——曾经人类基因组计划的两个重要参与国，就不断由政府、研究机构或者企业推出一系列基因组学“大手笔”项目（上图），这里面比较有名的有：美国All of US（计划测100万美国人群）、英国UK biobank（50基因芯片数据，这一部分的数据已经可以授权给全球的研究者）、英国10万人基因组计划（GenomicsEngland）等，其中GenomicsEngland截至9月份已经测完了8.7万人！今年国庆期间听说他们又把第二期启动了！是惊人的500万人，并且要在5年内完成！就连最近的韩国、新加坡、澳大利亚也已经在积极发起属于他们自己的基因组学计划。可以说，全球大规模的组学计划，正在随着测序成本的下降，逐渐成为一种新的常态。
而走的最快的英国和美国，他们的一些项目的成果我们已经看到了，其带来的好处不仅是推动了本国的基因组学研究和精准医学的发展，我觉得更重要的还在于它们逐渐树立起了强大的国际影响力和领域话语权。
中国是世界上第一大人口国和第二大经济体，也是曾经人类基因组计划的参与者之一，拥有着至少56个不同的民族，遗传资源很丰富，想必也很独特，但一直以来，由我们主导的中国人基因组学研究成果却比较有限。
好在这两年来，这个情况正在发生改变，咱们国家也开始推动大人群项目了，包括：哈工大“中国十万人基因组计划”，当时我还对这个计划做了一点评价，感兴趣的小伙伴可以移步到《我如何看，今日央视宣布我国启动“中国10万人基因组计划”》、金力教授发起的泰州人群队列项目（这也是一个10万级别的人群队列项目）等。另外，也有远在牛津大学的陈铮鸣教授发起的CKB项目——含有约10万人的基因芯片数据，还有就是企业机构发起的大人群项目，这其中就包括我们华大。
但由于很多项目才刚开始不久，因此，现在被广泛使用作为中国人代表的基因组数据集依然仅有“国际千人基因组计划”中的三百余个样本。
不得不说，在国家级人群基因组学研究以及该领域的影响力方面，我们还是略有落后。精准医学计划也搞了好几年了，但起色甚微，其中很重要的一个方面是缺少大规模的地区性人群遗传基线数据研究——这是精准医学和基因诊断的基础。当然，这其中原因有很多，包括：大型项目的设计、大规模样本采集相当困难、测序成本也还不是真正的“白菜价”，一个上万人规模的基因组学项目依然需要不小的经费支持。比如英国的GenomicsEngland，他们要测10万人（截至今年9月已经测了8.7万人），前期的项目投资就高达7,800万英镑，折合人民币是7个亿，而它二期的投入则是一个500万人的组学计划！
面对国际这样的形式，按照正常的路径我们其实是很难在短时间内赶上的。
但我们国家却又很幸运，你如果回过头来看，会惊讶地发现我们国家在基因技术的应用方面走得很快。特别是近年来，NIPT技术的发展和推广，其实已经让中国成为了地球上拥有最多可分析基因数据资源的国家之一，那些数据已经产生了，它不需要你重新去测序！如果能够以这样的数据为突破口，完成大规模的组学研究，那么不但有赶上的机会，还有机会开拓一个新的组学大数据研究思路。
目前全球的NIPT测序数据估计已经超过了1200万例，其中大约70%的检测数据发生于我国。由于没有找到官方的报道，所以这个数字是我根据去年的情况推算的。
我们这个文章中所完成的14万人组学项目正是源自于这样的一个数据。这个数据在2015年的时候也发过一篇医学检测的文章，而且很巧的是这个数量大约为全国人口的万分之一，样本数据也广泛分布于全国各地（覆盖中国31个省级行政单位和36个少数民族），再加上NIPT检测的样本来源天然就是随机的，所以不难看出这将是一组非常有代表性的中国人群体数据。

整个项目是在《人类遗传资源管理暂行办法》和生命伦理原则的规范下，以及充分重视知情同意和隐私保护的前提下所进行的。

14万人的分布整个项目做了一系列的研究工作，包括：群体遗传学、医学基因组学相关的全基因组关联分析和病毒谱等方面的分析。并且建立了第一个大规模的中国人基因频率数据库，它将是一个良好的背景代表，我们把它命名为CMDB：
Chinese Millionome Database这是目前登顶国际学术期刊的最大规模中国人基因频率数据库。在以后的很多研究和应用的过程中，我们可以不再只是依赖于白种人的数据库，而是可以用属于中国人自己的，这样会更加具有针对性。
[h1]2. 开辟了一个新的大规模基因组学研究思路[/h1]按照以前的套路，包括国外或者少有的国内大型组学项目，研究思路大多会偏向于队列式研究，而且是高深度的全基因组测序。而我们这个项目则是利用已有的大规模超低深度测序数据，前期没有严格的队列设计，样本数据的来源也是随机分布的。并且第一次向整个领域证明了超低深度（

123456 · 2018-10-15 23:19:29

修改了一下原答案，整理了一些关于cfDNA的内容：
可能大家更关注于这篇文章揭示的，与表型相关的基因位点和南北差异。我觉得还有一点很值得关注：这个项目的数据来源，和「百万人群基因大数据研究」的进展速度。
Cell free DNA （cfDNA）是人体细胞排放到血液里的DNA片段，长度在167bp上下，在血液中含量很低，主要来自于死亡的体细胞。癌症患者血液内有更高的cfDNA含量，来自于他们体内死亡的肿瘤细胞，这些来自肿瘤的cfDNA被称为ctDNA，具有很高的特异性，因此也被作为biomarker，在早期进行癌症的检测。
最近，华大在Cell杂志上发表了文章：Genomic Analyses from Non-invasive Prenatal Testing Reveal Genetic Associations, Patterns of Viral Infections, and Chinese Population History，总结了「百万人群基因大数据研究」第一阶段，来自14余万中国人样本的基因组测序结果，并产生了很多有意思的发现：哪些基因位点和怀双胞胎有关？南方人比北方人的免疫力更强？这些数据正来自于cfDNA的另一个检测领域：无创产前检测，也就是NIPT。

研究团队在过去，对三体综合征的检测方法主要有两种，分别是测量胎儿颈部皮肤透明带厚度和羊水穿刺。颈部皮肤透明带厚度测定准确度很低，羊水穿刺培养细胞准确度很高，但是会导致一定的流产风险（很低但是存在）。过去的无创检测准确度很低，因为检测的样本来源于母体的外周静脉血，根据各项激素含量进行综合计算得到检测结果，但是假阴性非常的高。
华大的NIPT则针对母体外周血中的胎儿cfDNA（Cell free fetal DNA，cffDNA）进行检测，人体胚胎的cffDNA通过胎盘组织脱落的凋亡滋养细胞进入母体的血液循环，因此可以在孕妈的外周血中检测到含量很低的cffDNA。

Cell free fetal DNA (cffDNA) migrating into the maternal blood stream via the apoptotic trophoblast cells shedding off the placental tissue.(from wiki)华大的NIPT主要针对于21、18、13三对染色体的非整倍性进行检查，取样过程中得到的样品也就是母体的外周血液样本，就是「百万人群基因大数据研究」主要的数据来源。
全球无创产前基因检测超过1200万例，中国完成约700万例，其中华大基因完成逾350万例。华大基因、贝瑞和康、博奥生物以及安诺优达是目前NIPT产业链比较完善的四家企业，但在精准医疗行业内，恐怕只有华大有这样的能力完成如此庞大的工作。
再与其他国家的基因组计划比较一下，和NIH “All of US”项目通过捐赠人赠予的样品收集方式相比较，华大通过无创产检收集样本的速度明显更有优势。再换另一个例子：冰岛2015年发布冰岛人全基因组序列，17年间测序了2636人，华大的百万项目于2016年启动，2年不到的时间内有这样的发现，可以说是非常惊人的。
最后夸一下华大对数据提供者的隐私保护：

隐私保护办法参考:
https://www.cell.com/action/showPdf?pii=S0092-8674%2818%2931032-8#%FE%FF%00b%00i%00b%006%008 https://en.wikipedia.org/wiki/File:Cell_free_fetal_DNA_shedding_into_maternal_bloodstream.pdf https://en.wikipedia.org/wiki/File:Cell_free_fetal_DNA_shedding_into_maternal_bloodstream.pdf

BioArtReports · 2018-10-15 23:19:30

本文首发于微信公众号 BioArtReports
BioArt，一心关注生命科学，只分享更多有种、有趣、有料的信息。
关注请微信搜索公众号bioartreports。投稿、合作、转载授权事宜请联系微信ID：fullbellies
或邮箱：sinobioart@bioart.com.cn

撰文丨奚望
责编丨迦溆

中国是一个拥有14亿人口的多民族国家，针对全体中国人的群体遗传学研究具有重大的科学价值。然而由于基因测序成本和样本数量的限制，中国人口的群体遗传特征并未得到过充分的研究。

10月4日，深圳华大基因（BGI）的研究人员（徐迅、汪健等）与丹麦哥本哈根大学以及加州大学伯克利分校的研究人员合作在Cell期刊上发表了名为“Genomic Analyses from Non-invasive Prenatal Testing Reveal Genetic Associations, Patterns of Viral Infections, and Chinese Population History”的文章，借助非侵入性产前检测（NIPT）技术对超过14万来自中国各地的女性进行了基因组测序和分析。他们利用这份大规模数据揭示了中国人遗传历史与地理因素的关联，并发现了多个在中国人血液中富集的病毒类型。

非侵入性产前检测（NIPT）的目的，是通过提取怀孕母亲血液中的游离DNA对胎儿进行21三体综合征的筛查。世界范围内已有上千万女性接受过这项检测，其中6-7百万来自中国。虽然样本量巨大，但NIPT的测序深度通常只有0.06X-0.1X，与一般的全基因组测序（15X-30X）相差巨大。不过在相关研究的佐证下【1】，研究人员通过统计手段对基因型数据进行估计与填补，分析了来自中国31个省市自治区，36个民族女性的测序数据（由于华大基因拥有海量的NIPT的数据，所以大样本就不是问题了）。他们从中发现了约9百万可靠的单核苷酸突变位点，其中有超过20万不存在于已有的数据库中。

研究人员对所有样本的基因型进行了主成分分析（PCA），他们发现在汉族人口中，人们居住地纬度的不同伴随着显著的基因差异，而东西部人口间的差异则并不明显。这可能是因为我国存在大量人口向西部迁移造成的。相比汉族内部，各少数民族与汉族间的基因型差异更为明显，其中差别最大的包括来自新疆的维吾尔族、哈萨克族和来自内蒙古的蒙古族。来自中部的回族，西南的彝族和南方的壮族、布依族携带的基因变异也与汉族非常不同。而由于历史原因，满族人的遗传信息则和东北方汉族人接近。

作者接着比较了汉族和世界其它主要民族的基因相似度。他们发现西北和中西部中国人同欧洲人（CEU）较为相似，其中相似度最高的来自新疆、甘肃、青海和宁夏等地。作者认为这与河西走廊在汉代丝绸之路中扮演的重要地位有关。而新疆、西藏、海南、云南和广西等地的人口基因型同印度人存在相似性。作者还使用统计方法对汉族内部的基因型选择进行了推断。他们发现LILRA3、CR1、 FADS2、 DOCK9、 ABCC11和IGH基因簇伴随居住地纬度的不同存在明显的差异。这些基因同免疫反应，躁郁症和饮食相关。一些ClinVar数据库收录的疾病关联等位基因也呈不同的地域分布。

而后，作者使用全基因组关联（GWAS）分析对基因型和表型间的相关关系进行研究。他们首先选取身高和BMI指数作为目标表型，并分别发现了48个和13个基因组位点与之显著相关，其中有41个和10个都曾被报道过，证明了用低测序深度的大样本数据做关联分析也能得到可靠的结果。随后作者选用了生育年龄和双胞胎怀孕这两个表行来研究受孕与基因型的关联。他们发现了一个在EMB基因附近的位点与生育年龄呈强相关性，而NRG1基因上的一个SNP与双胞胎怀孕的相关性最强。EMB基因在胚胎发育中扮演着重要作用，NRG1基因则主要在甲状腺表达。这两个基因都曾被研究证明与受孕相关。

最后，作者对这些NIPT血液样本中的病毒组成进行了调查。血液病毒研究是病毒流行病学的重要部分。有趣的是，这些中国样本血液中的病毒种类和丰度同欧洲人很不一样。乙肝病毒（HBV）和B19微小病毒在这些样本中丰度很高，人类疱疹病毒7型则含量很少。作者发现基因组上MLC1- MOV10L1区域里的一个SNP同人类疱疹病毒-6A/B的存在具有很强的关联。MOV10L1基因是一个结合PIWI RNA的解旋酶，作者认为对这个基因活性的抑制可能会给人类疱疹病毒-6A/B的侵入提供更佳的环境。同时，血液病毒的分布也呈现出不小的地域差异，如HBV病毒在南方的分布相比北方更为广泛。

参考文献
1. Pasaniuc B, Rohland N, McLaren P J, et al. Extremely low-coverage sequencing and imputation increases power for genome-wide association studies[J].Nature genetics, 2012, 44(6): 631.

大数据首次揭示中国人基因特征，具有怎样的意义？

3 个回复