盘算基因组学旨在生长理论和要领学,对基因组数据举行数据挖掘、提守信息。其中对遗传多态性,如基因频谱、单倍型结构等举行建模,使用群体基因组水平的遗传变异数据来推断群体的历史和变迁是群体遗传学的焦点内容。古板的群体遗传学剖析要领通;谛⊙臼,所推断的多为相对古老的历史事务,例如,被普遍应用的Li and Durbin (2011)的PSMC要领(递次式对偶溯祖要领)适用于2万年到300万年之间的群体巨细转变,对一万年以内群体历史的推断精度很有限。该时间区间是这些要领举行参数推断的“盲区”。而人类在已往一万年左右从漫长的狩猎-收罗文明逐渐过渡到农业、畜牧业和工业文明,深入相识人类两万年内的群体进化和变迁,对剖析情形顺应性、遗传性疾病的易感性和发病机制等都有主要意义。
日新月异的测序新手艺正在爆发海量的基因组序列数据。这些大样本或群体水平的测序数据为基因组时代的群体遗传学研究提供了亘古未有的机缘。大数据蕴含的富厚信息使得更细腻推断群体历史,包括1万年以致几千年以内的群体转变成为可能。但另一方面,也给现有的理论和要领带来了新的挑战。大都现有的剖析要领并不适用剖析大数据:一方面是由于这些古板要领大多是基于随机取样要领,盘算量太大;另一方面则源于一些公式在大样本条件下保存数值不稳固性。
兴发娱乐盘算基因组中心陈华课题组针对以上问题提出了一个群体遗传学新算法(TNSFS)。该要领战胜了大样本时的数值盘算问题,首次实现了对大样本全基因组数据举行盘算高效的群体遗传学剖析,可用于检测群体的增添模式,有用推断一万年以内的群体巨细转变的相关参数。新算法拥有若干盘算上的优势:该要领给出剖析形式的公式,不依赖于仿真,盘算便捷高效,并且在大样本时无数值问题;具有很好的无邪性,能涵盖重大的群体模子;别的,现代群体遗传学模子以Kingman溯祖理论为基本构架,理论上只适用于样本量远小于群体巨细的条件下。当样本数目很大,甚至于靠近群体水平时,Kingman溯祖理论会有严重误差。新提出的要领纵然在这种情形下,也具有很好的鲁棒性(robustness)。
该事情的研究效果于2015年11月揭晓在进化生物学领域权威期刊 Molecular Biology and Evolution。

TNSFS要领能有用模拟重大的群体模子(如图A所示,用于形貌欧洲群体转变的Gazave模子), 并且在差别参数值下的理论展望值与电脑仿真爆发的效果吻合(图B)
论文链接