咨询热线:400-1792-998
当前位置:主页 > 新闻动态 > 公司新闻公司新闻

【重磅消息】参考基因组“像素”升级,GRCh38给你不一样的体验

发布时间 :2020-01-06 14:19 阅读 :

众所周知,人类基因组有高达30亿个碱基对,如果每次分析都重新组装,工作量非常巨大。一个组装完整的参考基因组在数据分析时可以极大地减少计算量,嘉检医学使用GRCh38版本基因组作为参考序列,可使数据分析具有更高“像素”,结果更完美

 

 

 

参考基因

 

1

 

概念

玩过拼图游戏的人都知道,把每个拼图单片放在正确的位置,就能拼出一张图片。假定我们使用150bp读长, 30X测序深度检测人类全基因组,相当于把30盒,每盒两千万片的拼图混到了一起,重新拼出原图的难度,简直无法想象。如果我们拿到拼图的原图,也就是参考基因组,工作量就会大大减少。

2

 

方法

那么我们如何得到这份拼图的原图呢?答案是基因组组装。

基因组组装是对测序reads通过一定算法拼接成Contig,再由Contig拼接成Scaffold,最终得到人类完整的基因组序列。

3

 

版本

那么为什么参考基因组有各种版本呢?

一个基因组组装完成后,我们需要保证基因组的序列拼接准确(就好像拼图单片要放在正确的位置),还要评估序列组装完整程度(好比拼图的完整性)。世界各地的科学家们为了得到更准确更完整的参考基因组,一直在努力。

2009年,参考基因组协会(Genome Reference Consortium,GRC)主导发布了人类基因组版本GRCh37(hg19)。2013年,GRC又发布了GRCh38版本(hg38)。在GRCh38版本发布之前,GRCh37版本已经应用到许多数据库、注释工具以及工作流程之中,GRCh38版本这方面还未完善,故而没有被广泛应用。

那么GRCh38版本与GRCh37版本之间到底有何区别,更换GRCh38版本进行基因组数据分析的必要性到底有多大呢?

 

GRCh38 v.s.GRCh37

 

那么我们如何得到这份拼图的原图呢?答案是基因组组装。

基因组组装是对测序reads通过一定算法拼接成Contig,再由Contig拼接成Scaffold,最终得到人类完整的基因组序列。

 

 

为了评估GRCh38和GRCh37这两个版本对基因组分析的影响,该研究使用了30例WES数据,分别采用两个版本参考基因组进行生物信息分析,从染色体组基本统计、比对效率、变异结果等方面进行了比较:

1

 

染色体的基本统计

1)较GRCh37版本基因组,GRCh38整个基因组碱基数减少了7,407,580bp,不确定的碱基N减少了83 Mbp,说明GRCh38基因组更完整

 

2)GC碱基增加了30 Mbp,GC含量由37.806%升到38.875%;由于N区的减少,GRCh38的24条染色体中有17条的GC含量下降,这对illumina测序效率和下游变异分析(如CNV)均有益;

 

3)GRCh38版本外显子组长度增加了26.9%,这对更全面阐释蛋白编码区域意义重大。

 

 

2

 

比对效率

GRCh38比对率有所提升,其中外显子组中平均提升了3.22%,内含子区域平均下降了2.7%。将比对到GRCh38着丝粒区域的reads提取出来,在GRCh37版本上进行比对,仅有41.5%~53.3%的reads能成功比对上。

3

 

变异结果

1) GRCh38结果中,SNV检出率更低,说明其降低了假阳性:其中,无义变异数量多于GRCh37,这主要是由于外显子区域增加引起的;

 

2)通过比较基因组相同位置的变异(Liftover或CrossMap),观察到变异的深度和质量值在两个版本中并没有明显区别。

 

 

3)SV结果差异:GRCh38检测到SV数量更少,检出率较GRCh37降低26.8%,且SV分值分布更高,说明具有更低的假阳性率

 

 

总结

 

1、 由于参考基因组仅仅是代表着一个人基因组中的单个拷贝,因此在变异检测中,需要考虑到多等位基因变异的情况。

 

2、 外显子组测序数据分析结果表明,GRCh38版本提高了基因组分析的准确性。

GRCh38与GRCh37最大的区别在于外显子组的大小,这将直接影响到外显子组注释,且对RNA-seq数据分析有很大影响;

 

3、GRCh38结果的reads比对率更高,说明了该版本的基因组结果和序列较GRCh37更完整,其结构变异检测率更低也间接反映了该结果。

 

总而言之,GRCh38版本是GRCh37版本向更精确的基因组结构迈进的一大步,基于GRCh38版本进行NGS数据分析的结果具有更高的准确性。