咨询热线:400-1792-998
当前位置:主页 > 新闻动态 > 公司新闻公司新闻

【文献热点】值得警惕的外显测序雷区3:变异识别算法局限性

发布时间 :2021-07-02 13:10 阅读 :
 

雷区3:变异识别算法局限性

外显子组测序已成为孟德尔遗传病的有效诊断方法,但是即使采用了ACMG指南对变异进行分类,不同实验室的测序质量差距仍然较大。原因之一是由于国内目前没有统一或推荐的用于临床中外显子组测序的生物信息学分析工具,导致在分析过程中产生一些错误,包括变异识别错误、变异注释错误和过滤错误等。此外,即使对于使用类似“软件组件“的实验室来说,在质量控制(QC)度量上也尚缺乏共识 [1]。目前,实验室中不同的生物信息学工具之间的比较,以及它们在现实场景中的相对优点和精度均尚无研究。


1、变异识别工具

在一项研究中,通过使用商业化试剂盒(illumina HiSeq 2000平台和安捷伦SureSelect version 2捕获试剂盒)对四个家庭的15个外显子组进行测序,其平均测序深度约为120X,采用五种不同的校准和变异识别工具(SOAP、BWA-GATK、BWA SNVer、GNUMAP和BWA SAMtools)的近似默认参数对原始数据进行分析。结果显示,illumina测序平台的检测数据在近似默认的软件参数下,不同变异识别工具对SNV和Indel的识别仍然存在显著差异,提示这些常用工具之间采用了不同的生物信息学方法,其中所有15个外显子的5个变异识别工具之间的SNV一致性为57.4%(如图1),三个Indel识别工具之间的Indel一致性仅为26.8%(如图2)。因此,在医疗背景下分析个体的基因组信息时,对待Indel变异的识别应尤其谨慎 [2]

 

SAMtools与GATK是目前应用最广泛的两种变异识别工具,对这两个工具的评估研究显示,基因组分析工具GATK比SAMtools的识别更加准确(阳性预测值分别为92.55%和80.35%)(如图3)[3]

2、测序平台

以上两个下一代测序(NGS)平台(illumina HiSeq 2000平台和安捷伦SureSelect version 2捕获试剂盒)之间的变异也存在显著差异。相对较新的CG 2.0 WGS工具检测到一组外显子变异,92%位于安捷伦SureSelect 2.0版捕获试剂盒捕获的区域内,但是即使是在高可映射性区域,仍然有11%没有被illumina的外显子组分析工具识别 [2]

 

在其他测序平台的对比研究中,包含3种识别工具(HaplotypeCaller, Strelka2 和Samtools-Varscan2),5种测序平台(华大公司的的BGISEQ500,、MGISEQ2000、illunima公司的 HiSeq4000、NovaSeq和HiSeq Xten)组成的15种组合;对于WES数据集,华大平台在SNPs识别中表现出更优的性能,而illumina平台在Indels识别中表现出更优的性能。这可能是由于两家公司在测序策略上存在差异而产生长度不同的reads(BGI平台均为100bp读长,illumina平台均为150bp读长)。对于WGS数据集,Xten-SK2(HiSeq Xten测序平台和Strelka2识别工具)和HiSeq4000-SK2(HiSeq4000测序平台和Strelka2识别工具)在所有组合中SNPs和Indels识别的F值最高 [4]

 

3、其他

除此之外,通过多代家庭的测序数据来过滤遗传突变,可以提高基因组测序的整体准确性 [2]。SAMtools与GATK识别工具的研究中发现SNV识别之前,映射读取的重新排列和基本质量分数的重新校准对变异识别的准确性也至关重要 [3]

 

因此,临床中基因组测序数据的质量与测序平台、生物信息学工具等息息相关。通过以上研究中的对比数据可为下一代测序技术在临床中的进一步推广和应用提供指导和建议。

 

图片

图1,五个校准和变异识别工具之间15个外显子的平均单核苷酸变异(SNV)一致性。使用的校准方法以及SNV变异识别算法在这里用简写方式注释:BWA-GATK、SOAP alignment-SOAPsnp、BWA-SNVer、BWA-SAMTools和GNUMAP-GNUMAP。

(A) 通过匹配每个检测到的SNV的基因组坐标以及碱基对变化和合子性来确定每个工具之间的SNV平均一致性。

(B) (B)与(A)中的分析相同,但过滤后仅包括dbSNP135中已发现的SNV。

(C) 与(A)中的分析相同,但过滤后包括新的SNV(即dbSNP135中未发现的SNV)。

 

图片

图2,三个indel识别工具:GATK、SOAPindel和SAMtools之间超过15个外显子组的平均indel一致性。

(A) 所有的indels,(B)已知的indels (dbSNP135中发现的indels)和(C)未知的indels (dbSNP135中没有发现的indels)之间的平均一致性。

 

图片

图3,通过30个受试者的数据比较GATK和SAMtools对SNV识别。在比较过程中,分别使用了GATK中的UnifiedGenotyper算法和SAMtools中的mpilup算法。并通过Sanger测序评估这些变异的准确性。

 

 

参考文献:

[1] Zhang K, Lin G, Han D, Han Y, Wang J, Shen Y, Li J. An Initial Survey of the Performances of Exome Variant Analysis and Clinical Reporting Among Diagnostic Laboratories in China. Front Genet. 2020 Nov 2;11:582637.

[2] O'Rawe J, Jiang T, Sun G, Wu Y, Wang W, Hu J, Bodily P, Tian L, Hakonarson H, Johnson WE, Wei Z, Wang K, Lyon GJ. Low concordance of multiple variant-calling pipelines: practical implications for exome and genome sequencing. Genome Med. 2013 Mar 27;5(3):28.

[3] Pirooznia M, Kramer M, Parla J, Goes FS, Potash JB, McCombie WR, Zandi PP. Validation and assessment of variant calling pipelines for next-generation sequencing. Hum Genomics. 2014 Jul 30;8(1):14. doi: 10.1186/1479-7364-8-14.

[4] Chen J, Li X, Zhong H, Meng Y, Du H. Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers. Sci Rep. 2019 Jun 27;9(1):9345.

雷区3:变异识别算法局限性

外显子组测序已成为孟德尔遗传病的有效诊断方法,但是即使采用了ACMG指南对变异进行分类,不同实验室的测序质量差距仍然较大。原因之一是由于国内目前没有统一或推荐的用于临床中外显子组测序的生物信息学分析工具,导致在分析过程中产生一些错误,包括变异识别错误、变异注释错误和过滤错误等。此外,即使对于使用类似“软件组件“的实验室来说,在质量控制(QC)度量上也尚缺乏共识 [1]。目前,实验室中不同的生物信息学工具之间的比较,以及它们在现实场景中的相对优点和精度均尚无研究。

 

1、变异识别工具

在一项研究中,通过使用商业化试剂盒(illumina HiSeq 2000平台和安捷伦SureSelect version 2捕获试剂盒)对四个家庭的15个外显子组进行测序,其平均测序深度约为120X,采用五种不同的校准和变异识别工具(SOAP、BWA-GATK、BWA SNVer、GNUMAP和BWA SAMtools)的近似默认参数对原始数据进行分析。结果显示,illumina测序平台的检测数据在近似默认的软件参数下,不同变异识别工具对SNV和Indel的识别仍然存在显著差异,提示这些常用工具之间采用了不同的生物信息学方法,其中所有15个外显子的5个变异识别工具之间的SNV一致性为57.4%(如图1),三个Indel识别工具之间的Indel一致性仅为26.8%(如图2)。因此,在医疗背景下分析个体的基因组信息时,对待Indel变异的识别应尤其谨慎 [2]

 

SAMtools与GATK是目前应用最广泛的两种变异识别工具,对这两个工具的评估研究显示,基因组分析工具GATK比SAMtools的识别更加准确(阳性预测值分别为92.55%和80.35%)(如图3)[3]

 

2、测序平台

以上两个下一代测序(NGS)平台(illumina HiSeq 2000平台和安捷伦SureSelect version 2捕获试剂盒)之间的变异也存在显著差异。相对较新的CG 2.0 WGS工具检测到一组外显子变异,92%位于安捷伦SureSelect 2.0版捕获试剂盒捕获的区域内,但是即使是在高可映射性区域,仍然有11%没有被illumina的外显子组分析工具识别 [2]

 

在其他测序平台的对比研究中,包含3种识别工具(HaplotypeCaller, Strelka2 和Samtools-Varscan2),5种测序平台(华大公司的的BGISEQ500,、MGISEQ2000、illunima公司的 HiSeq4000、NovaSeq和HiSeq Xten)组成的15种组合;对于WES数据集,华大平台在SNPs识别中表现出更优的性能,而illumina平台在Indels识别中表现出更优的性能。这可能是由于两家公司在测序策略上存在差异而产生长度不同的reads(BGI平台均为100bp读长,illumina平台均为150bp读长)。对于WGS数据集,Xten-SK2(HiSeq Xten测序平台和Strelka2识别工具)和HiSeq4000-SK2(HiSeq4000测序平台和Strelka2识别工具)在所有组合中SNPs和Indels识别的F值最高 [4]

 

3、其他

除此之外,通过多代家庭的测序数据来过滤遗传突变,可以提高基因组测序的整体准确性 [2]。SAMtools与GATK识别工具的研究中发现SNV识别之前,映射读取的重新排列和基本质量分数的重新校准对变异识别的准确性也至关重要 [3]

 

因此,临床中基因组测序数据的质量与测序平台、生物信息学工具等息息相关。通过以上研究中的对比数据可为下一代测序技术在临床中的进一步推广和应用提供指导和建议。

 

图片

图1,五个校准和变异识别工具之间15个外显子的平均单核苷酸变异(SNV)一致性。使用的校准方法以及SNV变异识别算法在这里用简写方式注释:BWA-GATK、SOAP alignment-SOAPsnp、BWA-SNVer、BWA-SAMTools和GNUMAP-GNUMAP。

(A) 通过匹配每个检测到的SNV的基因组坐标以及碱基对变化和合子性来确定每个工具之间的SNV平均一致性。

(B) (B)与(A)中的分析相同,但过滤后仅包括dbSNP135中已发现的SNV。

(C) 与(A)中的分析相同,但过滤后包括新的SNV(即dbSNP135中未发现的SNV)。

 

图片

图2,三个indel识别工具:GATK、SOAPindel和SAMtools之间超过15个外显子组的平均indel一致性。

(A) 所有的indels,(B)已知的indels (dbSNP135中发现的indels)和(C)未知的indels (dbSNP135中没有发现的indels)之间的平均一致性。

 

图片

图3,通过30个受试者的数据比较GATK和SAMtools对SNV识别。在比较过程中,分别使用了GATK中的UnifiedGenotyper算法和SAMtools中的mpilup算法。并通过Sanger测序评估这些变异的准确性。

 

 

参考文献:

[1] Zhang K, Lin G, Han D, Han Y, Wang J, Shen Y, Li J. An Initial Survey of the Performances of Exome Variant Analysis and Clinical Reporting Among Diagnostic Laboratories in China. Front Genet. 2020 Nov 2;11:582637.

[2] O'Rawe J, Jiang T, Sun G, Wu Y, Wang W, Hu J, Bodily P, Tian L, Hakonarson H, Johnson WE, Wei Z, Wang K, Lyon GJ. Low concordance of multiple variant-calling pipelines: practical implications for exome and genome sequencing. Genome Med. 2013 Mar 27;5(3):28.

[3] Pirooznia M, Kramer M, Parla J, Goes FS, Potash JB, McCombie WR, Zandi PP. Validation and assessment of variant calling pipelines for next-generation sequencing. Hum Genomics. 2014 Jul 30;8(1):14. doi: 10.1186/1479-7364-8-14.

[4] Chen J, Li X, Zhong H, Meng Y, Du H. Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers. Sci Rep. 2019 Jun 27;9(1):9345.

雷区3:变异识别算法局限性

外显子组测序已成为孟德尔遗传病的有效诊断方法,但是即使采用了ACMG指南对变异进行分类,不同实验室的测序质量差距仍然较大。原因之一是由于国内目前没有统一或推荐的用于临床中外显子组测序的生物信息学分析工具,导致在分析过程中产生一些错误,包括变异识别错误、变异注释错误和过滤错误等。此外,即使对于使用类似“软件组件“的实验室来说,在质量控制(QC)度量上也尚缺乏共识 [1]。目前,实验室中不同的生物信息学工具之间的比较,以及它们在现实场景中的相对优点和精度均尚无研究。

 

1、变异识别工具

在一项研究中,通过使用商业化试剂盒(illumina HiSeq 2000平台和安捷伦SureSelect version 2捕获试剂盒)对四个家庭的15个外显子组进行测序,其平均测序深度约为120X,采用五种不同的校准和变异识别工具(SOAP、BWA-GATK、BWA SNVer、GNUMAP和BWA SAMtools)的近似默认参数对原始数据进行分析。结果显示,illumina测序平台的检测数据在近似默认的软件参数下,不同变异识别工具对SNV和Indel的识别仍然存在显著差异,提示这些常用工具之间采用了不同的生物信息学方法,其中所有15个外显子的5个变异识别工具之间的SNV一致性为57.4%(如图1),三个Indel识别工具之间的Indel一致性仅为26.8%(如图2)。因此,在医疗背景下分析个体的基因组信息时,对待Indel变异的识别应尤其谨慎 [2]

 

SAMtools与GATK是目前应用最广泛的两种变异识别工具,对这两个工具的评估研究显示,基因组分析工具GATK比SAMtools的识别更加准确(阳性预测值分别为92.55%和80.35%)(如图3)[3]

 

2、测序平台

以上两个下一代测序(NGS)平台(illumina HiSeq 2000平台和安捷伦SureSelect version 2捕获试剂盒)之间的变异也存在显著差异。相对较新的CG 2.0 WGS工具检测到一组外显子变异,92%位于安捷伦SureSelect 2.0版捕获试剂盒捕获的区域内,但是即使是在高可映射性区域,仍然有11%没有被illumina的外显子组分析工具识别 [2]

 

在其他测序平台的对比研究中,包含3种识别工具(HaplotypeCaller, Strelka2 和Samtools-Varscan2),5种测序平台(华大公司的的BGISEQ500,、MGISEQ2000、illunima公司的 HiSeq4000、NovaSeq和HiSeq Xten)组成的15种组合;对于WES数据集,华大平台在SNPs识别中表现出更优的性能,而illumina平台在Indels识别中表现出更优的性能。这可能是由于两家公司在测序策略上存在差异而产生长度不同的reads(BGI平台均为100bp读长,illumina平台均为150bp读长)。对于WGS数据集,Xten-SK2(HiSeq Xten测序平台和Strelka2识别工具)和HiSeq4000-SK2(HiSeq4000测序平台和Strelka2识别工具)在所有组合中SNPs和Indels识别的F值最高 [4]

 

3、其他

除此之外,通过多代家庭的测序数据来过滤遗传突变,可以提高基因组测序的整体准确性 [2]。SAMtools与GATK识别工具的研究中发现SNV识别之前,映射读取的重新排列和基本质量分数的重新校准对变异识别的准确性也至关重要 [3]

 

因此,临床中基因组测序数据的质量与测序平台、生物信息学工具等息息相关。通过以上研究中的对比数据可为下一代测序技术在临床中的进一步推广和应用提供指导和建议。

 

图片

图1,五个校准和变异识别工具之间15个外显子的平均单核苷酸变异(SNV)一致性。使用的校准方法以及SNV变异识别算法在这里用简写方式注释:BWA-GATK、SOAP alignment-SOAPsnp、BWA-SNVer、BWA-SAMTools和GNUMAP-GNUMAP。

(A) 通过匹配每个检测到的SNV的基因组坐标以及碱基对变化和合子性来确定每个工具之间的SNV平均一致性。

(B) (B)与(A)中的分析相同,但过滤后仅包括dbSNP135中已发现的SNV。

(C) 与(A)中的分析相同,但过滤后包括新的SNV(即dbSNP135中未发现的SNV)。

 

图片

图2,三个indel识别工具:GATK、SOAPindel和SAMtools之间超过15个外显子组的平均indel一致性。

(A) 所有的indels,(B)已知的indels (dbSNP135中发现的indels)和(C)未知的indels (dbSNP135中没有发现的indels)之间的平均一致性。

 

图片

图3,通过30个受试者的数据比较GATK和SAMtools对SNV识别。在比较过程中,分别使用了GATK中的UnifiedGenotyper算法和SAMtools中的mpilup算法。并通过Sanger测序评估这些变异的准确性。

 

 

参考文献:

[1] Zhang K, Lin G, Han D, Han Y, Wang J, Shen Y, Li J. An Initial Survey of the Performances of Exome Variant Analysis and Clinical Reporting Among Diagnostic Laboratories in China. Front Genet. 2020 Nov 2;11:582637.

[2] O'Rawe J, Jiang T, Sun G, Wu Y, Wang W, Hu J, Bodily P, Tian L, Hakonarson H, Johnson WE, Wei Z, Wang K, Lyon GJ. Low concordance of multiple variant-calling pipelines: practical implications for exome and genome sequencing. Genome Med. 2013 Mar 27;5(3):28.

[3] Pirooznia M, Kramer M, Parla J, Goes FS, Potash JB, McCombie WR, Zandi PP. Validation and assessment of variant calling pipelines for next-generation sequencing. Hum Genomics. 2014 Jul 30;8(1):14. doi: 10.1186/1479-7364-8-14.

[4] Chen J, Li X, Zhong H, Meng Y, Du H. Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers. Sci Rep. 2019 Jun 27;9(1):9345.