中南大学计算机学院、生物信息学湖南省重点实验室成员黄能在第三代牛津纳米孔测序领域取得重要研究成果。该研究成果以“NanoSNP: A progressive and haplotype-aware SNP caller on low coverage Nanopore sequencing data”为题,在国际生物信息学权威期刊《Bioinformatics》(IF=6.931)上在线发表。
在人类基因组中,单核苷酸突变(SNP)的频率为 0.1% 左右,而纳米孔测序R9.4的错误率达到了6-15%,纳米孔测序读数中的碱基错误数目远远高于SNP数目,使得基于纳米孔测序读数的SNP检测存在挑战。现有的纳米孔测序SNP检测算法的覆盖度至少需要45X左右,难以适用于大规模的群体基因组突变研究。当测序深度不足时,SNP突变信息与测序错误信息相互混合难以区别,极大地降低了SNP检测的准确性。因此如何在低测序覆盖度纳米孔测序数据上准确识别 SNP仍然是巨大的挑战。
为了克服低覆盖度纳米孔测序数据的SNP检测时的信息缺乏,NanoSNP先后应用了两种预测模型,从不同的特征角度识别SNP。NanoSNP首先根据比对到参考基因组上的读数的堆积(pileup)结果,用堆积模型预测出一部分SNP位点。然后挑选出高质量的SNP位点以及序列读数进行分型,从而引入序列不同单倍型的信息。新引入的单倍型信息能够缓解低覆盖纳米孔测序数据中SNP信息不足的问题。随后NanoSNP根据堆积模型中预测的高质量杂合SNP和每个单倍型读数为候选SNP位点构建单倍型特征,将SNP位点的长距离单倍型特征和短距离堆积特征进行融合并预测候选SNP位点的基因型。
为了评估NanoSNP的性能,在低覆盖率(∼16X)纳米孔测序读数上将NanoSNP与Clair、Clair3、Pepper-DeepVariant和NanoCaller进行了比较。同时分别对六个人类基因组HG002-HG007进行了跨基因组测试。实验结果表明,NanoSNP在低覆盖率纳米孔测序数据(包括人类基因组中难以比对的区域和MHC区域)上识别SNP方面优于Clair、Pepper-DeepVariant和NanoCaller。当覆盖率超过16X时,NanoSNP与Clair3相当。
图1. NanoSNP算法的主要流程