中南大学计算机学院、生物信息学湖南省重点实验室成员胡康博士研究生在序列组装Polishing领域取得重要研究成果。该研究成果以“MultiNanopolish: Refined Grouping Method for reducing redundant calculations in Nanopolish”为题,被国际生物信息学权威期刊《Bioinformatics》 (IF=5.610)录用。
目前Nanopore序列组装Polishing工具Nanopolish中存在大量的冗余计算,针对这一问题,该研究提出了一种精细化分组方法来减少Nanopolish中存在的冗余计算。实验测试结果表明,MultiNanopolish在Miniasm组装结果下减少了50%的运行时间开销,在Canu和Flye组装结果下减少了20%的运行时间开销。同时MultiNanopolish在多种数据集上都表现出稳定的性能,有效地提高了Nanopolish的组装Polishing效率。MultiNanopolish的步骤如下:首先,将Nanopolish的工作流程进行分解,抽象出三个运行阶段,并对这三个阶段进行性能分析,发现运行时间开销集中在第三阶段。然后,深入研究第三阶段的运行模式,提出一种精细化的分组方法来减少Nanopolish本身存在的冗余计算开销。最后,在抽象出分组模型后,将整个大的计算任务转化为多个小的子任务,利用多线程技术将这些子任务进行并行化,从而极大地提升了序列组装的Polishing效率。
原始Nanopolish与MultiNanopolish的主要分析流程对比