那些无处安放的 DNA:如何分析基因组组装中的 Unplaced Sequences
组装结果里有 2GB 的序列挂载不到染色体上,它们是污染吗?是重复序列?还是多倍体的冗余?这个问题困扰了我很久。
1. 什么是 Unplaced Sequences?
在基因组组装过程中,总会有一些 scaffold 或 contig 无法明确地定位到特定的染色体上。这些序列统称为 Unplaced Sequences。
2. 工具一:BlobToolKit
BlobToolKit 是一个强大的可视化工具,可以通过 GC content 和 coverage 来区分污染序列(如细菌、真菌)和目标基因组序列。
3. 工具二:BLAST & Minimap2
对于疑似污染的序列,我们可以用 BLAST 比对到 NT 库进行验证。对于疑似冗余的序列,可以用 Minimap2 将其比对回主染色体,看是否是杂合区域导致的重复组装。
总结
不要轻易丢弃 Unplaced Sequences。它们可能包含着重要的生物学信息,比如 B 染色体、细胞器 DNA 或者是尚未被发现的新基因。