高性能序列搜索和聚类工具,适合大规模蛋白或核酸数据集。High-performance toolkit for sequence search, clustering, and taxonomy workflows.
mamba install -c bioconda mmseqs2
快速搜索:
mmseqs easy-search query.fa target.fa result.tsv tmp --threads 8
序列聚类:
mmseqs easy-cluster proteins.fa cluster_result tmp \
--min-seq-id 0.9 -c 0.8 --threads 8
创建数据库并搜索:
mmseqs createdb query.fa queryDB
mmseqs createdb target.fa targetDB
mmseqs search queryDB targetDB resultDB tmp --threads 8
mmseqs convertalis queryDB targetDB resultDB result.tsv
easy-search:一站式搜索并导出表格。easy-cluster:一站式聚类。createdb:创建内部数据库。search:执行搜索。convertalis:导出 alignment 表格。--min-seq-id / -c:聚类 identity 和覆盖度阈值。