All in one 的基因组统计工具, 主要统计了 base 信息, gap 信息, N50 信息, 以便快速了解基因组情况. Rust 编译, 运行速度还可以. 统计信息都比较基础, 写这个工具主要是图一个方便.

参数说明

程序主要有以下接口:

结果说明

程序自动运行, 完成后输出四个统计文件:

特别说明:

  1. statistics_BASE. txt 中最后一行是全基因组水平的统计结果
  2. GAP 统计结果生成的 bed 文件是 0-base 的左闭右开格式, 即第一个碱基位置索引是 0, 以适配 bedtools
  3. 单条序列视为 scaffold, 若其中包含 N 碱基, 则以 N 碱基为断点生成的序列视为 contig
  4. 若序列 ID 包含空格或 tab 分隔, 自动选取第一个字符串作为识别 ID
  5. 输出结果带千分位符, 若想直接用于后续分析需要自行 sed 一下

资源消耗

使用程序统计 8 G 禾草(Leymus chinensis)基因组, 资源消耗及运行时间如下:

程序下载

源码及编译好的程序发布在 GitHub 上, 欢迎下载使用.
地址:
https://github.com/WangZhSi/Bioinformatics_tool/tree/main/fasta_stat