主要是对官方文档的翻译, 简单看看得了
1. 序列图文件 (Sequence Graph Files)
.vg:vg的原生格式。基于 Protocol Buffers 的二进制格式。用于存储序列图及其比对(alignments)。可以使用vg view将其转换为其他格式。这是vg大多数命令的默认输入/输出格式。.xg: 高度压缩的索引格式,针对图的快速遍历(traversal)和查询进行了优化。由vg index构建。是vg map、vg find、vg snarls等命令的主要索引。.gcsa/.gcsa2.lcp: 图的 GCSA2 索引。由vg index构建。是vg map用于种子定位(seed finding)的索引。.gbwt: 图的 GBWT 索引(Haplotype 索引)。由vg index构建。是vg map和vg call使用的索引。.snarls: 存储图的 snarl 分解信息(由vg snarls生成)。.dist: 存储节点之间的距离信息(由vg index构建)。.vg.sql: 图的 SQL 数据库表示(beta)。.og: 覆盖图(overlap graph)格式(由vg overlap生成)。.pg: 路径图(path graph)格式(由vg mod -P生成)。
2. 比对文件 (Alignment Files)
.gam:vg的原生比对格式(基于 Protobuf 的二进制格式)。存储相对于图的读取数据(reads)比对结果。是vg map的默认输出格式。可以使用vg view转换为其他格式。.gamp: 与.gam相同,但包含路径信息(由vg annotate生成)。.gaf: GAF 格式。一种基于文本的、描述相对于图的序列比对的格式。.gam.index:.gam文件的索引(由vg index构建)。用于快速按位置查询比对结果。.bam/.cram/.sam: 标准序列比对格式(相对于线性参考基因组的比对)。vg可以通过vg surject将.gam转换为这些格式,也可以通过vg mpmap直接输出 CRAM(beta)。.hts: 一种描述单倍型定相路径(haplotype-phased paths)的格式(beta)。
3. 变异文件 (Variant Files)
.vcf: 标准变异调用格式(Variant Call Format)。vg可以通过vg deconstruct从图中提取变异,也可以通过vg call从.gam比对结果中调用变异。.tsv: 由vg find生成的变体位点(variant site)表格。
4. 其他文件 (Other Files)
.gfa: 图形片段组装格式(Graphical Fragment Assembly format)。一种基于文本的序列图交换格式。vg可以通过vg view在.vg和.gfa之间转换。也支持 rGFA(参考 GFA)。.fa/.fasta: 标准 FASTA 格式(用于序列)。vg可以通过vg view从图中提取路径或节点的序列。.fq/.fastq: 标准 FASTQ 格式(用于带质量的测序读取数据)。vg可以读取 FASTQ 作为vg map的输入。.bed: BED 格式(用于定义基因组区间)。vg可以通过vg find使用 BED 文件来查询图或提取子图。.json: 由vg viz生成的图形可视化描述文件(供 Bandage 使用)。.odgi: ODGI 格式。另一种基于 Protobuf 的序列图格式(vg可以通过vg convert进行转换)。
Reference
- Command documentation
- Building an Index
- HTSLib (用于处理 BAM/CRAM/SAM/VCF)
- GFA Spec
- GCSA2
- GBWT
- ODGI