Diferencia entre revisiones de «Formato Variant Call»
m Edición general. Cambié algunos términos por una forma más comúnmente utilizada en la comunidad científica. |
Sin resumen de edición |
||
Línea 1:
El '''Variant Call Format''' ('''VCF,''' formato de llamado de variantes) es un formato de texto que se usa en [[Bioinformática]] para almacenar variantes de
La versión actual es la 4.3,<ref>{{cita web
|
Revisión del 14:33 28 ago 2022
El Variant Call Format (VCF, formato de llamado de variantes) es un formato de texto que se usa en Bioinformática para almacenar variantes de una o varias secuencias de genes respecto a un genoma de referencia. Este formato se ha desarrollado a la luz de los grandes proyectos de secuenciación del ADN y genotipado, como el Proyecto 1000 Genomas. Otros formatos para almacenar datos genéticos como el General feature format (GFF), almacena todos los datos genéticos pero muchos de ellos son redundantes, al compartirse a lo largo de los genomas. En cambio, en el formato VCF sólo se almacenan las variantes genéticas respecto al genoma de referencia.
La versión actual es la 4.3,[1][2] aunque el Proyecto 1000 Genomas ha desarrollado sus propias especificaciones para variación estructural como duplicaciones y rearreglos genómicos, que son difíciles de acomodar en el esquema existente.[3] También existen un grupo de herramientas para editar y manipular los ficheros VCF.[4]
Ejemplo
##fileformat=VCFv4.0 ##fileDate=20110705 ##reference=1000GenomesPilot-NCBI37 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2 Sample3 2 4370 rs6057 G A 29 . NS=2;DP=13;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,. 2 7330 . T A 3 q10 NS=5;DP=12;AF=0.017 GT:GQ:DP:HQ 0|0:46:3:58,50 0|1:3:5:65,3 0/0:41:3 2 110696 rs6055 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4 2 130237 . T . 47 . NS=2;DP=16;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:56,51 0/0:61:2 2 134567 microsat1 GTCT G,GTACT 50 PASS NS=2;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3
Véase también
- El formato Genome Variation Format (GFV), una extensión basada en el formato GFF3.
- Una explicación del código ejemplo en http://vcftools.sourceforge.net/VCF-poster.pdf
- Herramienta gráfica gratuita para inspeccionar, buscar, dividir y combinar ficheros VCF en OS X, disponible en https://web.archive.org/web/20150218075756/http://www.diploid.com/differ
Referencias
- ↑ «VCF Specification». Consultado el 17 de mayo de 2013.
- ↑ «Specifications of SAM/BAM and related high-throughput sequencing file formats». Consultado el 24 de junio de 2014.
- ↑ «Encoding Structural Variants in VCF (Variant Call Format) version 4.0 | 1000 Genomes». Consultado el 1 de febrero de 2011.
- ↑ «VCFtools from SourceForge.net». Consultado el 21 de abril de 2011.