11 Şubat 2017 Cumartesi

FASTQ ve VCF Nedir?

Özelikle yeni nesil sekanslama verileri ile uğraşanlar için iki temel veri tipinden bahsedeceğim. Bunlar FASTQ ve VCF formatları. İkiside metin tabanlı formatlardır. Detaylı bir şekilde inceleyecek olursak:

FASTQ Formatı


Bir biyolojik diziyi ve bunlara karşılık gelen kalite skorlanı içermektedir. İlk olarak Wellcome Trust Sanger Institute tarafından ortaya çıkartılmıştır fakat şu an yeni nesil sekanslama cihazlarının çıktılarını saklamak için kullanılmaktadır. FASTQ dosyasında bir dizi için dört satırlık bilgi bulunmaktadır.



Satır 1: "@" karakteri ile başlar. FASTA formatında bulunan başlık satırına benzerdir. İsteğe bağlı olarak diziyi tanımlayan bir şeyler yazılabilir.
Satır 2: Cihazdan okunan ham diziyi içerir.
Satır 3: "+" karakteri ile başlar. İsteğe bağlı olarak açıklama yazılabilir.
Satır 4: 2. satırda bulunan dizinin kalite değerlerini kodlayan karakterler bulunmaktadır. Her bir baz için bir karakter bulunur.

VCF Formatı

Variant Call Format (VCF) dizi içerisindeki varyasyonları depolamak için kullanılan bir formattır. 1000 genom projesinde geliştirilmiş bir formattır. Meta-bilgi satırları, başlık satırı ve her bir varyasyon hakkında bilgileri içeren veri satırları bulunmaktadır.


Meta-bilgi satırları: ''##" ile başlayan satırlardır. "fileformat" satırı her zaman bulunmalıdır. Bu satır sürüm bilgisini içermektedir. "INFO", "FILTER" ve "FORMAT" ile başlayan satırlar da aşağıdaki kısaltmaların ne olduğunu ve veri tipinin bilgisini içerir. Bunlar zorunlu değildir fakat eklenmesi önerilmektedir.

Başlık Satırı: 8 zorunlu sütun adı içermektedir. Bunlar sırasıyla; "#CHROM", "POS", "ID", "REF", "ALT", "QUAL", "FILTER", "INFO" şeklindedir.

Veri Satırları: Varyasyon başına 8 sabit alan vardır. Tüm veri satırları tab ile ayrılmıştır. Eksik değerler nokta (".") Ile belirtilir.

Hiç yorum yok:

Yorum Gönderme