Kodomo

Пользователь

Ресеквенирование. Поиск полиморфизмов у человека (5 хромосома)

Использованные команды:

Команда

Что делает

fastqc chr5.fastq

анализ качества чтений

java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr5.fastq chr5-trimmed.fastq TRAILING:20 MINLEN:50

очиcтка чтений: удаление нуклеотидов с качеством ниже 20, затем удаление чтений длиной меньше 50

bwa index chr5.fasta

индексирование референсной последовательности

bwa mem chr5.fasta chr5-trimmed.fastq > chr5.sam

выравнивание очищенных чтений с проиндексированной референсной последовательностью

samtools view chr5.sam -b -o chr5.bam

перевод выравнивания в бинарный формат

samtools sort -T /tmp/chr5_sorted -o chr5_sorted.bam chr5.bam

сортировка выравнивания по координате начала чтения в референсной последовательности

samtools index chr5_sorted.bam

индексирование отсортированного файла

samtools idxstats chr5_sorted.bam

для определения, сколько чтений откартировалось

samtools mpileup -uf chr5.fasta chr5_sorted.bam -o chr5snp.bcf

создание файла с полиморфизмами

bcftools call -cv chr5snp.bcf -o chr5snp.vcf

перевод .bcf файла в .vcf формат (в список отличий)

perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 chr5snp.vcf -outfile chr5snp.avinput

создание файла для annovar из .vcf файла

perl /nfs/srv/databases/annovar/annotate_variation.pl -geneanno -dbtype refGene -buildver hg19 chr5snp.avinput -outfile chr5snp_refgene /nfs/srv/databases/annovar/humandb/

аннотация по базе данных refgene (hg19)

perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype snp138 -buildver hg19 chr5snp.avinput -outfile chr5snp_snp138 /nfs/srv/databases/annovar/humandb/

аннотация по базе данных dbsnp

perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 chr5snp.avinput -outfile chr5snp_1000g2014oct /nfs/srv/databases/annovar/humandb/

аннотация по базе данных 1000genomes

perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -dbtype gwasCatalog -buildver hg19 chr5snp.avinput -outfile chr5snp_gwas /nfs/srv/databases/annovar/humandb/

аннотация по базе данных gwas

perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype clinvar_20150629 -buildver hg19 chr5snp.avinput -outfile chr5snp_clinvar /nfs/srv/databases/annovar/humandb/

аннотация по базе данных clinvar

Подготовка чтений

Анализ качества до очистки:

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr13/before.png

Анализ качества после очистки:

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr13/after.png

До очистки было 8208 ридов, после очистки осталось 8114: отброшено 94.

Параметр TRAILING:20 позволил отрезатьс конца каждого чтения нуклеотиды с качеством ниже 20, параметр MINLEN:50 позволил удалить чтения длиной меньше 50 нуклеотидов.

Картирование чтений

Команды в таблице.

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr13/idxstats.png

На хромосому откартировались все риды (значение 0 в четвертом столбце говорит о том, что некартированных ридов не осталось). Странно что количество откартированных ридов на 1 меньше, чем количество оставшихся после чистки.

== Поиск SNP и инделей ==

Найдено 32 полиморфизма: 4 индели и 28 однонуклеотидных замен.

Координата

Тип полиморфизма

Референс

Чтения

Глубина покрытия

Качество чтений

35857177

замена

G

C

114

221.999

35867343

замена

T

C

32

184.009

35857308

вставка

T

TC

45

178.458

Аннотация SNP

Результаты анализа:

Позиция SNP - exonic: 5; intronic: 26; 3'UTR: 1

Гомозиготных замен: 17; гетерозиготных: 15

SNP попали в 3 гена: IL7R, CAPSL, HMGCR, причем у всех трех хотя бы один SNP попал в экзон По информации из файла chr5snp_refgene.exonic_variant_function - из 5 экзонных:

не привели к изменению аминокислотной последовательности (synonymous)- 0;

привели - 4 (в генах IL7R, CAPSL); один привел к удалению рамки считывания (frameshift deletion) - в гене HMGCR В продукте гена IL7R из-за SNP произошли изменения: I66T, V138I, T244I В продукте гена CAPSL из-за SNP произошли изменения: R85Q

dropped: имеют rs (аннотированы в базе) - таких SNP 27

filtered: не имеют rs - таких SNP 5

dropped: аннотированы в базе - таких SNP 24

filtered: не имеют rs - таких SNP 8

gwasCatalog: аннотированы в базе - таких SNP 4

dropped: аннотированы в базе - таких SNP 3

filtered: не аннотированы - таких SNP 29

Клиническая аннотация SNP: некоторые SNP были в ходе GWAS ассоциированы с рассеянным склерозом, диабетом 1 типа, ненормальным уровнем холестерина. В clinvar 3 SNP: 2 патогенны, связаны с возникновением тяжёлого комбинированного иммунодефицита, влияние еще одного неясно, однако указано, что ни один не "протестирован" (и только он один есть в gwas тоже).

Вся полученная информация была сведена в одну таблицу.

Выделенные желтым SNP представляют интерес, так как они экзонные, есть в gwas, (один из них и в clinvar), замены несинонимичные.