Varianti del genoma umano



Похожие документы
Progetto sulle esostosi multiple

SEQUENZIAMENTO DEL DNA

Sequenziamento ed analisi dell esoma intero (All Exon)

ATASSIA SPINOCEREBELLARE 17 (SCA17) (OMIM #607136)

Alcuni aspetti legati al calcolo bioinformatico su CRESCO. Giuseppe Aprea UTMEA-CAL

A cosa serve al clinico e alla famiglia conoscere il difetto di base? Correlazione genotipo fenotipo

Polimorfismi LEZIONE 6. By NA 1

Avanzamento dei sistemi di sequenziamento

Indice dell'opera. Prefazione. Capitolo 1 Introduzione alla genetica Genetica classica e moderna Genetisti e ricerca genetica Sommario

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

INTOLLERANZA AL LATTOSIO: ESEMPIO DI BIODIVERSITA GENETICA

Struttura e funzione dei geni. Paolo Edomi - Genetica

La mutazione è una modificazione della sequenza delle basi del DNA

COME VIENE REALIZZATA UNA RICERCA SPERIMENTALE IN BIOLOGIA MOLECOLARE?

GENETICA MENDELIANA NELL UOMO

Quotidiano.

Preprocessamento dei Dati

REPORT FINALE DEL PROGETTO III Controllo di qualità nazionale per la valutazione delle mutazioni di RAS nel carcinoma del colon-retto -2014

Bioinformatica. Marin Vargas, Sergio Paul

I marcatori genetici e loro applicazioni nelle produzioni animali. Dott.ssa Chiara Targhetta

DIPARTIMENTO DI SCIENZE E TECNOLOGIE BIOMEDICHE

Applicazioni biotecnologiche in systems biology

Nuovi ruoli dei telomeri e della telomerasi

VARIAZIONI DELLA STRUTTURA DEI CROMOSOMI

Mendeliana Autosomica Dominante (AD) Autosomica Recessiva (AR) X-linked Recessiva (X-linked R) X-linked Dominante (X-linked D) Y-linked

Trials clinici. Disegni di studio

Organizzazione del genoma umano II

Lo sviluppo del cancro è un processo complesso che coinvolge parecchi cambiamenti nella stessa cellula staminale. Poiché tutte le cellule staminali

Exome sequencing in sporadic autism spectrum disorders identifies severe de novo mutations

Linkage. Lezione 4 (riprendere il testo di Genetica ) By NA

Il genoma dinamico: gli elementi trasponibili

Ruolo della biologia molecolare nel carcinoma ovarico

SCREENING NEONATALE RISPARMIO PER IL SERVIZIO SANITARIO NAZIONALE?

ANALISI POST-GENOMICHE TRASCRITTOMA: CONTENUTO DI RNA DI UNA CELLULA.

I marcatori molecolari. Dipartimento di Scienze Agronomiche e Genetica Vegetale Agraria Corso di Genetica Agraria Giovanna Attene

Analisi dei dati MLPA con il nuovo Coffalyser.NET. MRC-Holland

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

Downloaded from Riarrangiamento dei geni per le Immunoglobuline e sviluppo dei linfociti B

PRODA Istituto di Diagnostica Clinica

Parte I. Prima Parte

Clinica e terapia. malattie. retiniche. delle. Direttore Scientifico Alfredo Pece

Elementi di Patologia Generale Dott.ssa Samantha Messina Lezione: Patologia Genetica

Sequenziamento e analisi di genomi completi

Aggiornamenti in ambito genetico

= femmina. = maschio. = fenotipo banda bianca. = fenotipo pezzato. =fenotipo colore uniforme

Il rischio cancerogeno e mutageno

NPTT- NON-INVASIVE PRENATAL TESTING

DNA sequencing. Reading Genomes. Giovanni Bacci

Igiene. Dott. Pamela Di Giovanni. Definizione

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING

Dal DNA alle proteine: La trascrizione e la traduzione

GENOMA. c varia da pochi kb nei virus a milioni di kb in piante e animali

CORSO INTEGRATO DI GENETICA

Esercitazioni di Genomica

Biomarkers per la diagnosi precoce di tumori

Ricerca di outlier. Ricerca di Anomalie/Outlier

4 modulo didattico - Modalità di trasmissione delle malattie

Mappatura genetica. alberi genealogici (pedigree) stima del rischio genetico (counseling) analisi di linkage (lod score) Paolo Edomi - Genetica

INFORMATIVA E CONSENSO INFORMATO ALL ESAME COLONSCREEN

La Biopsia Prostatica: where are we going?

Prof. Pier Paolo Piccaluga Università di Bologna

Polimorfismo: la presenza di due o più forme alleliche in una specie; ovvero la presenza di alleli che mostrano variazioni in una data posizione.

Screening dei soggetti a rischio e diagnostica molecolare

Mutazioni cromosomiche. Le mutazioni cromosomiche sono la causa più frequente di aborto precoce e una importante causa di ritardo mentale nell uomo

Introduzione del test HPV come test di screening primario: un analisi di Budget Impact. Guglielmo Ronco, CPO Piemonte Maria Calvia

VALORE DELLE MERCI SEQUESTRATE

A.A Obiettivi formativi del CI di Metodologia epidemiologica OBIETTIVO GENERALE

LA PRESENZA DI AMIANTO NEI SITI INQUINATI: STIMA DELL'ESPOSIZIONE, IMPATTO SANITARIO E PRIORITA' PER LE BONIFICHE. -Stima dell'esposizione a fibre

Principi dello screening raccomandati dalla World Health Organization

Strumenti di valutazione del rischio familiare Daniela Turchetti

Bioinformatica (modulo bioinf. dei genomi moderni )

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

INFORMATIVA E CONSENSO INFORMATO ALL ESAME ONCOSCREENING

AND NON CAP WEIGHTED PORTFOLIO

20 febbraio Muore Renato Dulbecco

Dissezione del fenotipo

Patologie da analizzare

MANIPOLAZIONE GENETICA DEGLI ANIMALI

RNA non codificanti ed RNA regolatori

Componenti cellulari Divisione e morte cellulare 38 Introduzione alla genetica 1 CERCASI DONATRICI DI OVULI

La regolazione genica nei eucarioti

Gennaio Journal Club Febbraio 2014 Gruppo DI

II Anno II Semestre A.A. 2012/2013 Sbobinatura Patologia Generale Prof. Banfi

Mutagenesi: introduzione di alterazioni in una sequenza nucleotidica. Mutagenesi random: le mutazioni avvengono a caso su un tratto di DNA.

GENETICA DELLE MALATTIE COMPLESSE. Dr. Giovanni Malerba Biologia e Genetica, UniVR giovanni.malerba@univr.it

PRODA Istituto di Diagnostica Clinica

Documento di accompagnamento: mediane dei settori bibliometrici

BIODIVERSITÀ DEI SUOLI ITALIANI: IL CONTRIBUTO DEGLI ACARI ORIBATEI

Dott.ssa Ilaria Barchetta

Seminari di Specialità di Genetica Medica 22 novembre 2011 EXOME SEQUENCING. dott.ssa Alessandra Cuccurullo

a.a /10/2012 Lezioni 25 e 26 I polimorfismi del DNA

Oggetto: presentazione progetto di ricerca anno 2010

Riproduzione Crossover Mutazione

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

L adattamento dei batteri. Strategie di adattamento

Il metodo reddituale esprime il valore dell impresa come funzione esclusiva della sua capacità di reddito

Applicazione dei metodi rapidi alla microbiologia alimentare: Real Time PCR per la determinazione dei virus enterici

Bari, 27 Febbraio 2010 Nicoletta Resta Dipartimento di Biomedicina dell Età Evolutiva UOC Lab. Genetica Medica INDAGINI GENETICHE: QUANDO E PERCHE

Транскрипт:

1000 genomes

Varianti del genoma umano dbsnp 132 30,442,771 SNP (1% del genoma) Varianti strutturali (DGV) CNVs: 66741 Inversioni: 953 InDels (100bp-1Kb): 34229 Total CNV loci: 15963 35% del genoma

Obiettivi Catalogazione delle variazioni genetiche umane Caratterizzare più del 95 % delle varianti con frequenza allelica superiore all 1 % (0,1 % a livello esonico) in cinque dei maggiori gruppi etnici Individuazione di brevi indels e più ampie varianti strutturali Definizione di aplotipi e genotipi dei singoli soggetti Fornire linee cellulari dei campioni Diffusione pubblica e rapida dei dati Fornire una risorsa per il supporto di studi GWAS (e di associazione in genere) in varie popolazioni

Progetto pilota Sequenziamento a bassa copertura (2-6x) del genoma di 179 individui 59 Youruba dalla Nigeria (YRI) 60 persone con antenati europei dallo UTAH (CEU) 30 cinesi Han da Pechino (CHB) + 30 giapponesi da Tokyo (JPT) Sequenziamento ad alta copertura (in media 42x) di 6 individui in due gruppi familiari padre-madre-figlia 1 famiglia CEU 1 famiglia YRI Sequenziamento esonico di 8140 esoni (906 geni, 1,4 Mb) in 697 individui (7 popolazioni: YRI, LWK, CEU, TSI, CHB, JPT, CHD) (copertura >50x)

Metodi 1. Campioni di DNA da linee linfoblastoidi (vario numero di passaggi) fornite dal Coriell Institute Mancanza di dati fenotipici Nello studio pilota campioni per i quali erano disponibili dati riguardo gli SNP e le CNV Figlie nei trii con estensivi dati genomici preesistenti 2. Next-Generation-Sequencing 3. Analisi dei dati (vari algoritmi) 4. Pubblicazione dei dati 5. Validazione dei risultati (analisi comparative, sequenziamento, PCR, SNP-array,array-CGH, ecc.) 6. Pubblicazione dei risultati

Metodi: NGS

Workflow 1. Scoperta delle varianti (dopo allineamento delle reads al genoma di riferimento NCBI 36/hg18) 2. Filtraggio per la rimozione dei falsi positivi 3. Genotipizzazione (alleli presenti in un individuo ad un dato sito) Imputazione del genotipo (Aplotipi e Linkage Disequilibrium) 4. Validazione (stima del false discovery rate) 5. Pubblicazione dei dati su www.1000genomes.org e sul dbsnp (www.ncbi.nlm.nih.gov/snp)

Metodi: NGS

Programmi e algoritmi

Imputazione del genotipo

Imputazione del genotipo Incremento dell efficienza dei GWAS Mappaggio fine delle varianti causali Meta-analisi Imputazione di varianti non tipizzate nel pannello di riferimento Imputazione di varianti non-snp Recupero di genotipi mancanti e correzione degli errori di genotipizzazione nell analisi dei chip.

Disegno sperimentale

Exon pilot Alta sensibilità per le varianti rare Individuazione di un maggior numero di varianti nuove e a bassa frequenza

Problematiche tecniche Etereogeneità dei metodi di sequenziamento 3 piattaforme: 454 Roche Genome Sequencer FLX System; Illumina Genome Analyser ABI SOLiD system Differente lunghezza delle reads (25 bp 400 bp) Single- o Paired-end Dati derivati da paired-end reads: 78 % low-coverage, 80 % trio, 56 % exon Evoluzione delle tecnologie e delle metodiche

Miglioramenti tecnici Base quality scores ricalibrati Reallineamento locale di tutte le reads, considerando un eventuale presenza di indels Analisi dei dati con diversi algoritmi e unione dei risultati Assemblaggio de novo: risoluzione dei punti di rottura delle delezioni più grandi di 50 bp raddoppiato il numero delle varianti strutturali (>1 kb) delineate alla risoluzione di 1 singola base identificazione di 3,7 Mb di sequenza non presenti nel genoma di riferimento

Confronto delle metodiche di identificazione degli SNPs: Gli SNP identificati da due o più hanno il 30% in meno di errori rispetto a quelli identificati da una sola metodica

Genoma accessibile Porzione del genoma di riferimento rimanente dopo l esclusione di regioni con reads localizzate in maniera ambigua o con un numero inaspettatamente alto o basso di reads allineate Low-coverage: 85 % del genoma di riferimento (NCBI36, hg18), 93% delle sequenze codificanti, >99% dei siti HapMapII. Non presente ~1/4 del DNA riprtitivo e delle duplicazioni segmentali Trio: 80 % del genoma di riferimento, 85% delle sequenze codificanti, 97% dei siti HapMapII

Ensembl Human Assembly Assembly GRCh37.p2 Paia di Basi 3.279.005.676 Ultima modifica Oct 2010 Conteggio geni Geni noti codificanti per proteine 21.077 Nuovi geni codificanti per proteine 521 Pseudogeni 12.957 Geni x RNA 8.475 Esoni 579.333 Trascritti 157.480 Altro Predizioni geniche Genscan 44,224 Variazioni 23,340,186

Pilot study Generale (hg18) Non-N autosomal bases 2681301101 3095677412 LINE 21.35% 20% SINE 13.90% 13% LTR 9.03% 8% DNA transposons 3.46% 3% Simple_repeat 0.89% Low_complexity 0.59% 4% Satellite 0.38% 4% all repeats 49.86% 54% SegDups 4.87% HapMap2 0.14% all genes 35.85% 31% all exons 2.42% 2%? coding genes 31.35% 27% coding exons 2.00% 1,2%

Overview varianti identificate

Varianti identificate Trio project Low-coverage project Exon project Campioni 6 179 697 Dati grezzi 1,08 Tb 2,22 Tb 1,43 Tb Coverage 42x 3,6x 56x Genoma accessibile 2,3 Gb 2,4 Gb 1,4 Mb SNPs trovati % nuovi 3,6 milioni (CEU) 4,5 milioni (YRI) 11% (CEU) 23% (YRI) 14,9 milioni 12,758 54% 70% Brevi indel (1-50 bp) 680.000 1,3 milioni 96 Varianti strutturali 14.000 20.000 nd

Validazione False discovery rate (FDR) <5 % per SNP e brevi indel, <10 % per varianti strutturali FDR per le nuove varianti 2,6 % per SNP del trio project 10,9 % per SNP del low coverage project 1,7 % per indel del low coverage project Variazioni non equamente distribuite Alta frequenza nelle regioni HLA e subtelomeriche Bassa frequenza in regioni altamente conservate (es.3p21) Varianti strutturali causate da NAHR più frequenti a livello di regioni HLA e subtelomeriche

Distribuzione delle varianti

Distribuzione SNP per popolazione

Distribuzione delezioni per popolazione

Tipologia delle nuove varianti

Distribuzione delle varianti nuove

Capacità di individuare varianti Il numero delle varianti scoperte è massimizzato dal sequenziare il maggior numero di genomi a bassa copertura Tipo e Frequenza Sensibilità SNP singleton 25% SNP >5/120 90% SNP >10/120 100% Del (>500bp) singleton 40% Del (>500bp) >10/120 90% Indel >10/120 70 Ins. elementi mobili 75 Dup. comuni 30-40%

DNA Mitocondriale 163 campioni nel progetto low-coverage (analizzati manualmente) revised Cambridge Reference Sequence Variazioni del DNA mitocondriale rientrano in pattern filogenetici ben definiti 85,9 % di individui con eteroplasmia, soprattutto a livello delle regioni ipervariabili HSV1, HSV2 ed HSV3 Eteroplasmia di lunghezza nel 79 % dei casi (soprattutto nella regione di controllo) vs 52 % mediante sequenziamento con elettroforesi capillare Eteroplasmia da sostituzione di singole basi nel 45 % degli individui, distribuita su tutto il genoma

Accuratezza nella genotipizzazione Maggiore accuratezza per i siti presenti nell HapMap3 Accuratezza per SNP varia fra i vari progetti Low coverage project: errori di genotipizzazione SNP 1-3% Errori di genotipizzazione ampie delezioni <1% Utilità nell utilizzare informazioni di LD oltre ai dati del sequenziamento Accuratezza a livello dei siti di eterozigosi Tipo Frequenza Accuratezza SNP bassa 90% SNP intermedia 95% SNP alta 70-80% Del MAF <3% 86% Del MAF ~50% 97% Del MAF >90% 83%

Accuratezza nella genotipizzazione (delezioni)

Accuratezza in funzione della read depth

Varianti funzionali Effetti della selezione negativa Tipo di varianti codificanti % limitate ad una singola poplazione % presenti in un singolo individuo Non-sinonime 67,3 15,8 Stop-introducing 77,3 25,9 Splice-disrupting 82,2 21,6 HGMD 84,7 19,9 Sinonime 61,1 11,8

Varianti geniche Tipo 1000 genomes totali 1000 genomes nuovi dbsnp v.131 1000 genomes X individuo SNPs totali 15.275.256 55% 30,442,771^ 3 milioni SNPs sinonimi 60.157 23.498 108.137 11.000 SNPs non-sinonimi 68.300 34.161 174.611 10.000 Indel in frame 714 383 nd 50-200 Codoni di stop prematuri 77 40 7.113 80-100 Perdita codoni di stop 1057 755 nd 10 Alterazione sito di splicing 517 399 1.926* 30-50 Frameshift indels 954 551 31.416 30-40 Delezioni geniche 147 71 na Geni con varianti LOF 2304 nd >12.196 300 Mutazioni HGMD 671 nd na 50-100 ^ dal dbsnp 132; *dal dbsnp 129

Mutazioni causanti malattia Individuate 671 (1,3%) delle 50361 varianti riportate nell HGMD-DM Alcune categorie di patologie maggiormente rappresentate

Importanza del numero di campioni Utilizzando campioni sequenziati ad alta copertura sarebbero necessari: 100 campioni per identificare il 99% delle varianti sinonime di un individuo 250 campioni per trovare il 99% delle varianti non sinonime 320 campioni per trovare il 97,4% delle varianiti LOF Utilizzando campioni sequenziati a bassa copertura sarebbero necessari: 250 campioni per identificare il 99% delle varianti sinonime 320 campioni per trovare il 98,5% delle varianti non sinonime e il 96,3% delle varianti LOF

Applicazione agli studi di associazione Alternative possibili nel definire varianti associate a determinati tratti o patologie: Sequenziamento diretto di ampie coorti a fenotipo noto Imputazione delle varianti in campioni genotipizzati mediante l utilizzo di un pannello di riferimento di soggetti sequenziati

Individuazione eqtl Confronto del numero dei cis-eqtls trovati da Stranger et al. 2007 e individuabili mediante l utilizzo dei dati del progetto low-coverage, su 142 soggetti in comune fra i due studi Population Genotype Set Sample Size 317K 610K 1M 1000G CEU 43 321 375 420 522 YRI 42 504 273 345 518 CHB+JPT 59 759 893 968 1154 ALL 144 1052 1266 1428 1872 N.B.: Incremento maggiore negli YRI (+varianti nuove, -LD)

Accuratezza dell imputazione

Imputazione nello studio degli eqtl: esempio Studio su 400 bambini con antenati europei (Dixon et al. 2007) Dati da low-coverage panel e HapMapII come pannelli di riferimento per l imputazione Maggiore capacità di imputazione per varianti con frequenza >10% Incremento cis-eqtl individuati: Low-coverage: 16% HapMap: 9% Individuazione di varianti addizionali che possano essere alla base di ciascuna associazione Es.: trovata una variante di un sito di splicing del gene GSDMB in LD con uno SNP vicino al gene ORMDL3, precedentemente associato ad alcune malattie immuno-mediate

Imputazione nello studio degli eqtl: esempio

Ruolo delle varianti non sinonime nella determinazione dei tratti complessi Catalogo NHGRI GWAS riporta 1227 SNP associati con uno o più tratti fenotipici 1185 (96,5 %) di questi presenti nel data set CEU del progetto low coverage Meno del 30% annotate come varianti non sinonime (6,5%) o in LD con varianti non sinonime La maggior parte del contributo delle varianti comuni all espressione di tratti complessi sembrerebbe di natura regolatoria

Mutazioni de novo SNP SNP CNV Delezioni Duplicazioni Frequenza di mutazione locus-specifica Numero medio di sostituzioni nucleotidiche per individuo Frequenza di mutazione locus-specifica Numero medio di eventi per individuo Numero medio di eventi per individuo 1,8-2,5x10-8 ~30 1,7x10-6 -1,2x10-4 1/8 1/50 Van Ommen 2005 Lupski 2007

Mutazioni de novo Frequenza di mutazione per base per generazione 1.2 x 10-8 in CEU (49 mutazioni) 1.0 x 10-8 in YRI (35 mutazioni) Una quota rilevante (~95%) delle potenziali mutazioni de novo erano in realtà mutazioni somatiche o delle linee cellulari 1 mut. germinale codificante sinonima vs 17 mut. non germinale (1 sinonima e 16 non sinonime) Mutazioni non germinali stimate: 0,36 % di tutte le varianti nello studio low coverage 0,61% delle varianti funzionali nello studio low coverage 2,4 % di tutte le varianti nello studio exon 3,1% delle varianti funzionali nello studio exon

Utilità nello studio delle popolazioni Misura delle differenze fra le varie popolazioni Differenze fissate fra popolazioni 2 fra CEU e CHB+JPT (es. SLC24A5 var. missenso) 4 fra CEU e YRI 72 fra CHB+JPT e YRI Indentificate 139 varianti non-sinonime con ampie differenze nelle frequenze alleliche fra le popolazioni Presenza di varianti altamente differenziate Fra i siti più differenziati c è una maggiore quota di varianti non sinonime Mappaggio fine del selective sweep e analisi delle dinamiche di adattamento locale

Valutazione delle differenze nelle frequenze alleliche fra le popolazioni

Aumentata risoluzione dei confini degli hotspot di ricombinazione Ampiezza media degli hotspot ridotta a 2,3 kb rispetto alle 5,5 kb stimate dal progetto HapMapII

Distribuzione genomica degli hotspot di ricombinazione in varie popolazioni Differenze degli YRI: Quota di ricombinazione a livello degli hotspot inferiore negli YRI rispetto alle altre popolazioni Distribuzione degli hotspot meno concentrata negli YRI (70% degli hotspot, invece che 80%, nel 10% del genoma) Differenze di lunghezza nel dominio Zinc-finger del gene PRDM9, che influenza gli eventi di ricombinazione intorno gli hotspot

Riduzione della differenziazione tra popolazioni nelle vicinanze di SNP con rilevanti differenze alleliche tra le popolazioni

Valutazione degli eventuali effetti mutagenici della ricombinazione NO aumento della variazione degli SNP localizzati in prossimità dei motivi di legame di PRDM9, in corrispondenza dei siti con aumentata frequenza di ricombinazione La ricombinazione può influenzare il destino di una nuova mutazione ma non influenza la frequenza con cui appaiono le nuove mutazioni

Limiti dello studio Bassa sensibilità per le varianti rare Rumore di fondo nella stima delle frequenze alleliche Alcuni falsi positivi Raccolta dati fra campioni, piattaforme e popolazioni non casuale Utilizzo di genotipi imputati

Incremento degli SNP nel dbsnp Build 129 (aprile 2008) 14,708,752 Build 130 (maggio 2009) 17,804,034 Build 131 (aprile 2010) 23,653,737 Build 132 (settembre 2010) 30,442,771

Conclusioni Esistenza di robusti protocolli per la generazione di dati dal NGS Validazione degli algoritmi per l individuazione delle varianti e la definizione accurata dei genotipi Sequenziamento low-coverge fornisce un efficiente approccio per identificare varianti in tutto il genoma Sequenziamento targeted high-coverge permette una migliore definizione delle varianti di interesse funzionale Utilità dei dati ottenuti: Migliore comprensione della variabilità genetica umana Studi GWAS (imputazione, genotyping chip) Implicazioni per la genetica di popolazione

Progetto 1000 genomes completo 2500 soggetti totali (31 popolazioni) Sequenziamento low-coverage dell intero genoma Coverage >4x Sequenziamento high-coverage di tutte le regioni codificanti Genotipizzazione mediante array (<10 milioni di varianti dal progetto low-coverage)

Miglioramenti metodologici Miglioramento delle tecniche di sequenziamento Aumento del numero dei campioni Sviluppo di algoritmi più efficienti Contemporanea genotipizzazione con chip Incremento del genoma accessibile Incremento atteso della quota di genoma accessibile in funzione della lunghezza delle read e degli inserti

Risultati attesi Individuazione delle seguenti percentuali di varianti: Progetto low-coverage 95% con MAF >1% nei 5 principali gruppi etnici 90-95% con MAF >1% in ciascuna popolazione studiata 85% con MAF >1% in popolazioni strettamente correlate a quelle studiate Progetto esoni 95% con MAF 0,3% 60% con MAF 0,1%

Metodi: genotipizzazione

Cromosoma Y

Meccanismi di formazione delle SV

Accuratezza nella genotipizzazione