Il sequenziamento del DNA Si può ottenere la massima informazione sulla struttura di una molecola di DNA determinandone la sequenza nucleotidica completa Il sequenziamento del DNA è una componente irrinunciabile di praticamente qualunque tecnica di manipolazione genica Determinare la sequenza di una particolare regione di DNA può rappresentare un fine già di per sé (ad esempio se si voglia studiare una mutazione ereditaria) Ancora più importante è il fatto che le informazioni ottenute tramite il sequenziamento sono la base indispensabile per la messa in atto di qualsiasi procedura di manipolazione del DNA La conoscenza delle proprietà chimico-fisiche degli acidi nucleici ha reso possibile la messa a punto di due tecniche per la determinazione della sequenza del DNA L obiettivo principale della maggior parte dei progetti del genoma èdi determinare la sequenza del DNA dell intero genoma o quella di un numero elevato di trascritti Progetti di sequenziamento completo del genoma Microrganismi organuli >600 virus, >10 archaea, >50 batteri e diversi viroidi, plasmidi, e 24 genomi di organuli (completi) S. cerevisiae (completo) Animali Piante superiori Choenorhabditis elegans (in corso) Drosophyla melanogaster (in corso) Mus musculus (completo) Homo sapiens (completo) Arabidopsis thaliana (completo) Oryza sativa (completo) Medicago truncatula (in corso) 1
Le prime procedura per il sequenziamento del DNA vennero messe a punto da Maxam e Gilbert nel 1977 Basato sul trattamento con reagenti chimici capaci di degradare una molecola di DNA in corrispondenza di specifici nucelotidi Nel 1981 Sanger e collaboratori: Metodo Sanger o metodo dideossi Basato sulla sintesi enzimatica di molecole di DNA che terminano in corrispondenza di specifici nucelotidi Per entrambi i metodi la visualizzazione della sequenza avviene per elettroforesi in gel ad altissima risoluzione (si devono separare frammenti che differiscono per un singolo nucleotide) L idea che sta alla base del metodo Sanger è di produrre tutte le possibili molecole di DNA a filamento singolo, complementari a una sequenza stampo, che inizia con una base e che si estende fino a una di stanza di 1 kb in direzione 3. Reazione di polimerizzazione che si arresta specificamente dopo ogni G oppure dopo ogni A o T o C. L arresto specifico si ottiene aggiungendo alla reazione di polimerizzazione dei dideossinucleotidi trifosfati (ddntp) 2
In pratica si parte da una popolazione numerosa di molecole di DNA identiche ottenute per amplificazione enzimatica o batterica (E. coli) Prevede l uso di un primer complementare ad una sequenza terminale del frammento prodotto per PCR o ad una sequenza del DNA plasmidico adiacente al frammento clonato da sequenziare La reazione è catalizzata dalla DNA polimersai in direzione 5-3 a partire dall ossidrile contenuto nel primer e richiede i 4 nucleotidi (datp, dttp, dctp, dgtp) come precursori Il sequenziamento necessita anche di uno stampo di DNA e 4 differenti reazioni di sintesi in ciascuna delle quali c è un diverso ddntp Siccome la DNA polimerasi non è in grado di discriminare tra il ddntp e il corrispondente dntp ognuno dei possibili nucleotidi può essere inserito nella catena di DNA in allungamento 3
La separazione delle molecole in base alle loro dimensioni, ottenuta tramite elettroforesi, origina una serie di bande, ciascuna delle quali corrisponde a una classe di molecole che differisce per un nucleotide in più rispetto alla banda successiva Perché non ci sono due o più frammenti di una determinata lunghezza? Perchè il primer utilizzato è complementare soltanto alla sequenza che ci interessa (è progettato in modo da essere specifico) Direzione elettroforesi Direzione lettura A T C G 4
Risultato della corsa elettroforetica di un sequenziamento Evoluzione della tecnica Primers marcati con fluorocromi differenti ddatp ddctp ddgtp A AC ACG ddttp ACGT Le 4 reazioni possono correre insieme 5
Terminatori marcati ddatp ddctp ddgtp A AC ACG ddttp ACGT PCR Incorporazione dei terminatori marcati denaturazione appaiamento Miscela di reazione A C G T A C G T Prodotti marcati A C G T A estensione A C G T G A C G T 6
CCD Camera Laser Scanner Plates with acrylamide gel Elettroforesi capillare capillare Laser Camera CCD Buffer + _ 7
CCD (Chip Colour Detection) camera Lettura dei tracciati La lettura dei tracciati grezzi (non elaborati) viene anche detta identificazione delle basi (base-calling) è oggi effettuata tramite software che leggono automaticamente le basi, allinea le sequenze simili e fornisce una base intuitiva per la correzione di bozze (editing) 8
Mentre leggono i tracciati, i software assegnano punteggi di probabilità all accuratezza di identificazione di ciascuna base e le informazioni ottenute vengono usate nei passaggi successivi della procedura di allineamento errori Gli errori di sequenziamento possono essere provocati da problemi molto frequenti: Le prime 50 basi di una lettura sono indistinguibili dal rumore di fondo a causa della migrazione anomala di brevi frammenti di DNA che contengono agglomerati di coloranti 9
errori Inoltre i tracciati diventano progressivamente meno uniformi con l avanzare della corsa: aumentano gli effetti della diffusione molecolare e contemporaneamente diminuiscono le differenze relative di massa tra frammenti successivi Assemblaggio dei contig Lo stadio di rifinitura nel sequenziamento di un tratto di DNA più lungo di un singolo clone comprende l allineamento, il controllo e la correzione degli errori Questi passaggi sono in genere eseguiti con software di controllo delle sequenze (esempio il pacchetto Vector NTI) Le caratteristiche fondamentali sono: 1 - La capacità di visualizzare i tracciati di sequenze comparate tra di loro, di navigare tra di essi e segnalare con precisione le ambiguità (Conting express) 10
2 una visibilità facile e immediata del filamento complementare 3 gli strumenti per correggere manualmente la sequenza, come ad es. la possibilità di inserire o eliminare basi senza alterare in modo significativo i file dei tracciati originali 4 la capacità di individuare eventuali siti polimorfici 11
Il software produce, quindi, un interfaccia grafica che permette di richiamare e correggere in maniera interattiva le singole letture di contig Il compito finale di un programma di controllo delle sequenze è di aiutare a risolvere le lacune e le ambiguità 12
We sequenced 6 colonies for each RACE experiments We aligned the sequences by using the software VECTOR NTI The coding regions were mostly similar But..the 5 and 3 UTRs of some colonies were different This let us believe that for some genes we obtained more alleles at the same time 13
Also intriguing was the fact that the few differences were at the restriction sites of fragments... Mse-I Restriction site Sequenziamento del genoma Le sequenze dei cromosomi interi vengono ricostruite a partire dalle sequenze di centinaia di migliaia di frammenti di DNA, normalmente di lunghezza compresa fra 500 e 800 pb Si usano 2 strategie generali per la frammentazione e la ricostruzione: Il sequenziamento gerarchico Il sequenziamento a rosa di pallini (shotgun) Le due strategie sono reciprocamente complementari 14
Differenze: Nel sequenziamento gerarchico il prmo passaggio è quello di costruire un sentiero principale (tiling path) che serva ad assicurarsi che la sequenza sia ottenuta in grandi pezzi ordinati tra di loro Mentre nel metodo shotgun frammenta semplicemente il genoma in piccole unità sequenziabili e si affida ad algoritmi del computer per ricostruire l ordine dei frammenti Sequenziamento gerarchico (genoma umano) Le strategie gerarchiche conosciute anche come dall alto in basso (topdown), basate su mappe o clone per clone sono state ideate alla fine degli anni 80 quando i reagenti erano molto costosi e i computer non erano ancora abbastanza potenti per elaborare sequenze intere ottenute con lo shotgun Metodologia: frammentare il genoma in unità sempre più piccole le cui posizioni relative sono conosciute prima di iniziare il sequenziamento Vantaggi: favorisce la ricostruzione di mappe fisiche e genetiche ad alta risuluzione e permette a gruppi di lavoro di tutto il mondo di formare consorzi e lavorare insieme senza rischiare di ripetere le stesse ricerce (un gruppo = un cromosoma) 15
Il primo passaggio è quello di ottenere cloni del genoma umano di dimensioni comprese tra 50 e 200 kb I vettori in cui è possibile inserire tratti genomici di grandi dimensioni sono i BAC i PAC (derivati dal fago P1) Si costruiscono librerie di DNA tramite digestione parziale o frammentazione del DNA genomico tramite sonicazione In genere si desidera un certo grado di ridondanza Questo perché i cloni in teoria dovrebbero avere estremità diverse e questo dovrebbe rendere possibile selezionare una impalcatura di cloni che formino una sequenza contigua comprendente l intero cromosoma un tiling path 16
È possibile ricostruire un tiling path mediante una combinazione di 3 metodi: Ibridazione: è possibile identificare rapidamente in una libraria tutti i cloni che contengono una particolare sequenza, ibridando una sonda di piccole dimensioni, marcata con isotopi radioattivi o molecole fluorescenti, e contenente la sequenza, a un filtro su cui è fissata una combinazione di decine di migliaia di cloni In seguito si può usare l estremità di questi cloni come sonda per individuare i cloni adiacenti in quello che viene denominato chromosome walking 17
Fingerprinting: il modo meno costoso e più efficace per ricostruire l ordine dei contig di grandi cloni inseriti nei vettori è quello di confrontarli tra loro e allinearli in base ai profili di digestione con enzimi di restrizione Se si usa un enzima esacutter, questo opererà un taglio ogni 4 kb: se sono usati per tagliare un BAC di 100 kb, producono a 20 a 30 frammenti. Questi possono essere separati tramite elettroforesi e, quindi, assegnati a gruppi dimensionali, dopo una adeguata normalizzazione statistica 18
End-sequencing=sequenziare le estremità della raccolta di cloni BAC. Modo comune per identificare i cloni che si sovrappongono alle lacune rimanenti dopo il fingerprinting Una volta raggiunta una soglia critica di ricostruzione della sequenza, vi è una probabilità elevata che almeno un BAC si trovi all interno di una regione già ricostruita: di conseguenza l altra estremità del clone si estenderà nella lacuna o si collegherà ad un contig adiacente Il sequenziamento a una estremità è inoltre un componente importante delle tecniche usate per verificare la correttezza della ricostruzione delle sequenze. Tornando al sequenziamento gerarchico. Una volta scelto il tiling path, i singoli cloni BAC sono suddivisi in piccoli frammenti, che sono clonati a loro volta per il sequenziamento automatico La frammentazione viene fatta con ultrasuoni e questo assicura che ogni frammento abbia estremità diverse dagli altri 19
Sequenziamento shotgun Nel sequenziamento shotgun si usano algoritmi del computer per ricostruire la sequenza dei contig derivati da migliaia di cloni sovrapposti. I contig sono prodotti da una libreria plasmidica costruita a partire da un unico genoma intero Come nel sequenziamento gerarchico lo scopo è quello di ottenere una ridondanza di ciascun frammento del genoma da 5 a 10 volte L allineamento serve per ottenere l assemblaggio delle sequenze contigue di cloni, ma anche per migliorare l accuratezza della sequenza, tramite la produzione di una sequenza consenso Ad esempio nel genoma umano la Celera ha utilizzato 5 algoritmi con l obiettivo di riunire insieme il più possibile le parti dell unica sequenza sovrapponendo tra loro le sequenze parziali Così facendo le uniche lacune che restano sono quelle dovute a DNA ripetitivo o a sequenze non rappresentate nella libreria 20
Sequenziamento di interi genomi Frammento cromosomico sequenziato DNA genomico Frammentazione Assemblaggio dei frammenti sequenziati contigui (Software appositi) Clonaggio in vettori Sequenziamento 21
Verifica delle sequenze La veridicità di qualunque sequenza di un intero genoma deve essere valutata a tre livelli: la completezza, l accuratezza della sequenza di basi e la validità della ricostruzione. Completezza: in genere i microrganismi (così pure l uomo, il riso, arabidopsis e il topo) sono stati sequenziati per intero Possono contenere comunque lacune difficili da colmare (di circa 1 kb). Questo può essere dovuto a sequenze ripetute difficili da colmare o al fatto che il sequenziamento è stato effettuato partendo da individui diversi per cui potrebbero esserci polimorfismo dovuti a indel o a duplicazioni Accuratezza: l accuratezza è stabilita in punteggi di probabilità Validità della ricostruzione: non è facilmente determinabile: è possibile averne un idea approssimativa misurando al coerenza interna della sequenza, oppure paragonando la ricostruzione con mappe genetiche o fisiche preesisteti o fatte all uopo. 22
Chromosome painting con cloni BAC 12.7 Mb CEN 14.4 Mb Condizioni di Painting 1. Chromosoma 1 di Arabidopsis thaliana 2. Un totale di 183 cloni BAC del chr-1 3. BAC dal braccio superiore (12.7 MB) marcati con biotin-dutp (rosso) 4. BACs dal braccio inferiore (14.4 MB) marcati con digoxygenin-dutp (verde) FISH painting del cromosoma 4 con 131 BAC 23
WS (knob)? C24 (knobless) * F9H3 F4C21 24