LA GENOMICA SYSTEM BIOLOGY



Documenti analoghi
SEQUENZIAMENTO DEL DNA

La possibilita di conoscere i geni deriva dalla capacita di manipolarli:

SAGE: Serial Analysis of Gene Expression

I marcatori molecolari. Dipartimento di Scienze Agronomiche e Genetica Vegetale Agraria Corso di Genetica Agraria Giovanna Attene

MANIPOLAZIONE GENETICA DEGLI ANIMALI

Il genoma dinamico: gli elementi trasponibili

Polimorfismi LEZIONE 6. By NA 1

Come si traccia un alimento di origine animale? Dalle lasagne con carne di cavallo. alla realtà di ogni giorno

Analisi Molecolare di sequenze di acidi nucleici

ANALISI POST-GENOMICHE TRASCRITTOMA: CONTENUTO DI RNA DI UNA CELLULA.

PCR. PCR o reazione di polimerizzazione a catena. Amplificazione esponenziale di DNA. Puo amplificare un tratto di DNA per piu di 1 milione di volte

Definizione di genoteca (o library) di DNA

Strutturazione logica dei dati: i file

Dal DNA all RNA. La trascrizione nei procarioti e negli eucarioti

La reazione a catena della polimerasi (PCR) di Ofelia Leone e Vincenzo Mandarino

Alberto Viale I CROMOSOMI

GENOMA. c varia da pochi kb nei virus a milioni di kb in piante e animali

LE MOLECOLE INFORMAZIONALI. Lezioni d'autore Treccani

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

Analisi molecolare dei geni

Come funzionano gli oligo Antisenso? RNA WORLD. mrna. Regolare l espressione genica tramite molecole di RNA. Come funzionano gli oligo antisenso?

TEORIA CROMOSOMICA : ALLEGATI

Organizzazione del genoma umano II

Isolamento e purificazione di DNA e RNA. -Separare gli acidi nucleici da altri componenti cellulari (lipidi e proteine)

PROGETTO BIOFORM Corso didattico sperimentale. Esercizio. Tipizzazione del gene PV92

Vettori di espressione

immagine Biologia applicata alla ricerca bio-medica Materiale Didattico Docente: Di Bernardo

Genetica. Mendel e la genetica

DNA - RNA. Nucleotide = Gruppo Fosforico + Zucchero Pentoso + Base Azotata. Le unità fondamentali costituenti il DNA e l RNA sono i Nucleotidi.

Tratto dal libro Come vivere 150 anni Dr. Dimitris Tsoukalas

La trasmissione dei caratteri ereditari. Le leggi di Mendel ( )

immagine Biologia applicata alla ricerca bio-medica Materiale Didattico Docente: Di Bernardo

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Capitolo 2 Caratteristiche delle sorgenti luminose In questo capitolo sono descritte alcune grandezze utili per caratterizzare le sorgenti luminose.

LA GENETICA: DNA e RNA LA GENETICA. DNA e RNA. Prof. Daniele Verri

Nuovi ruoli dei telomeri e della telomerasi

Figura 1. Rappresentazione della doppia elica di DNA e struttura delle differenti basi.

Dal DNA alle proteine: La trascrizione e la traduzione

Dopo aver effettuato la PCR, all interno della soluzione oltre al tratto amplificato sono presenti: primers, dntps, Taq polimerasi e tampone di

Indice dell'opera. Prefazione. Capitolo 1 Introduzione alla genetica Genetica classica e moderna Genetisti e ricerca genetica Sommario

Analisi e diagramma di Pareto

GENETICA seconda parte

Lo sviluppo del cancro è un processo complesso che coinvolge parecchi cambiamenti nella stessa cellula staminale. Poiché tutte le cellule staminali

Laboratorio di Tecniche Microscopiche AA Lezione 12 Marzo 2008 Ore 15-16

COME VIENE REALIZZATA UNA RICERCA SPERIMENTALE IN BIOLOGIA MOLECOLARE?

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Database. Si ringrazia Marco Bertini per le slides

Genova TIPOLOGIE DI LAMPADE

RNA polimerasi operone. L operatore è il tratto

Plasmidi come vettori di clonaggio

Mutagenesi: introduzione di alterazioni in una sequenza nucleotidica. Mutagenesi random: le mutazioni avvengono a caso su un tratto di DNA.

Spettrometria di massa

Biosintesi non ribosomiale di metaboliti peptidici bioattivi

Il mercato di monopolio

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

Elementi di Psicometria con Laboratorio di SPSS 1

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

MUTAZIONI ED EVOLUZIONE

Funzioni in C. Violetta Lonati

Parte I. Prima Parte

La regolazione genica nei eucarioti

PRINCIPALI TIPI DI PCR a) PRINCIPALI TIPI DI PCR b)

Automazione Industriale (scheduling+mms) scheduling+mms.

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

Progetto della classe II C

Funzioni funzione dominio codominio legge argomento variabile indipendente variabile dipendente

Introduzione all analisi dei segnali digitali.

SINTESI DELL RNA. Replicazione. Trascrizione. Traduzione

Regole della mano destra.

Prof.ssa Gamba Sabrina. Lezione 7: IL DNA. Duplicazione e sintesi delle proteine

= femmina. = maschio. = fenotipo banda bianca. = fenotipo pezzato. =fenotipo colore uniforme

Transitori del primo ordine

TECNICHE DI SIMULAZIONE

Linkage. Lezione 4 (riprendere il testo di Genetica ) By NA

Corso di. Dott.ssa Donatella Cocca

Il flusso dell informazione genetica. DNA -->RNA-->Proteine

Sistemi di tracciabilità per un attestato di identità molecolare. FEM 2 - Ambiente S.r.l. Spin-off dell Università degli Studi di Milano-Bicocca

Traduzione e adattamento a cura di Gylas per Giochi Rari

Nei sistemi modello approcci di modificazione genetica che producono o sequenze genetiche alterate o espressione genetica alterata fenotipo alterato.

Soluzione dell esercizio del 2 Febbraio 2004

Il database management system Access

I CIRCUITI ELETTRICI. Prima di tutto occorre mettersi d accordo anche sui nomi di alcune parti dei circuiti stessi.

Classificazione dei Sensori. (raccolta di lucidi)

CHIMICA COMBINATORIALE

Più processori uguale più velocità?

I documenti di Gli ingredienti per l allenamento per la corsa LE RIPETUTE

Base di lavoro. Idea principale

La genetica è la disciplina che si occupa della trasmissione dei caratteri ereditari Si divide in:

11. Evoluzione del Software

( x) ( x) 0. Equazioni irrazionali

4 3 4 = 4 x x x 10 0 aaa

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

Il rischio cancerogeno e mutageno

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

Il sistema monetario

SOLUZIONI AI PROBLEMI DEL CAPITOLO 20

L adattamento dei batteri. Strategie di adattamento

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1

Amplificatori Audio di Potenza

Transcript:

LA GENOMICA Lo scopo della genomica funzionale è quello di capire la funzione dei geni e delle altre parti del genoma. Molte altre informazioni possono arrivare dalla genomica comparata, che consiste nel confrontare genomi di diversi organismi per tentare di capire la funzione dei geni, per esempio confrontando il genoma di topo con quello umano è possibile ipotizzare la funzione di alcuni geni umani basandosi sulla funzione dei loro omologhi in topo. La genomica fa parte, con la trascrittomica, la proteomica e la metabolomica, delle cosiddette tecniche omiche, e viene utilizzata sia per trovare il ruolo e il funzionamento di un singolo gene all interno della cellula, sia per studiare interi genomi. I problemi collegati alla genomica sono: La necessità di infrastrutture e macchinari molto costosi, i macchinari inoltre hanno tendenzialmente una vita media molto corta e così gli istituti cercano di farli lavorare il più possibile Centinaia di persone richiedono di accedere a queste infrastrutture C è bisogno di integrazione tra diverse discipline, ricercatori e teorici devono collaborare per aumentare le conoscenze. Genoma, Trascrittoma, Proteoma, Metaboloma Il genoma rappresenta tutto il materiale genetico endogeno della cellula e dei suoi organelli, è indipendente dall ambiente della cellula, cioè resta uguale in tutte le cellule di un organismo e in ogni condizione ambientale e viene analizzato tramite sequenziamento sistematico del DNA. Il trascrittoma rappresenta invece l intero set di mrna presente in una cellula, ovvero rappresenta l insieme di geni che viene trascritto in un determinato momento. Ovviamente il trascrittoma è contestodipendente, e può essere analizzato tramite SAGE, array di ibridazione, Il proteoma rappresenta il set completo di proteine in una cellula; è anch esso contesto dipendente e può essere analizzato tramite analisi su gel in 2D, peptide mass fingerprinting e analisi di doppio ibrido. Infine il metaboloma è l insieme di tutti i metaboliti presente in una cellula, contestodipendente e analizzabile tramite spettrometria di massa o NMR. Bioinformatica La bioinformatica consiste nel descrivere con regole e algoritmi matematici, modelli di organismi viventi. L uso dell information technology permette di acquisire, immagazzinare, condividere, analizzare e mostrare un gran numero di informazioni biologiche complesse e in questo modo la bioinformatica è diventata essenziale nello studio dei genomi per poter analizzare una quantità di informazioni così grande. Grazie all apporto dato dalla bioinformatica si sta ora assistendo ad un passaggio della biologia da osservazione dei sistemi naturali a predizione di come si evolveranno questi sistemi in opportune condizioni. Per comprendere un sistema biologico bisogna considerare l apporto fornito ad esso da una serie di fattori, che vanno dalle molecole all ecosistema in cui si trova. Gli studi di bioinformatica si sviluppano a partire dalla raccolta di dati che riguardano tutti gli aspetti della cellula, ovvero sul genoma, trascrittoma, proteoma e metaboloma. SYSTEM BIOLOGY La system biology è la scienza dello scoprire, ridurre a modello, capire e infine intervenire a livello molecolare sulle relazioni dinamiche tra le molecole biologiche che definiscono gli organismi viventi (Leroy Hood). Questa scienza è quindi una via per capire un sistema biologico in toto,

studiandone i geni, gli mrna, le proteine, i metaboliti, i loro rispettivi ruoli nella cellula e le loro concentrazioni (si passa quindi ad una scienza quantitativa). Con la system biology non si va più a osservare di volta in volta un singolo aspetto della vita di un organismo, ma si studia piuttosto l intero organismo vivente. Ad oggi tuttavia è impossibile fare studi su interi organismi, ma solo su parti di cellula. Lo scopo ultimo della system biology è quello di riuscire ad unire diverse percezioni di uno stesso sistema, permettendo, per esempio, anziché di creare mutanti finché si trova quello di interesse, di predire come dovrebbe essere il mutante che stiamo cercando e poi crearlo. In questa scienza quindi tutti i processi biologici vengono ridotti a modelli costituiti da complesse reti di contributi interconnessi. 2 TECNICHE DI SEQUENZIAMENTO Il sequenziamento del genoma è utile sotto diversi aspetti: Fornisce informazioni sui geni presenti Fornisce informazioni sulla struttura del DNA Permette di amplificare ogni frammento del genoma tramite PCR Permette analisi sul genoma di tipo bioinformatica Permette il riconoscimento di introni ed esoni Permette lo studio dell evoluzione dei genomi SEQUENZIAMENTO DI MAXAMGILBERT È stato, insieme al metodo di Sanger uno dei primi metodi di sequenziamento, tuttavia è passato in disuso in quanto è un metodo piuttosto complicato che non permette analisi di tipo high throughput. In questo metodo, il filamento di DNA da sequenziare deve essere purificato e marcato radioattivamente ad una estremità (generalmente si usa32p). Il campione di DNA da sequenziare viene denaturato in presenza di DMSO e viene diviso in quattro aliquote uguali, ciascuna delle quali viene trattata con dei reagenti chimici che ne causano la metilazione o la rottura in corrispondenza di basi specifiche (G, dimetilsolfato, A+G, acido formico, C, idrazina + cloruro di sodio, C+T, idrazina). Utilizzando i reagenti a basse concentrazioni si può fare in modo che i tagli non avvengano per ognuna delle basi, ma più raramente (idealmente, solo una volta per copia di frammento di DNA): in questo modo viene generata una serie di frammenti marcati (dalla fine della molecola al primo sito di taglio della stessa) di dimensione specifica i quali vengono separati tramite elettroforesi in base alla dimensione. A corsa ultimata il gel viene posto a contatto con una pellicola radiografica sulla quale lascia impressa la disposizione delle bande che riporterà i frammenti generati tramite i quali è possibile determinare l'ordine dei nucleotidi e quindi la sequenza di partenza. Il metodo di MaxamGilbert viene comunemente descritto come metodo chimico per differenziarlo dal metodo enzimatico di Sanger. SEQUENZIAMENTO DI SANGER O DEL TERMINATORE DI CATENA Si ha una miscela di reazione contenente i primer, il DNA, i dntp e un ddntp in rapporto 1:10 con il dntp corrispondente, in modo tale che la sintesi si interrompa quando si ha un incorporamento del ddntp. Inizialmente venivano allestite 4 miscele di reazione, una per ogni ddntp e al termine delle reazioni di replicazione il DNA veniva corso in elettroforesi e da questi 4 gel si poteva risalire alla sequenza del DNA di partenza. Ovviamente con questo metodo è impossibile sequenziare interi genomi e, alla fine degli anni 80, fu sviluppato un metodo di Sanger basato sull utilizzo di ddntp marcati con differenti fluorofori colorati (G=nero, A=verde, C=blu, t=rosso). In questo modo era possibile mettere tutti i ddntp all interno di una stessa miscela di reazione perché era possibile

distinguere i diversi nucleotidi incorporati sulla base del colore delle macchie del gel. Ad ogni modo anche con questo miglioramento la tecnica non era ancora utilizzabile per l analisi di high troughput data, in quanto comportava di dover fare ogni volta un gel per elettroforesi. Il passo seguente fu l introduzione di capillari in cui far correre il DNA al posto dei gel. Specie più piccolo corrono più velocemente di specie pesanti e in questo modo si ha una separazione del DNA basata sulla massa, rendendo questo metodo automatizzabile grazie alla possibilità di leggere la sequenza tramite un sensore che usa laser e fotocellule. Con questo metodo sono stati sequenziali i primi genomi, ovvero quello dell Haemophilus influezae, 1.83 Mb, quello di Saccharomyces cerevisiae, 12.05 Mb e quello di Escherichia coli, 4.64 Mb. Tuttavia, nonostante questa tecnica fosse automatizzabile, progetti di sequenziamento a larga scala hanno stimolato lo studio di metodi di sequenziamento alternativi più economici e veloci. PIROSEQUENZIAMENTO Il pirosequenziamento è una tecnica basata sul principio di sequenziamento tramite sintesi. Si differenzia dal metodo di Sanger poiché utilizza un metodo di rilevamento dei nucleotidi basato non su un terminatore di catena dideossinucleotidico ma sul rilascio di pirofosfato che avviene a seguito dell incorporazione dei nucleotidi. Le tecniche di sequenziamento basato sulla sintesi comportano l uso di una molecola a filamento singolo di DNA da sequenziare e la sintesi enzimatica del filamento ad essa complementare. Il pirosequenziamento è basato sul rilevamento dell attività della DNA polimerasi sfruttando un altro enzima che porta all emissione di chemioluminescenza. Essenzialmente questo metodo permette di sequenziare DNA a singolo filamento sintetizzando il filamento complementare un nucleotide per volta e rilevando quale tipo di base viene di volte in volta inserito nella catena nucleotidica. Lo stampo di DNA è immobilizzato e alla miscela di reazione vengono aggiunti e rimossi uno per volta datp, dctp, dgtp e dttp. Ogni qualvolta un nucleotide viene inserito nella catena nucleotidica si ha un emissione di luce e quindi, basandosi sulla sequenza di nucleotidi che porta a questa luminescenza, si riesce a determinare la sequenza del DNA stampo. Funzionamento Step 1: Il DNA a singolo filamento viene ibridato con un primer e incubato in una miscela di reazione contenente la DNA polimerasi, l ATP sulforilasi, la luciferasi, l apirasi, APS (adenosina5 fosfosolfato) e luciferina. L ATP sulforilasi è un enzima in grado di convertire l APS in ATP in presenza di pirofosfato; un altro enzima, la luciferasi, utilizza quindi l ATP così prodotto per convertire la luciferina in ossiluciferina, un composto che genera luce visibile Step 2: Alla miscela di reazione viene aggiunta una soluzione di un certo ntp. Quando viene aggiunto il nucleotide complementare a quello del DNA stampo, la DNA polimerasi lo incorpora nel filamento in via di sintesi. 3

4 Step 3: Questa incorporazione causa l uscita di una molecole di pirofosfato (PPi), l ATP sulforilasi usa questo PPi per produrre una molecola di ATP che fa da substrato per la produzione di ossiluciferina con conseguente emissione di luce. In questo modo, basandosi su quando la luce viene prodotta (cioè in seguito all aggiunta di quale nucleotide) e su quanto viene prodotta (es: una sequenza TT porterà all emissione del doppio della luce rispetto ad una sequenza TG in seguito ad aggiunta di A) è possibile determinare la sequenza del DNA stampo. L aggiunta di datp tuttavia, porterebbe ovviamente a problemi legati al fatto che la luciferasi avrebbe a disposizione questa molecola anche senza un incorporazione di nucleotidi e per questo motivo al posto dell datp viene usata una sua variante, il datpαs, che non viene riconosciuto dalla luciferasi ma può essere incorporato nel filamento in via di sintesi. Step 4: Qualora il nucleotide aggiunto non sia complementare al nucleotide sullo stampo esso ovviamente non viene incorporato. È però necessario rimuovere i nucleotidi non incorporati per evitare che essi possano essere inseriti nella sintesi se complementari al nucleotide successivo (ad esempio, avendo sullo stampo AGG e aggiungendo C, questo nucleotide non verrà inizialmente incorporato ma in seguito all aggiunta di T, qualora C non fosse stato rimosso, verrebbero incorporate anche due C emettendo una quantità di luce tale da supporre una sequenza AAA sullo stampo). Al momento uno dei limiti di questa tecnica è che la lunghezza delle molecole di DNA da sequenziare deve stare in un range tra i 300 e i 500 nucleotidi, più corto degli 8001000 ottenibili con il metodo di Sanger. Questa limitazione può portare ad una complicazione del processo di sequenziamento genomico, in particolare nel caso di genomi contenenti molte sequenze di DNA ripetute. Per questi motivi il pirosequenziamento è una tecnica generalmente utilizzata per il risequenziamento o per il sequenziamento di genomi già parzialmente sequenziati. 454 SEQUENCING BY 454 LIFE SCIENCE (ROCHE) È una tecnica che sfrutta un pirosequenziamento parallelo su larga scala in grado di sequenziare circa 400600 Mb di DNA in 10 ore di corsa, in cui il DNA genomico viene isolato, frammentato, legato ad adattatori e separato in singoli filamenti. I frammenti di DNA vengono legati a biglie (un frammento per bliglia) che vengono catturate in una mix di PCR emulsionata in olio. Ogni biglia viene posta in un pozzetto delle dimensioni di ~29 μm su un PicoTiterPlate, ovvero un chip a fibra ottica, a cui vengono aggiunte biglie più piccole su cui sono legati gli enzimi: DNA polimerasi, ATP solforilasi e luciferasi. A questo punto si fanno cicli di PCR aggiungendo un nucleotide per volta che viene al termine di ogni passaggio degradato con un buffer contenente apirasi. Funzionamento Il DNA genomico viene diviso in frammenti più piccoli di circa 300800 bp con estremità blunt a cui vengono legati dei corti linker che fanno da sequenza di avvio sia dell amplificazione che del sequenziamento. I filamenti di DNA vengono denaturati e a questo punto ogni singolo filamento viene immobilizzato su una diversa biglia tramite uno dei due linker, l adaptor B, che contiene una tag 5 biotina che permette l immobilizzazione della molecola. Le biglie vengono quindi poste

in emulsione acqua (contenente la mix di PCR) in olio, in cui avviene una prima amplificazione del DNA e le molecole neosintetizzate si legano ai siti di attacco rimasti liberi delle biglie. A questo punto le biglie vengono poste in un sistema PicoTiterPlate che, centrifugato, deposita statisticamente una biglia in ogni pozzetto e ad ognuno di questi pozzetti vengono aggiunte altre biglie a cui sono legati gli enzimi necessari al pirosequenziamento. Vengono fatti a questo punto dei cicli di PCR, aggiungendo come primer l adaptor A e uno per volta dei 4 nucleotidi in ordine prestabilito, e quando un nucleotide complementare allo stampo viene aggiunto ad un pozzetto, la polimerasi lo incorpora rilasciando PPi che viene convertito ad ATP e utilizzato dalla luciferasi, emettendo una radiazione luminosa che viene letta da un sensore. Il sistema di sequenziamento 454 può sequenziare qualsiasi molecola di DNA a doppio filamento, permettendo il sequenziamento de novo di interi genomi, risequenziamenti, sequenziamenti di regioni isolate di DNA, metanogenomica o analisi di RNA. ILLUMINA SOLEXA Il sistema SOLEXA prodotto da Illumina è una piattaforma per il sequenziamento in parallelo di segmenti di DNA amplificati in modo clonale e legati a sferette magnetiche. La metodologia di sequenziamento è basata sulla sintesi sequenziale" di oligonucleotidi attraverso l utilizzo di terminatori dideossi reversibili. Il sistema SOLEXA può generare oltre 1 Gbp di dati di sequenza (sequenze di lunghezza pari a 3035 bp) con un'accuratezza superiore al 99%. È una tecnica in grado di generare un milione di basi ad alta qualità di sequenziamento per corsa ad un costo pari a meno dell 1% del costo dei metodi basati sui capillari, e a una velocità tale che genomi di mammiferi possono essere sequenziati in settimane e non anni. Viene quindi utilizzata per risequenziare genomi ad un costo vantaggioso. Il DNA viene frammentato tramite onde sonore focalizzate, legato ad adattatori, separato in base alle dimensioni, selezionato nel range di PM pari a 200300 bp, denaturato e amplificato in una PCR in modo tale da aggiungere come estremi alla sequenza le regioni P7 e P5 che permettono di immobilizzare la molecola di DNA su una apposita lastrina (ogni lastrina può contenere fino a 8 lane, permettendo di allestire fino a 8 reazioni di sequenziamento per corsa). A questo punto vengono aggiunti nucleotidi ed enzimi per avviare l ampificazione su fase solida a ponte, ottenendo doppi filamenti a ponte, in cui una delle due estremità non è legata alla cella. Quindi si denatura il doppio filamento e si ottengono in questo modo filamenti singoli leggermente distanziati. Facendo quindi dei cicli di PCR si ottengono dei gruppi numerosi che sono copie dello stesso frammento. Al termine di alcuni cicli di PCR si ottengono sulle lastrine dei cluster di DNA a doppio filamento, ognuno formato da molecole di DNA identiche. Una volta ottenuti questi cluster vengono inseriti i primer, la DNA polimerasi e, uno alla volta, i quattro nucleotidi marcati. In base al nucleotide incorporato, ciascun cluster emette in seguito a irradiazione con un laser una radiazione luminosa a lunghezza d onda diversa che viene rilevata da un sensore che può così determinare la sequenza del DNA contenuto in ogni cluster. Ogni nucleotide utilizzato blocca esso stesso l attacco del nucleotide successivo finchè non viene emessa fluorescenza. SEQUENZIAMENTO CHIMICO SU FASE SOLIDA È una tecnica di sequenziamento high throughput con alta efficienza, per il sequenziamento di genomi, il risequenziamento di determinati campioni, lo studio dell espressione genica, lo studio degli snrna e di cromatine immunoprecipitation. L unica fase che si differenzia in ognuna di 5

queste applicazioni è quella della preparazione del campione, mentre le altre fasi, ovvero la PCR in emulsione, la ligazione e l analisi, restano invariate. Preparazione dei campioni Una libreria di DNA a frammenti o di tipo matepaired (ovvero due frammenti di DNA legati tra loro) viene preparata dal campione che si vuole sequenziare e legata a due primer: P1 e P2 (ottenendo quindi nel caso di frammenti singoli una molecola di tipo P1frammentoP2, e nel caso di matepaired una sequenza del tipo P1frammento1linkerframmento2P2). Ognuna di queste molecole viene immobilizzata su una biglia magnetica che viene posta in micro reattori contenenti mix di PCR e primer complementari alla sequenza P1 (universale presente su tutte le biglie), per avere un amplificazione del DNA tramite PCR in emulsione e ottenere così biglie arricchite ognuna di molecole di DNA di tipo diverso (una biglia = migliaia di copie di una stessa sequenza di DNA). Al termine della PCR le biglie arricchite di DNA vengono separate dalle biglie indesiderate e il DNA ad esse legato viene modificato in 3 con un linker che permette di immobilizzarle covalentemente su una lastrina di vetro. Durante l operazione di caricamento delle biglie è possibile suddividere ogni lastrina fino a 8 sezioni, su ognuna delle quali può essere caricato e analizzato una libreria diversa (in realtà utilizzando un sistema di barcoding è possibile arrivare fino a 16 librerie diverse caricate su una stessa lastrina). Un vantaggio di questo sistema è la possibilità di porre una gran densità di biglie per lastrina, con il risultato di ottenere un alto livello di informazioni throughput da uno stesso sistema. Sequenziamento per ligazione Le biglie all interno dell analizzatore vengono messe a contatto con una DNA ligasi, con dei primer che riconoscono l adattatore precedentemente inserito e dei frammenti lunghi 5 nucleotidi di- base probes. Il frammento che si lega alla posizione successiva al primer dipende dalla complementarietà tra il filamento e il DNA delle prime due basi dopo il primer, infatti le prime due basi dei frammenti si legano alla molecola di DNA, mentre le 3 basi rimanenti portano gruppi fluorescenti specifici per ogni dinucleotide, che vengono rilasciati una volta che il frammento viene incorporato e letti da un rilevatore. Questo processo viene ripetuto in 7 cicli, al termine dei quali le molecole neo sintetizzate vengono rimosse e alla miscela viene aggiunto un primer lungo un nucleotide di meno del primer utilizzato precedentemente, perché altrimenti si avrebbero informazioni solo su 2 nucleotidi su 5. Si fanno 5 cicli di sequenziamento e in questo modo si ha il vantaggio cche ogni nucleotide viene letto 2 volte. LEGGE DI MOORE SUL SEQUENZIAMENTO Il costo di sequenziamento per base si riduce drasticamente. 6

SMRT SYSTEM (PACIFIC BIOSCIENCE) È un sistema di sequenziamento in tempo reale di una singola molecola. In tutti gli altri metodi serve un pretrattamento del campione per amplificare il DNA, con conseguente aumento di costi del processo e perdita di tempo; infatti, con i sistemi descritti, utilizzando singole molecole di DNA si avrebbero problemi di interferenza da background, dovuti alla presenza in alta concentrazione di nucleotidi marcati che creano un segnale background infinitamente maggiore del segnale dovuto ad un singolo evento di incorporazione. Il sistema SMRT permette il sequenziamento di lunghe molecole di DNA in un tempo di corsa contenuto, ad un alta qualità e un prezzo sensibilmente ridotto. I chip utilizzati in questo sistema contengono migliaia di ZMWs (ZeroMode Waveguides), che operano analogamente agli schermi metallici presenti sugli sportelli dei forni a microonde. Questi schermi sono bucati con buchi molto più piccoli della lunghezza d onda della radiazione elettromagnetica emessa e in questo modo la radiazione non riesce a superare lo schermo. Tuttavia nei forni a microonde la radiazione luminosa passa permettendoci di vedere l interno del forno, mentre in questi chip i buchi sono talmente piccoli da impedire l attraversamento anche a questo tipo di radiazione. Ogni ZMW è un foro cilindrico all interno di un sottile strato metallico supportato da una lastrina di vetro. La luce proveniente dal laser penetra solo attraverso i primi 2030 nm di ogni pozzetto, creando un volume di rilevamento di 20 zeptolitri (10 21 litri), quindi la radiazione attraversa solo la prima parte del pozzetto, permettendo però di attivare i gruppi fluorescenti presenti. Ogni pozzetto porta legata una singola molecola di DNA polimerasi, in questo modo aggiungendo ad ogni pozzetto nucleotidi marcati in alte concentrazioni e una molecola di DNA da sequenziare, la polimerasi inizia la replicazione. Gran parte delle tecniche di sequenziamento tramite sintesi utilizzano nucleotidi che portano fluorofori legati direttamente alla base. In questo modo però, a seguito dell incorporazione del nucleotide all interno della molecola in via di sintesi, si ha un aumento del segnale di background, in quanto il fluoroforo viene mantenuto nella molecola di DNA e più nucleotidi vengono incorporati più aumenta il segnale background. In questa tecnica invece i nucleotidi vengono marcati con un fluoroforo legato al fosfato γ. Il laser provoca una eccitazione del fluoroforo che emette così una radiazione luminosa solo se questo si trova all interno del piccolo volume raggiungibile dalla radiazione proveniente dal laser. In questo modo vengono eccitati solo i fluorofori dei nucleotidi quando questi vengono incorporati nel DNA, nel breve lasso di tempo (dell ordine dei millisecondi) cioè in cui la DNA polimerasi sta catalizzando la reazione di incorporamento. Più a lungo la DNA polimerasi funziona e più lunghe saranno le molecole che si possono sequenziare. È così possibile fare cicli di sequenziamento di una molecola circolare, arrivando ad una maggiore affidabilità. 7

CONFRONTO TRA LE TECNICHE DI SEQUENZIAMENTO 8 SEQUENZIAMENTO: VETTORI I vettori sono molecole di DNA che vengono usate per la creazione di librerie di DNA. Il genoma viene frammentato e inserito in precise posizioni note all interno dei vettori. I più utilizzati sono YAC (cromosomi artificiali di lievito, 1Mb), BAC (cromosomi batterici, 300 bp) e PAC (cromosomi basati sul DNA del fago P1, 300bp). Indipendentemente dall organismo in cui vengono clonati questi elementi di DNA devono contenere: un marcatore selettivo e una origine di replicazione, oltre a un centromero e due telomeri per quelli di lievito. Una volta che una libreria di vettori è stata sequenziata sorge il problema di riordinare le sequenze ottenute per ricostruire il genoma, cioè di riunire i frammenti in un unica sequenza tramite un operazione di contig. Prepare una libreria di DNA di un intero genoma è un operazione molto laboriosa, è preferibile operare su un cromosoma alla volta. Occorre quindi separare tra loro i cromosomi tramite diverse tecniche: PFGE (elettroforesi su gel in campo elettrico pulsante), separazione a flusso o FACS (fluorescence- activated chromosome sorting: separazione di cromosomi attivata dalla fluorescenza). Fish (fluorescent in situ hybridization): è una tecnica che permette una mappatura fisica dei geni, un analisi strutturale del genoma, un paragone tra regioni specifiche conservate in diverse specie, la costruzione di mappe integrate genetiche e citogenetiche e l assegnazione di una certa sequenza di DNA ad un particolare cromosoma, basata sulla marcatura di una molecola di DNA con marcatori fluorescenti che vengono fatti ibridare con DNA genomico e si va poi a vedere in quale regione si ha ibridazione (è una tecnica utilizzata per identificare le regioni dove un certo BAC ibrida). Fingerprinting È una tecnica utilizzata per ricostruire i genomi. Avendo due BAC, digerendo questi vettori usando degli enzimi di restrizione, se i due vettori hanno delle regioni in comune, i frammenti di DNA dovuti alla digestione avranno dimensioni uguali, mentre frammenti di dimensioni diverse si riferiscono a regioni non omologhe.

Un altra tecnica potrebbe essere quella di ibridare diversi BAC con una sonda marcata radioattivamente e vedere dove questa ibrida. Usando sonde diverse si può ricostruire una mappa dei frammenti inseriti nei diversi BAC. Ordinamento mediante siti di sequenzeetichetta STS: SequenceTaggedSite: vengono spesso ottenuti da cdna clonati detti EST (Expressed Sequence Tags), sui frammenti ci sono regioni (STS) che possono essere identificate in maniera univoca e si guarda quali di questi STS sono presenti nei vari frammenti per determinarne l ordine. Ordinamento mediante sequenziamento di YAC, BAC, PAC ends WHOLE GENOME SHOTGUN SEQUENCING Il DNA genomico viene digerito fino ad ottenere dei piccoli frammenti che vengono inseriti all interno di vettori che vengono sequenziati e analizzati in contig con un computer (tecnica molto più veloce del sequenziamento gerarchico ma molto meno precisa). Non è adatto per genomi grossi perché ci sono molte sequenze ripetute e duplicazioni che aumentano il numero di errori commessi (è lo stesso motivo per il quale per sequenziare genomi viene utilizzata la 454, che permette di sequenziare regioni più lunghe e quindi è più difficile che ci siano errori). Le sequenze ripetute possono essere sequenze a bassa complessità (ATATATATAT), micro satelliti, trasposoni (SINE, LINE, LTR), famiglie geniche, duplicazioni di geni avvenute recentemente (in modo che le due copie dei geni non si siano ancora differenziate l una dall altra). Con il whole genome shotgun ogni parte del genoma dovrebbe essere sequenziata almeno 4 volte per arrivare ad un livello di accuratezza accettabile (in realtà fino a 810 volte). Utilizzando un sistema di barcoding, marcando per esempio 3 genomi diversi con 3 linker diversi, è possibile condurre il sequenziamento dei 3 genomi in una stessa reazione e poi assegnare, grazie ai diversi linker, ogni frammento di DNA sequenziato al suo genoma di origine. RICOSTRUZIONE DELLA SEQUENZA (FRAGMENT ASSEMBLY) Partendo da un frammento si analizzano i frammenti che hanno con esso delle regioni in cui si sovrappongono, e così via fino a ricostruire la sequenza genomica originale. Per definire la 9

lunghezza che devono avere queste regioni di omologia per essere considerate sufficienti e significative si usa l equazione: dove C è la lunghezza della regione di omologia, n è il numero di frammenti, l è la lunghezza media dei frammenti e L è la lunghezza totale della sequenza genomica in analisi. Secondo il modello di LanderWaterman, assumendo una distribuzione uniforme dei frammenti sul genoma, ponendo C=10 si identifica una regione ogni milione di nucleotidi. ANALISI DEL GENOMA Si divide in due tipi di analisi: Analisi di genomi interi e singoli: con la quale è possibile fare un conto dei geni presenti e una loro classificazione, un analisi delle sequenze ripetute e delle duplicazioni cromosomiche Analisi multigenomica: consente di studiare le omologie, le sequenze simili e di fare un paragone tra le classificazioni dei geni Il DNA è organizzato sui cromosomi, all interno dei quali sono presenti oltre a geni, trasposoni, sequenze ripetute ecc, le sequenze centromeri che e le NORs (nucleolar organizer regions), anch esse ripetute in più copie. Le dimensioni dei genomi variano notevolmente da una specie all altra, per esempio il genoma dell uomo contiene circa 3.5 milioni di basi, mentre quelli di arabidopsis ne contiene solo 140 mila. Sequenziando il genoma umano sono stati utilizzati due approcci distinti: un approccio di tipo clonebyclone (ad opera di HGP) e un approccio di assemblaggio del genoma (ad opera della Celera Genomics, una compagnia privata) in grado di sequenziare 2 milioni di frammenti a settimana. Studio ClonebyClone Si frammenta l intero genoma e si va a vedere le regioni che si sovrappongono per ipotizzarne la sequenza. Ci sono però dei problemi legati a sequenze ripetute e a frammenti mancanti. GENOMA DI ARABIDOPSIS Il genoma dei arabidopsis è stato interamente sequenziato. Questo significa che si sa l intero corredo genetico dell organismo, e che si conoscono esattamente quali geni (quale set minimo di geni) sono necessari per far crescere la pianta. Arabidopsis è utilizzato come organismo modello perché è facilmente coltivabile, produce moltissimi semi, ha un tempo di generazione da seme a seme di 8 settimane, ha un genoma completamente sequenziato ed è molto correlata ad altre piante di interesse industriale (è della stessa famiglia per sempio di cavoli, cavolfiori, broccoli, rafano, ). Il genoma di arabidopsis contiene circa 125 Mb divise in 5 cromosomi ed è il primo genoma vegetale ad essere stato sequenziato; in realtà ci sono ancora dei frammenti di genoma che non sono stati sequenziati. Il genoma presenta numerose duplicazioni interne, contiene famiglie di sequenze ripetute e molti SNP identificati (1 ogni 3kb); è un genoma compatto streamlined. In particolare sono state sequenziate 115409949 basi su 125 Mb, le regioni non sequenziate corrispondono a centromeri e rdna. Nel sequenziamento sono stati utilizzati degli algoritmi che hanno portato ad identificare 25498 geni (nel corso degli anni in realtà ne sono stati individuati altri 7000) della maggior parte dei quali non è ancora stata identificata la funzione. Una delle 10

caratteristiche del genoma di Arabidopsis è che la maggior parte di esso (il 60% dei geni) è duplicato e queste duplicazioni portano ad una ridondanza genica. Durante un periodo lungo di stabilizzazione del genoma, i geni duplicati hanno la possibilità di divergere dal punto di vista funzionale con un meccanismo che è molto comune nelle piante. Secondo le prime stime il sequenziamento del genoma di Arabidopsis si sarebbe dovuto concludere nel 2010, tuttavia si è solo al 20%, a causa delle difficoltà create dalle numerose duplicazioni. FAMIGLIE GENICHE Sono insiemi di geni aventi una certa sequenza in comune il cui miglior esempio è rappresentato dai fattori trascrizionali, proteine che agendo in trans riconoscono i promotori (contenenti elementi in CIS) e che sono composte di due subunità, un DNA binding domain e un activating domain, in particolare il BD è molto simile in tutti i fattori tracrizionali. Le famiglie geniche hanno origine a partire da una duplicazione genica e si evolvono quindi a seguito del reclutamento di un DNA BD da parte di geni non correlati ad esso. In particolare si può anche arrivare ad un gene A e un gene B aventi la stessa funzione, ma espressi uno nelle foglie e uno nei fiori e pertanto non ridondanti dal punto di vista funzionale. Il meccanismo di duplicazione dei fattori trascrizionali è particolarmente importante nelle piante perché esse non potendo muoversi si trovano sottoposte alle più disparate condizioni ambientali e quindi necessitano di particolari meccanismi di regolazione genica. Per riconoscere geni modificati si vanno a cercare regioni a alta omologia di sequenza o che hanno una struttura genica uguale (organizzazione di introniesoni). Esempio: famiglia genica MADSbox, un importante famiglia di geni che controlla molti aspetti dello sviluppo delle piante. L acronimo sta per MCM1 (lievito), Agamous (Arabidopsis), Deficiens (Antirrhinum), SRF (umano). La MADS box è un DNA BD. 11

Esempio di uno studio di ridondanza. Si guarda prima la similitudine tra i geni, poi dove i diversi geni vengono espressi (ovvero i profili di espressione in diversi compartimenti dell organismo, per vedere se due geni sono ridondanti), quindi si analizza la struttura dei geni (introni ed esoni, fornendo indicazioni sul fatto che una duplicazione sia più o meno recente). Conoscendo la posizione e la sequenza del gene, si può avere inoltre un idea se la duplicazione sia avvenuta in tempi recenti; infatti duplicazioni recenti sono caratterizzate da geni ripetuti in tandem. Con la genetica diretta (creazione di mutanti con delezioni casuali) non è possibile studiare mutanti in geni ridondanti, perché eliminando uno dei geni non si ottengono effetti nel fenotipo e la probabilità di riuscire a fare una delezione nella seconda copia del gene è prossima a zero. Bisogna quindi avere il genoma già sequenziato e andare a fare una mutazione specifica. L analisi filogenetica indica quali geni potrebbero essere ridondanti. Esempio: I geni SEP1, SEP2 e SEP3 sono ridondanti in Arabidopsis thalliana. I singoli mutanti presentano un fenotipo uguale a quello del ceppo wild type, così come quello dei doppi mutanti. Nel triplo mutante invece si ha la produzione di fiori aventi solo sepali e nessun petalo e il ceppo è sterile. Questi tre geni sono quindi ridondanti, tuttavia è stato scoperto un quarto gene, SEP4, prima conosciuto come AGL3 e il quadruplo mutante mostra un fenotipo ancora più drastico: infatti questo ceppo produce solo foglie, che sostituiscono sia i sepali che i petali (a sostegno della teoria secondo cui i petali si siano evoluti a partire dalle foglie). I geni SHP1 e SHP2 sono ridondanti, e il doppio mutante non riesce a secernere i semi ed è quindi sterile. Il triplo mutante con Δstk porta ad un ceppo in cui le ovaie sono mutate in organi completamente diversi. 12 ANALISI FUNZIONALE Con la genetica diretta si ottengono come prima cosa dei mutanti, tramite mutagenesi random, in seguito si fa una selezione per identificare i mutanti con il fenotipo di interesse e da cui viene quindi identificato il gene responsabile del fenotipo desiderato. GENETICA INVERSA Le delezioni si possono fare o per mutazione inserzionale (porta al KO del gene con una bassa varietà di mutazioni ottenibili, poche mutazioni possibili all interno di un individuo e facile da individuare se si inserisce una tag) o per mutagenesi chimica (porta ad un indebolimento dell espressione genica, a diverse possibili mutazioni ottenibili, più mutazioni per organismi e più lunga). Ogni organismo ha tecniche specifiche con cui è possibile ottenere il KO di un gene, in particolare: Batteri: trasposoni e ricombinazione omologa Lieviti: ricombinazione omologa Vermi: RNAi Pesci: morpholino Insetti: elementi P dei trasposoni Animali: ricombinazione omologa Piante: trasposoni, TDNA BATTERI Le mutazioni vengono fatte attraverso la ricombinazione omologa o l uso di trasposoni, elementi mobili presenti nel DNA di piante, batteri e molti altri organismi, in grado di cambiare la loro posizione nel genoma in maniera casuale.

Trasposoni I trasposoni non sono capaci di auto replicare (come fanno invece i repliconi) e i loro spostamenti sono catalizzati da una ricombinazione sitospecifica catalizzata dalle trasposasi; talvolta inoltre alla trasposizione si accompagna una duplicazione. Vengono spesso utilizzati per introdurre nella cellula una resistenza ad un antibiotico. È molto usata nei batteri la tecnica di trasposizione in vitro: il DNA di interesse viene amplificato per PCR e al suo interno viene inserito grazie alla trasposasi un trasposone, i gap vengono riparati e le cellule vengono trasformate con il frammento di DNA così creato. Il DNA in cui viene inserito il trasposone è omologo del sito sul genoma batterico in cui si vuole fare l inserzione, si ha quindi una ricombinazione omologa e le cellule in cui è avvenuta vengono selezionate grazie alla resistenza conferita dal trasposone. GAMBIT (Genomic Analysis and Mapping by In vitro Transposition) È una tecnica utilizzata per fare un analisi funzionale dei geni. Si prende una parte del genoma e si incuba in vitro con dei trasposoni. Il genoma modificato viene quindi clonato in cellule batteriche e viene fatta una selezione dei ricombinanti, quindi si fa una PCR utilizzando un primer complementare al genoma e uno al trasposone e, a seconda delle dimensioni del frammento di DNA amplificato si può risalire al sito in cui è avvenuta l inserzione (ovviamente nel caso di inserzione in un gene essenziale la cellula muore). Sul gel si avranno quindi dei buchi corrispondenti alle delezioni nei geni essenziali, che permettono di localizzare la posizione di questi geni sul genoma. Il vantaggio di usare questa tecnica in vitro è quello di poter scegliere la frazione di genoma da analizzare. LIEVITO È un organismo modello che viene spesso utilizzato per studiare la funzione di determinati geni all interno di organismi superiori. La tecnica più utilizzata per creare mutanti è la ricombinazione omologa, si fa una delezione nel gene desiderato e si cerca un gene che complementi la mutazione. Sia S. cerevisiae che S. pombe hanno dei buoni meccanismi di ricombinazione omologa, che permettono la distruzione dei geni e il rimpiazzamento allelico. Ricombinazione omologa è una tecnica utilizzata per studiare la funzione dei geni. La tecnica standard prevede la creazione tramite clonaggio di un frammento di DNA che porta un marcatore affiancato a due sequenze omologhe agli estremi di YFG, in modo che, per ricombinazione omologa, YFG venga distrutto e i mutanti possano essere 13

selezionati grazie al marcatore. È un approccio che richiede tempo, occorre infatti identificare YFG, creare il vettore, inserire nel vettore il marcatore e infine clonare il vettore nelle cellule. Esiste un metodo più veloce, al marker vengono affiancate due sequenze complementari agli estremi di YFG e per ricombinazione YFG viene distrutto. Il frammento si può mettere nella cellula, dove si integra tramite ricombinazione omologa. Questo metodo sfrutta la tecnica dell'amplificazione: partendo da un marcatore selettivo lo amplifichiamo con dei primer che terminano con delle sequenze omologhe a YFG. Quindi si utilizzano questi frammenti ottenuti per PCR per fare il knock out di YFG grazie alla ricombinazione omologa. Con queste tecniche è inoltre possibile inserire delle TAG (es GFP) in frame con i geni per creare proteine di fusione marcate. Per S. cerevisiae sono necessarie omologie di 40bp, mentre per S. pombe ne servono 60bp. Ricombinazione illegittima È una tecnica utilizzata soprattutto in S. pombe: una molecola di DNA si può ricombinare ad una regione non omologa, creando dei mutanti aventi delezioni casuali. La mutagenesi inserzionale presenta alcuni svantaggi, tra cui il principale è il fatto che mutanti in geni essenziali non possono essere studiati. Per superare questo problema si usano ceppi diploidi eterozigoti, in cui viene mantenuta una copia del gene wt. Saccharomyces Genome Deletion Project È una libreria di mutanti in cui sono state deletate tutte le ORF più lunghe di 100 amminoacidi, è stata costruita irradiando con raggi UV o tramite trattamento con mutageni chimici. Sono state generate 4 collezioni, una aploide per ogni sesso, una diploide omozigote per ogni gene non essenziale e una diploide eterozigote contenente sia i geni essenziali che quelli non essenziali. I risultati indicano che il 18.7% dei geni sono essenziali per la crescita del lievito su terreno ricco in gucosio, e la distruzione di circa il 15% di questi geni nel diploide omozigote causa una crescita rallentata. Questa libreria però ha il problema che non tutti gli eterozigoti vitali hanno un genotipo normale, infatti si ha un notevole tasso di cellule con aberrazioni cromosomiche dovute al fatto che la perdita di un gene può portare ad una pressione selettiva che accresce il numero di cromosomi contenente lo stesso gene, qualora questo conferisca una maggior velocità di crescita. Informazioni interessanti possono derivare da studi del fenotipo di un certo mutante, fatte in opportune condizioni: per esempio si può creare un mutante in un gene essenziale rendendolo temperatura sensibile o freddo sensibile. In questo modo, una volta ottenuti i mutanti, si fa un replica plating, una piastra viene mantenuta alla temperatura permissiva, mentre l altra viene messa a temperatura selettiva, in modo che si possano individuare i mutanti temperatura sensibili. Va ricordato che i mutanti condizionali sono sempre mutanti, non solo nelle condizioni in cui la mutazione si traduce in un fenotipo diverso dal wild type. Mutanti difettivi in geni essenziali per il mantenimento dei cromosomi vengono spesso identificati tramite saggi rivolti ad analizzare difetti nella stabilità dei plasmidi in condizioni permissive. SOPPRESSIONE DELLE MUTAZIONI Talvolta può succedere che in un mutante una seconda mutazione, avvenuta in un gene in qualche modo collegato con la prima mutazione, ripristini un fenotipo wild type. 14

Studio dei soppressori Poniamo di avere YFG ts e sappiamo che esiste un gene soppressore per questa mutazione. Facciamo una mutagenesi random e può succedere che il gene soppressore diventi cold sensitive e che questa mutazione sopprima la mutazione Ts su YFG. Per clonare il gene soppressore utilizzo una libreria e ricombino ogni clone con il doppio mutante. Se nella cellula entra il gene soppressore wt, allora questa non sarà più cold sensitive e posso selezionarla facendola crescere a basse temperature. Poniamo invece che la mutazione che otteniamo sul gene soppressore sia sempre una mutazione recessiva ma casuale e che non ripristini il fenotipo wt di YFG. In tal caso dopo aver ricombinato ogni clone della libreria con il doppio mutante seleziono la cellula dove è entrata la copia del gene wt guardando quali cellule non crescono ad alta temperatura. Se invece la mutazione sul gene soppressore è dominante devo prendere il mutante e fare una libreria. Quindi trasformo tutti i cloni della libreria con una cellula con il gene soppressore wt e seleziono le cellule che riescono a crescere ad alte temperature. ANALISI DI SYNTHETIC LETHALITY È l opposto della soppressione. In questo caso si ha un fenotipo debole, la mutazione cioè non porta alla morte della cellula, si cerca di trovare una mutazione che porti alla morte delle cellule, la combinazione delle due mutazioni è quindi letale (per esempio due geni ridondanti che vengono entrambi deletati). Per fare questa analisi si crea un mutante yfg e si cercano mutazioni letali sintetiche. Avendo un ceppo yfg, ade2, ura3 (fenotipo rosso per via di ade2). Inserendo nella cellula un plasmide con i geni URA3, ADE2, e YFG, si ottiene un ceppo contenente una copia extra di YFG. A questo punto si fa una mutagenesi random, e si ottengono vari mutanti tra cui quello con letalità sintetica. I mutanti vengono piastrati su terreno contenente Ura, poco Ade e FOA. Su questo terreno le cellule aventi il plasmide (che sono ADE2) muoiono a causa del FOA e si ha quindi una pressione selettiva che porta le cellule a perdere il plasmide. Tuttavia cellule in cui la mutazione yfg è stata combinata con una mutazione letale sintetica, non possono perdere il gene YFG presente sul plasmide, e quindi muoiono. A questo punto si va a verificare che la seconda mutazione non sia caduta all interno di yfg rendendolo completamente inattivo, in questo caso infatti la cellula non può perdere il plasmide perché avendo yfg KO non sopravvive, e non a causa di una seconda mutazione letale sintetica. Librerie di mutanti Sono state costruite librerie di mutanti in cui ogni mutazione è stata incrociata con altre 5000 mutazioni (per le mutazioni in geni essenziali sono state usate varianti ts) in modo da studiare le interazioni tra i geni. Identificazione di geni bersaglio di farmaci È uno screening basato sul principio di letalità sintetica. Viene usato un deletion set di cerevisiae contenente mutazioni in 5000 geni non essenziali. Avendo due geni A e B letali sintetici, che possono essere o ridondanti, o interagenti o mediare funzioni di altri geni, avendo un mutante b e trattandolo con un farmaco anti A, che causa un fenotipo a, si ottiene un mutante ab non vitale. Lo screening viene fatto su tutti i mutanti di lievito, e a questo punto confrontando il profilo di 15

interazione chimicogenetica con quello di letalità sintetica è possibile individuare il target genico del farmaco. DROSOPHILA MELANOGASTER È noto come il moscerino della frutta. È un organismo modello ideale perché: È un organismo piccolo e quindi è possibile averne in grandi quantità in ambienti ristretti È facilmente allevabile Ha un periodo di sviluppo breve Produce un gran numero di progenie Ha fenotipi facilmente riconoscibili Ha solo 4 coppie di cromosomi È suscettibile a numerose mutazioni È un buon modello per lo studio della genetica umana È uno dei primi organismi di cui sia stato sequenziato il genoma, e ha il 60% dei geni in comune con l uomo, con 175 dei 289 geni che causano malattia in uomo presenti anche in drosofila e il 67% dei geni cancerogeni umani trovati nella mosca. È un buon organismo di studio di malattie neurodegenerative (Parkinson, Alzheimer, Tay Sachs), cecità, malattie sanguigne e difetti immunologici. Viene quindi utilizzato per sviluppare farmaci attivi a livello dei neurotrasmettitori e dei sistemi immunologici e l olfatto umano. TOPO È un organismo modello ideale perché: È uno dei mammiferi più piccoli È da un punto di vista evoluzionistico molto vicino all uomo Ha una gestazione corta e raggiunge velocemente la maturità sessuale, con un lungo periodo fertile I maschi non attaccano i piccoli, sono docili e facilmente maneggevoli Si possono fare facilmente inseminazioni artificiali Lo sviluppo della placenta nelle prime fasi è simile a quanto accade in uomo Si ha una certa analogia con il genoma umano Tuttavia presenta anche alcuni svantaggi: È simile all uomo, ma ci sono tuttavia delle differenze nelle funzioni cognitive, nei comportamenti e nell espressione genica È difficile valutare lo sviluppo in utero È un organismo diploide e quindi il fenotipo di una mutazione viene spesso represso dalla presenza dell allele wt Ha un genoma relativamente ampio, che rende difficile lavorarci rispetto a genomi più semplici Ha un periodo di gestazione corto, ma comunque più lungo di quello di altri organismi Servono ambienti ampi per allevarlo Lo studio del genoma di topo viene fatto attraverso diverse tecniche: mutazioni spontanee e indotte in alcuni geni, aggiunta di agenti mutageni esogeni, mutazioni tessuto specifiche e tempo- specifiche, mutagenesi casuale seguita da screening, uso di tossine, diete o radiazioni, trapianti di tessuti. 16

Basic targeting strategy Per marcare i geni si utilizza la ricombinazione omologa. Si costruisce il vettore contenente il gene per il marcatore (es. neo che conferisce resistenza alla neomicina), circondato da due regioni omologhe al sito in cui si desidera fare l inserzione, a loro volta affiancate dal gene tk che conferisce sensibilità al ganciclovir. Si selezionano quindi le cellule contenenti il marcatore su un terreno contenente neomicina; in questo modo però sopravvivono anche le cellule in cui si ha avuto un inserzione per ricombinazione non omologa in un sito diverso da quello desiderato. Per eliminare queste cellule si aggiunge al terreno il ganciclovir, infatti con la ricombinazione omologa la sequenza tk non entra nel genoma, mentre con una ricombinazione non omologa si ha l inserzione anche di questa sequenza. KO di geni in topo Si fa una mutazione nel gene desiderato all interno di una cellula staminale di topo marrone, che viene inserita in una blastula che viene quindi impiantata in una femmina di topo nera. La progenie avrà una colorazione mista e le cellule marroni porteranno il gene KO, e i topi effettivamente KO vengono selezionati tramite PCR. A questo punto, una volta raggiunta la maturità sessuale, le chimere vengono incrociate con un topo nero e la progenie di colorazione marrone viene nuovamente analizzata per identificare i topi KO nel gene desiderato. Talvolta, per esempio nello studio di geni essenziali, può essere utile creare mutanti in cui un certo gene venga exscisso in un determinato tessuto o stadio di sviluppo. Per creare questi mutanti su usa il sistema CreLox: la Cre è una ricombinasi che riconosce due siti Lox esxscidendo il DNA che si trova tra questi due siti. In questo modo mettendo il gene CRE sotto controllo di un promotore tessuto specifico o sviluppo specifico si possono ottenere mutanti KO in un certo tessuto o stadio di sviluppo. È una tecnica utilizzata in topo e nelle piante. PIANTE Per usare approcci di reverse genetics si usano popolazioni di Arabidopsis contenenti nel genoma elementi trasponibili o TDNA. TDNA È una tecnica utilizzata per la trasformazione di piante. Si usa il plasmide T dell Agrobacterium tumefaciens (non ha nulla a che fare con lo sviluppo di tumori in uomo) che una volta trasformate le cellule si integra nel genoma. Una volta ottenuta una cellula mutata, si sfrutta il fatto che una singola cellula vegetale posta in opportune condizioni è in grado di rigenerare un organismo completo, all interno del quale tutte le cellule, essendo derivate dalla cellula mutata, avranno la mutazione. A seconda di dove avviene l inserzione di DNA esogeno si può avere un risultato diverso: se avviene all interno di un introne bisogna vedere se l introne in questione è esone per un altro gene, se avviene all interno di un esone si può avere KO o mutazioni della proteina e se infine avviene all interno di un promotore si possono avere i più svariati risultati sull espressione del gene. Trasposoni La maggior parte dei geni ha una posizione specifica nel genoma. Tuttavia non tutti i geni rispettano questa caratteristica, esiste infatti un gruppo di geni, detti trasposoni, in grado di spostarsi lungo il DNA. Nel fiore accanto la divisione in settore rosso e settore bianco è dovuta ad una mutazione avvenuta durante lo sviluppo del fiore, in cui una cellula ha cambiato colore dando così origine ad 17

una progenie mutata, mentre i puntini rossi presenti nella parte bianca sono dovuti all azione dei trasposoni. Un esempio di trasposone è costituito dal gene Ds, che salta da un punto all altro del genoma grazie all attività di Ac, che è una trasposasi. Avendo a disposizione dei trasposoni endogeni all interno di una pianta, è possibile avere diverse mutazioni a partire da poche piante. Per avere un mutante in ogni gene ci vorrebbero circa 300000 piante, invece utilizzando i trasposoni bastano pochi esemplari. Per fare ciò Ac viene reso incapace di muoversi sul genoma e ha quindi la sola funzione di codificare per la trasposasi del Ds che può ancora muoversi e creare mutazioni. A partire da una piccola popolazione di piante si raccolgono quindi i semi, si fanno crescere, si fa una selezione e si prendono i semi di interesse. La selezione viene fatta grazie al marker presente all interno del trasposone Ds utilizzato e opportunamente modificato, e viene fatta subito perché l obbiettivo è quello di trovare una popolazione in cui tutte le piante hanno una mutazione diversa, non servono cioè più esemplari rappresentanti una stessa mutazione. Ad esempio viene prescelto come marcatore selettivo SU1, che rende le piante sensibili alla Sulphuronyl urea. In questo modo piastrando su Sulphuronyl urea riusciamo a selezionare quelle piante in cui il trasposone si è mosso sul genoma e che non è quindi più vicino ad AC. Questo è positivo in quanto mi permette di stabilizzare la mutazione. 18 Librerie di mutanti con TDNA Hanno il vantaggio che, a differenza dei trasposoni, una volta che il TDNA si inserisce all interno di un gene vi resta stabilmente. Presentano, tuttavia, un grosso svantaggio, ovvero, utilizzando i trasposoni sono sufficienti poche piante per ottenere infinite mutazioni, in quanto i trasposoni saltano da una parte all altra del genoma, mentre per creare mutanti con questa tecnica occorre una popolazione di individui molto più ampia. Necessità quindi di un sistema di trasformazione efficiente, inoltre non presenta organismi revertenti. Una volta creata una libreria di mutanti con TDNA o con trasposoni, per individuare la regione dove si è inserito il DNA esogeno (ci sono casi in cui un fenotipo mutato può essere dovuto non ad una mutazione in YFG, ma in un gene ad esso correlato) si sfrutta questo DNA come sonda per isolare le flanking regions (ovvero le regioni limitrofe). Si fa quindi una PCR utilizzando primer che appaiano sul DNA inserito e primer complementari alle regioni del YFG in cui si vuole avere l inserzione. Però occorrerebbe ripetere la PCR per migliaia di piante. Per ovviare a questo problema le piante vengono raggruppate, il DNA viene estratto da 48384 linee e raggruppato in 1008 pool da 48 piante ciascuna, raggruppati in 126 superpool contenenti ognuno 8 pool, raggruppati a loro volta in 42 iperpool contenenti ognuno 3 superpool e 1152 linee vegetali l uno. Il DNA da ogni pool viene estratto e analizzato per PCR e viene fatta un operazione di deconvoluzione, guardando in quale iperpool si ha amplificazione, si passa poi al superpool, al pool e quindi alla linea di interesse. Negli ultimi anni si è passati ad un'altra tecnica, che prevede il sequenziamento delle flanking regions e il confronto con il genoma per capire la posizione del TDNA nel genoma. Per isolare le flanking regions si fa una inverse PCR: il DNA viene digerito e circolarizzato, vengono inseriti due primer, complementari al TDNA e avviata la PCR. Poiché il DNA è circolarizzato si avrà amplificazione delle molecole contenenti il TDNA e le flanking regions, che verrà sequenziato. Per essere sicuri di non avere concatenamento dei diversi frammenti di DNA dopo la digestione si

opera a basse concentrazioni di DNA, che viene molto diluito nel buffer di PCR. Sono stati prodotti dei TDNA basati su plasmidi batterici, tra il right e il left band è presente un ORI, un AMP e quindi è possibile in seguito a digestione del DNA e alla circolarizzazione tramite ligasi, trasformare cellule batteriche con questi frammenti e fare uno screening su terreno contenente ampicillina. TAILPCR (Thermal Asymmetric Interlaced PCR) È la tecnica più utilizzata per amplificare regioni sconosciute limitrofe ad una regione nota (T DNA), a causa della sua semplicità, specificità, efficienza, velocità e sensibilità. Vengono utilizzati 3 primer specifici per il TDNA inserito e posti uno in serie all altro, con temperature di melting alte e diverse, e una serie di primer arbitrariamente degenerati più corti e con temperatura di melting più bassa. Vengono fatti dei cicli di PCR con il primer SP1 (Specific Primer 1) e un AD primer (Arbitrary Degenerate), 5 utilizzando condizioni stringenti (alte T) e uno a condizioni meno stringenti. Ad alta temperatura si avrà che i primer specifici appaiano, mentre gli AD no. Questi cicli ad alta temperatura servono per avere più copie di un DNA a singolo filamento che vengono poi usate come stampo dai primer a bassa complementarietà. A questo punti si diluisce e si ripete con SP2. In questo modo si ha un arricchimento di popolazione del DNA di interesse. Gene trap Si usa un costrutto di tipo: SAREPORTERpA presente all interno del trasposone. In questo modo se il trasposone finisce all interno di un gene (non importa se esone o introne in quanto c è il SA ma non il SD) si ottiene una proteina di fusione tra il prodotto genico e il gene reporter e in questo modo, analizzando la proteina si può capire dove è avvenuta l inserzione. TILLING (TARGETING INDUCED LOCAL LESIONS IN GENOMES) È una tecnica utilizzata per inserire mutazioni puntiformi all interno di geni di interesse, che combina il DHPLC (Denaturing HighPerformance Liquid Chrom.), sfruttando il fatto che frammenti completamente omologhi denaturano più lentamente di frammenti con mutazioni puntiformi, e la mutagenesi attraverso EMS (etilmetansulfonato). A seguito di mutagenesi in EMS, le molecole di DNA contenenti mutazioni denaturano e corrono più velocemente dei filamenti wt su colonne calde. Il primo step è fare mutanti in EMS, in seguito vengono amplificate le regioni di interesse da pool di 10 individui tramite PCR (utilizzando una diluizione 1:20 di eterozigoti), quindi viene fatta un analisi in DHPLC, vengono analizzate le singole piante che vengono sequenziate e di cui vengono costruiti individui omozigoti. Normalmente la mutagenesi in EMS causa un passaggio da G a etilenguanina, che viene riconosciuta come A. La quantità di mutageno utilizzata nell esperimento influisce sul tipo di mutagenesi. Esistono tre meccanismi di mutagenesi puntiforme: Sostituzione di una base Alterazione di una base in modo tale che appai con una base diversa Danno ad una base in modo tale che non appai più con alcuna base L EMS, come anche il NG, nitrosoguadinina, agiscono attraverso il secondo meccanismo, e in particolare l EMS aggiunge un gruppo etile, mentre l NG aggiunge un metile. Le sostituzioni di base 19

si dividono in transizioni (da purina a purina o da pirimidina a pirimidina) o trasversioni, in cui una purina viene sostituita con una pirimidina o viceversa. A livello delle proteine, le mutazioni puntiformi possono portare a risultati molto diversi: 20 Mutazioni silenti, spesso riguardanti il terzo codone di un amminoacido, sono mutazioni in cui il cambiamento di base porta ad un codone che codifica per lo stesso amminoacido del codone wt e quindi non si ha nessuna differenza nella proteina Mutazioni neutre portano all incorporazione di amminoacidi simili a quello incorporato nel wild type, e se hanno un fenotipo diverso dal wt esso è comunque debole Mutazioni missenso portano a proteine aventi amminoacidi diversi da quelli wt che possono anche causare perdita di funzionalità della proteina Mutazioni non senso introducono un codone di stop portando ad un interruzione prematura della sintesi proteica. Con il tilling tutti questi tipi di mutazione possono essere ottenuti. Avendo una mutazione da C a T in EMS, ci sono frammenti di DNA in cui ci si aspetta un tasso più alto di mutagenesi, e in EMS in particolare è facile creare codoni di stop. La PCR di molecole di DNA in EMS è vantaggiosa perché: È un processo quasi completamente automatico L EMS è un mutageno affidabile Vengono ottenute molte mutazioni missenso utili (per esempio mutanti temperatura sensibili) Possono essere bersagliati tutti i geni Si possono utilizzare tutti gli organismi che possono essere mutagenizzati Mutagenesi TILLING in riso Si trattano i semi o i fiori di una pianta di interesse con EMS e quindi si fa crescere per due generazioni. È conveniente utilizzare la seconda generazione per avere una maggior certezza che la mutazione sia stabile, la generazione M1 può presentare mutazioni che però possono non essere presenti nelle linee germinali. Una volta ottenuti i mutanti (cioè i semi M3 ottenuti dalla generazione M2) si prende il DNA e si studia normalmente in pool da 8 individui (384 pool) tramite PCR. I frammenti di DNA così ottenuti vengono studiati tramite DHPLC per individuare le molecole mutate. Possono essere selezionate specifiche regioni in cui fare avvenire la mutagenesi, per esempio volendo ottenere un KO sarà utile avere mutazioni all inizio del gene. I frammenti di PCR ottenuti vanno da 0.5 a 1.5 kb. CODDLE (Codons Optimized to Discovere Deleterious LEsions) È un programma che individua le regioni più deleterie all interno di una sequenza fornita dall operatore, dando così un idea di quali sono le regioni migliori in cui disegnare i primer per la TILLING. CEL1 (AGAROSE GEL DETECTION OF DSDNA PRODUCTS) Cel1 è un enzima che riconosce le mutazioni e le taglia nell ansa della molecola che si forma dove i filamenti non sono appaiati, portando così ad ottenere filamenti wt integri e filamenti interrotti dovuti al taglio ad opera di Cel1. L enzima è stato individuato in celery (sedano), ed è facilmente ottenibile, in quanto basta strizzare il sedano e prenderne il succo per ottenere una soluzione in cui Cel1 è attivo. Nella PCR vengono usati primer marcati in modo tale che i due filamenti possano essere distinti dai wt.