GENETICA GENERALE E MOLECOLARE Il genoma umano: organizzazione e funzione delle sequenze - Correlazione tra contenuto di DNA e complessità -Sequenze uniche: struttura dei geni -Famiglie multigeniche e pseudogeni -Sequenze ripetute Organizzazione della cromatina Il progetto genoma umano -Strategie di clonaggio, mappatura e sequenziamento di genomi complessi -Banche dati di DNA e loro uso. -Metodi per la comparazione di sequenze e per l analisi della similitudine e della omologia. Regolazione dell'espressione genica nell'uomo -Meccanismi epigenetici di regolazione -Elementi genetici di regolazione trascrizionale -Meccanismi di regolazione post-trascrizionale e post-traduzionale
Mutazioni e instabilità del genoma -Classi e meccanismi molecolari alla base delle mutazioni -Polimorfismi genetici Metodi per l analisi di mutazioni e polimorfismi -Diagnostica molecolare Genomica funzionale (metodi per lo studio dell espressione genica) -Tecniche di RT-PCR e real time PCR. -Array di DNA, analisi: - per la caratterizzazione di cellule tumorali; - per lo studio di malattie multifattoriali; - per la risposta ai farmaci.
Testi consigliati - Tom Strachan, Genetica molecolare umana, 2 a Ed. UTET, 2000 - T.A. Brown, Genomi 2 a Ed. EdiSES, 2003 - R.J. Reece, Analisi dei Geni e Genomi Ed. EdiSES, 2006 Prova d esame - Esame scritto (quiz e qualche domanda a risposta breve)
Il genoma umano LEZIONE 1
Il DNA mitocondriale 0.0005% del genoma umano 37 geni: 13 codificano per polipeptidi del mitocondrio (concetto di semiautonomia); 24 codificano per prodotti maturi ad RNA, necessari per l espressionedel genoma mitocondriale. I geni sono estremamente compatti: privi di introni e parzialmente sovrapposti
Il DNA nucleare contiene ca 3,4x10 9 coppie di basi, suddivise in 23 coppie di molecole lineari: i cromosomi. Il più piccolo contiene ca. 50.000.000 di nucleotidi; il più grande ca. 250.000.000.
Ma quanto genoma serve? Relazione tra complessità degli organismi e dimensione del loro genoma
IL CONTENUTO MINIMO DI DNA TROVATO IN CIASCUNA CLASSE AUMENTA CON L AUMENTARE DELLA COMPLESSITA BIOLOGICA Tuttavia COMPARAZIONI ALL INTERNO DELLA STESSA CLASSE INDICANO LA PRESENZA DI UN ECCESSO DI DNA RISPETTO ALLA QUANTITA RICHIESTA PER CODIFICARE IL SET DI INFORMAZIONI (PROTEINE) NECESSARIE PARADOSSO DEL VALORE C SOLO UNA PARTE DEL GENOMA CODIFICA PER LE INFORMAZIONI FONDAMENTALI ALCUNE SEQUENZE POSSONO ESSERE PRESENTI IN COPIA MULTIPLA E LA LORO QUANTITA NON CORRELA CON LA COMPLESSITA
CONTENUTO DEL DNA (C) DIFFERENZE TRA COMPLESSITA (S) CONTENUTO = SOMMA DI TUTTE LE SEQUENZE DEL GENOMA COMPLESSITA = SOMMA DI TUTTE LE SEQUENZE DIVERSE DI UN GENOMA ORGANISMI CON SIMILE COMPLESSITA (S) POSSONO CONTENERE QUANTITATIVI DIVERSI DI SEQUENZE (C)
In base alla ripetizione, nei genomi degli eucarioti si possono distinguere tre tipi di sequenze: La proporzione delle diverse sequenze varia in specie diverse
Ma quali sequenze sono contenute nel genoma?????
GENI 1. Geni che codificano per polipeptidi; ACCTGAATTACGGATTGGCCTATTACGACTAGC..
Qual è la struttura dei geni che codificano per polipeptidi, negli eucarioti? I geni sono solitamente presenti in copia singola o in basso numero di copie. Su scala evolutiva i geni sono tuttavia cresciuti in grandezza.
Procarioti vs. eucarioti I geni dei procarioti sono organizzati in operoni (policistronici) I geni degli eucarioti sono generalmente singole unità trascrizionali (monocistronici)
GENI 2. Geni che codificano per RNAs; Il 5-10% dei geni nucleari sono RNA-genes
I geni per gli rrna-eucariotici cluster di geni ripetuti Direzione della trascrizione 5 3 18S 5,8S 28S Direzione della trascrizione 5 3 18S 5,8S 28S Unità di trascrizione 13 Kb DNA intercalato da 20 a 30 Kb Unità di trascrizione 13 Kb RNA di 13Kb 45 S
I geni trascritti dalla RNA poliii I geni per l rrna 5S, i trna e alcuni geni per gli snrna.
RNA pol I trascrive rrna RNA pol II trascrive mrna per proteine RNA pol III trascrive trna e 5S rrna
Non Coding RNAs: RiboRegulators rrna trna Vault Y RNAs 7SK snrnas snornas Guide RNA Introns 5 UTR 3 UTR Catalytic: Ribozymes Telomerase MicroRNAs Viral RNAs Xist, H19 Retrotransposons
Distribuzione genomica dei geni negli eucarioti Negli eucarioti unicellulari, la selezione, per aumentare l efficienza, ha mantenuto bassa la quantità di DNA non-codificante. Il DNA non-codificante è invece molto rappresentato negli organismi multicellulari; dove fornisce materiale grezzo per la duplicazione genica e la divergenza.
I geni dell uomo Caratteristica Valore medio Numero degli esoni 8.8 Dimensione di un esone Dimensioni di un introne Dimensioni di una regione 5 non tradotta Dimensioni di una regione 3 non tradotta Lunghezza totale di un gene 145 pb 3365 pb 300 pb 770 pb 27000 pb Il genoma umano Sequenze codificanti altamente conservate Sequenze non codificanti altamente conservate Sequenze ripetute di tipo trasponibile Sequenze eterocromatiche Altre sequenze non conservate Fig. 6
I geni possono essere classificati, oltre che per la funzione, anche per il numero di ripetizioni e l organizzazione Geni singoli Geni ripetuti Geni appartenenti a famiglie Geni in clusters Geni interspersi nel genoma
Una certa % dei geni umani è costituita da membri di famiglie di sequenze di DNA. Ovvero geni che condividono tra loro un buon grado di omologia Ibridazione molecolare Sequenziamento del DNA PCR A seconda del grado di omologia tra i diversi geni di una stessa famiglia, si distinguono: FAM DI GENI RIPETUTI ORGANIZZAZIONE IN TANDEM, IN UNO O PIU CLUSTERS (i componenti sono fondamentalmente identici tra loro. es. rrna e Istoni) FAM GENICHE CLASSICHE (i componenti mostrano una certa divergenza tra loro) ORGANIZZAZIONE IN CLUSTERS (es. GLOBINE E HLA) ORGANIZZAZIONE INTERSPERSA (es. actina) SUPERFAMIGLIE GENICHE ORGANIZZAZIONE INTERSPERSA (geni che codificano prodotti funzionalmente correlati, ma con minima omologia di sequenza)
Perché esistono le famiglie geniche? Funzioni specializzate. Espressione differenziale. Richiesta di grandi quantità di prodotto.
Richiesta di grandi quantità di prodotto: Famiglie di geni ripetuti L unità di trascrizione è ripetuta in tandem, identica, circa 250 volte in cinque raggruppamenti (clusters), localizzati sul braccio corto dei cromosomi acrocentrici (50 unità ripetute in tandem per raggruppamento). Le sequenze codificanti sono estremamente conservate.
I geni ribosomali Organismo n ripetizioni Organizzazione Lievito 100-200 raggruppati su un singolo cromosoma drosofila 130-250 due raggruppamenti su due cromosomi Xenopus 400-600 1 cluster uomo 300 5 cluster Cellule umane in coltura hanno tra 5X10 6 e 1X10 7 ribosomi
Richiesta di funzioni specializzate Famiglie geniche classiche: i geni per la catena pesante HLA di classe I I singoli membri presentano un elevato grado di omologia di sequenza per tutta la lunghezza del gene o almeno per la parte codificante. Le famiglie geniche contengono spesso pseudogeni non processati o frammenti genici.
Espressione differenziale Famiglie geniche classiche: raggruppamento α e β globinico α globina HS-40 ξ 2 ψ ξ1 ψ α2 ψ α1 α 2 α 1 θ β globina HS-4 HS-3 HS-2 ε G γ A γ Ψβ δ β Le LCR si trovano a monte dei raggruppamenti e la loro funzione è di organizzare il raggruppamento in un dominio di cromatina attiva, agendo come enhancer.
ORGANIZZAZIONE IN CLUSTER -> CONTROLLO FUNZIONALE: i singoli geni sono fisicamente distanziati tra loro, ma strettamente raggruppati; questo permette di essere soggetti a un meccanismo di regolazione comune. Le LCR sono brevi sequenze enhancer che agiscono in cis, che vengono riconosciute da fattori di trascrizione eritroidospecifici. Si ritiene che l alternanza delle emoglobine sia legata oltre che a fenomeni di competizione dei geni per interagire con le LCR, anche all intervento di silenziatori gene-specifici, modulati durante lo sviluppo. DNA nell embrione ε Gγ Aγ Ψβ δ β DNA nel feto ε Gγ Aγ Ψβ δ β DNA nell adulto ε Gγ Aγ Ψβ δ β
Famiglie geniche classiche con organizzazione interspersa: Non vi è una relazione fisica tra i membri di una famiglia. Possono derivare da eventi di duplicazione genica oppure da eventi di trasposizione. famiglia n copie caratteristiche aldolasi 5 3 geni funzionali e 2 pseudogeni, su 5 cromosomi diversi NF1 >12 1 gene funzionale (17q), copie difettose, non processate gliceraldeide 3-fosfato-deidrogenasi >18 1 gene funzionale actina >20 4 geni funzionali
Superfamiglie geniche: i geni codificano prodotti funzionalmente correlati ma che non mostrano elevati gradi di omologia di sequenza né motivi amminoacidici particolarmente conservati I membri della superfamiglia delle Ig sono proteine di superficie con strutture e domini simili tra loro
Come si sono formati i geni ripetuti e le famiglie geniche? Meccanismo della Duplicazione Genica Un Crossing-over ineguale durante la meiosi genera un cromosoma con due copie di un gene, e un altro con nessuna copia. La ricombinazione può avvenire tra corte sequenze di DNA ripetuto (elementi Alu)
Duplicazione genica e: mantenimento della stessa funzione, acquisizione di nuove funzioni o perdita funzionale Pressione selettiva SI g e n e a n c e s t r a l e A d u p l i c a z i o n e m u t a z i o n i Pressione selettiva NO m u t a z i o n i funzione originaria A funzione correlata A2 nessuna funzione ψa
Pseudogeni I Pseudogeni non processati: convenzionali ed espressi Copie non funzionali del DNA genomico di un gene. Contengono esoni, introni e spesso le sequenze fiancheggianti. Data la loro somiglianza nell organizzazione genomica, la loro natura non funzionale puo essere riconosciuta, a livello di sequenza, dalla presenza di codoni di stop nella regione corrispondente alla porzione codificante del gene funzionale o dalla presenza di un elevato numero di mutazioni ognuna della quali originerebbe una molecola mutante. Sono comuni nelle famiglie di geni raggruppati Talvolta possono venir espressi a livello di RNA o addirittura come polipeptide, che non viene utilizzato nella molecola funzionale: gene della globina θ, sicuramente viene espresso, ma non se ne riscontra la presenza nell emoglobina funzionale
Pseudogeni II Pseudogeni processati: sono copie non funzionali degli esoni di un gene espresso e si ritrovano nelle famiglie dei geni interspersi. La loro origine sembrerebbe dovuta all integrazione di una sequenza di DNA originatesi per azione di una trascrittasi inversa. se sono copie di trascritti della RNApolimerasi II di solito non sono espressi perche privi del promotore. Possono venir espressi se integrati vicino ad un promotore, in questo caso l espressione potrebbe non essere nello spazio e nel tempo quella originaria se sono copie di trascritti della RNApolimerasi III possono avere al loro interno il promotore ed essere espressi. Possono raggiungere un elevato numero di copie (sequenze Alu)
Quindi i geni rappresentano una piccola frazione del genoma nucleare umano.e il resto? 30% 70% 1.5%
Famiglie di DNA ripetuto non genico
Il genoma nucleare contiene una grande quantità di sequenze ripetute che sono in gran parte inattive da un punto di vista trascrizionale DNA RIPETUTO IN TANDEM: i blocchi possono mappare su piu cromosomi a seconda delle dimensioni medie delle unita si suddivide in: DNA satellite DNA minisatellite DNA microsatellite DNA RIPETUTO INTERSPERSO: Le singole unita sono sparse nel genoma. Contengono sequenze che possono essere retrotrasposte attraverso un intermedio di RNA.
DNA altamente ripetuto in tandem Sequenze semplici Unità di sequenza di 2-200 bp Parecchie famiglie per ciascun organismo Localizzato prevalentemente nell eterocromatina I blocchi possono mappare su più cromosomi
Classi principali del DNA ripetuto in tandem
Organizzazione dei DNA satelliti nei centromeri
DNA RIPETUTO INTERSPERSO Viene suddiviso in due principali famiglie: Short Interspersed Nucleotide Elements; Long Interspersed Nucleotide Elements Classe Famiglia Dimensioni unità ripetuta SINE Alu 0,3 kb lunghezza completa MIR Dimensione media 0,13 kb LINE LINE-1 (Kpn) LINE -2 6,1 kb lunghezza completa, ma le dimensioni medie sono 0,8 kb Dimensione media 0,25 kb LTR ERV Dimensione media 1,3 kb N copie % Genoma 1.200.000 ca 10,7% ca 450.000 ca 2,5% ca 2600.000 ca 17,3% 370.000 3,3% 240.000 4,7% Trasposoni a DNA MER-1 (Charlie) Dimensione media 0,25 kb ca 213.000 1,4%
DNA ripetuto intersperso
SINE la famiglia più rappresentata è quella Alu. Probabilmente la sequenza Alu deriva per retrotrasposizione dal gene dell RNA 7SL, trascritto dalla RNA poliii. Alu è specifica dei primati Le ripetizioni Alu hanno un elevato contenuto in GC e sono localizzate nelle bande G chiare La tipica sequenza Alu è un dimero ripetuto in tandem di 130 bp; nella regione terminale è presente una corta sequenza ricca in residui A Tra i due dimeri vi è una asimmetria dovuta all inserzione di un elemento di 32 nt all interno della seconda ripetizione.
LINE: I membri di tale famiglia sono elementi trasponibili, elementi di DNA instabili che migrano in regioni differenti del genoma L elemento consenso della famiglia Kpn (6,1 kb) possiede due ORF: ORF 1: codifica per p40 a funzione ignota ORF2: codifica per una proteina con un dominio endonucleasico con attività di trascrittasi inversa. La sequenza completa è rara.
Viral retrotransposons contain LTRs and behave like retroviruses in the genome "
Nonretroviral retrotransposons lack LTRs "
Nonretroviral retrotransposons move by an unusual mechanism "
retrotrasposone Sito di inserzione NNNNNNNNCCTGATTTACTTTTTTTTT! NNNNNNNNGGACTAAATGAAAAAAAAA NNNNNNNNC NNNNNNNNGGACTAAAT CTGATTTACTTTTTTTTT! GAAAAAAAAA! NNNNNNNNCCTGATTTA NNNNNNNNGGACTAAAT CTGATTTACTTTTTTTTT! GACTAAATGAAAAAAAAA! NNNNNNNNCCTGATTTA NNNNNNNNGGACTAAAT CTGATTTACTTTTTTTTT! GACTAAATGAAAAAAAAA! SEQUENZE RIPETUTE DIRETTE
Classi di sequenze di mammifero che vengono trasposte mediante un intermedio a RNA Retrovirus endogeni-> sequenze che assomigliano ai retrovirus ma non sono in grado di infettare. Contengono le lunghe ripetizioni terminali (LTR) fiancheggianti dei retrovirus ed elementi dei retrovirus come la trascrittasi inversa Retrotrasposoni sono privi delle LTR e di altri elementi dei retrovirus. Codificano per la trascrittasi inversa RT contengono una sequenza A/T ad una estremità : Elementi LINE-1 Pseudogeni processati sono privi di trascrittasi inversa quindi non possono fare trasposizione indipendente, ma necessitano di altri elementi. Elementi SINE come la famiglia Alu