Allineamento di sequenze di DNA e proteine: possibilità, limiti ed interpretazione

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Allineamento di sequenze di DNA e proteine: possibilità, limiti ed interpretazione"

Transcript

1 ATTENZIONE: lo sfondo giallo NON riguarda parti più importanti ma evidenzia solo parti di testo (frasi, paragrafi) aggiornate (correzioni, miglioramento dello stile, o aggiunta di note o esempi per chiarire meglio i concetti) nel Allineamento di sequenze di DNA e proteine: possibilità, limiti ed interpretazione Database e motori di ricerca consentono il deposito ordinato, la gestione e il recupero delle sequenze di DNA o proteine, mentre l'allineamento è il metodo più efficace per confrontare tali sequenze. Non si deve pensare che si tratti di lavoro bioinformatico : il confronto per allineamento può rappresentare la routine per laboratori sperimentali; ad es., una volta clonato un frammento di DNA o identificato un trascritto o un gene, per verificarne il contenuto informativo, si paragona la sua sequenza con quelle presenti nelle banche dati, attraverso programmi di allineamento. Se la sequenza in questione risulta molto simile a quella di un gene o di una proteina di funzioni note, è probabile (ma mai sicuro al 100%) che possa avere la stessa funzione o una funzione correlata. Queste analisi sono comuni alla maggior parte dei laboratori in cui si svolgono analisi molecolari (e quindi sono molto utilizzate anche nelle Biotecnologie), ma nella maggior parte dei casi sono svolte in modo superficiale o improprio, portando a risultati incompleti e poco informativi o, ancor peggio, all'erronea interpretazione degli stessi e quindi a seguire false piste. La marcia in più che può fornire un corso di bioinformatica è la capacità di eseguire correttamente le analisi, eventulamente ampliandole e complementandole, andando oltre la semplice analisi con i preset e la lettura superficiale dei risultati. ATTENZIONE: per interpretare correttamente i risultati non bisogna mai essere "passivi", ovvero mai accettare i risultati in quanto tali senza un controllo critico. Infatti, i programmi di allineamento si limitano a confrontare le sequenze, ma non sono "responsabili" del deposito delle sequenze nei database. Nei database possono essere trovate molte sequenze con errori, o male assemblate o annotate, dal momento che le informazioni (corrette o errate) associate alle sequenze sono fornite da chi le sottomette ai database (che si tratti di gruppi di ricerca o di algoritmi predittivi o d'annotazione). I programmi di allineamento, basando il confronto solo sulle sequenze, estraggono allo stesso modo tanto quelle le cui schede recano informazioni utili e corrette, quanto sequenze con errori (di sequenziamento o di predizione), oppure sequenze corrette ma associate nella scheda ad informazioni scorrette (ad esempio, nella definizione del tipo di molecola, spesso vengono erroneamente definiti mrna le sole sequenze codificanti o CDS, che invece non sono mrna completi in quanto prive delle regioni UTR al 5' e al 3'). Sta dunque alla competenza di chi di volta in volta valuta i risultati, e quindi ad analisi sempre prudentie critiche, utilizzare i risultati validi e significativi evitando di farsi portare fuori pista da informazioni fuorvianti. L'allineamento tra due biosequenze consente di determinare se tra esse vi è una relazione di similarità. Se la sequenza di un gene clonato è molto simile a quella di un gene noto, è probabile (mai "certo") che esso abbia una funzione identica o simile. L'allineamento di acidi nucleici è effettuato sempre utilizzando sequenze di DNA, poichè gli mrna sono riportati nelle banche dati come cdna ed anche rrna, trna, mirna sono rappresentati dalle corrispondenti sequenze geniche. Da un punto di vista funzionale, relativo ai prodotti proteici, il confronto tra le sequenze aminoacidiche è più informativo di quello tra le corrispondenti sequenze codificanti o tra trascritti o geni. Infatti, soprattutto negli eucarioti, differenze nelle regioni UTR (mrna) e nelle sequenze introniche (geni), incluse inserzioni e delezioni, possono pesare notevolmente sul livello di similarità. Tuttavia, molte mutazioni introniche, se non riguardano i consensus di splicing, possono non avere alcun effetto sulla maturazione del trascritto. Inoltre, nelle regioni codificanti, residui identici a livello aminoacidico possono essere codificati da codoni differenti (18 dei 20 aminoacidi sono codificati da 2, 4 o più codoni), cosicchè ciò che è identico a livello proteico (stesso aminoacido) non sempre lo è a livello nucleotidico (codoni differenti per lo stesso aminoacido), ma le sostituzione di singole basi, che portino a mutazione silente (l'aminoacido non cambi) o non silente (l'aminoacido cambi) hanno lo

2 stesso peso nel calcolo della similarità nucleotidica, alterando quindi l'associazione della variabilità della sequenza alla possibile vicinanza o lontananza funzionale. ATTENZIONE: quanto appena esposto non intende assolutamente creare l'equivoco che le anailsi funzionali riguardino solo il confronto tra sequenze aminoacidiche. Il riferimento è solo relativo ai prodotti proteici. Il conceto di "funzione" tuttavia è più vasto e, per studiare i meccanismi regolativi, è importante invece confrontare i trascritti (ad esempio per studiarne la variabilità per splicing o predirne la stabilità dalla variazione delle regioni UTR, siti di riconoscimento per mirna ecc.) e le regioni genomiche (per individuare elementi promotoriali, ehancer, consensus di splicing, possibili esoni criptici ecc.). Ad un essere umano può apparire talora banale definire cosa è simile e cosa no tra due sequenze, ma un allineamento manuale è facile solo quando le sequenze da allineare sono palesemente simili. Quando invece i confini tra regioni conservate e divergenti non sono immediatamente individuabili, poichè ad esempio le due sequenze, pur correlate, mostrano similarità bassa o molto bassa, diventa molto difficile se non impossibile scegliere arbitrariamente tra i possibili allineamenti alternativi. E' necessario quindi stabilire un criterio per individuare l'allineamento "migliore" tra quelli possibili: gli algoritmi di allineamento prevedono che sia individuato il sistema per rendere minimo il numero delle differenze. Le analisi di allineamento possono rivelare l'omologia tra geni e tra proteine, ma è scorretto parlare di "grado di omologia" o "percentuale di omologia". Infatti l'omologia è un carattere qualitativo ed esprime solo la correlazione evolutiva tra sequenze che derivano da un ancestore comune e si sono differenziate attraverso un processo di speciazione molecolare. In pratica, il concetto non quantitativo di omologia è paragonabile a concetti come sterile, vivo, morto, infinito, non quantificabili per gradi. Un animale o è vivo o è morto, una siringa o è sterile o no, un insieme o è infinito o finito: non può essere "molto infinito", "poco infinito" o "più infinito di"... parimenti, non si può definire una proteina "più omologa di" e, se ci si vuole esprimere in termini quantitativi, è corretto parlare di percentuali di "identità" e/o di "similarità". Il DNA è rappresentato da 4 lettere che corrispondono alle basi azotate, il cui ruolo biologico prevalente è la conservazione dell'informazione genetica che poi si trasforma in informazione funzionale attraverso l'espressione: in pratica, la successione delle basi nel DNA consente eventi di codifica e riconoscimento necessari per specificare "prodotti" (in particolare proteine, attraverso il codice genetico, ma anche molecole di rrna, trna, snrna, mirna) ed individuare sequenze di riconoscimento per le proteine che interagiscono, a vario titolo, con il DNA stesso (componenti della cromatina, enzimi, fattori trascrizionali...). Nel DNA le sostituzioni non sono equivalenti (le transizioni sono più frequenti delle transversioni), ma si preferisce non distinguere, perchè il rapporto transizioni/trasversioni può variare da caso a caso. Insomma, per il DNA non ha molto senso parlare di residui "simili" ed in genere si preferisce fare riferimento all'identità. L alfabeto degli aminoacidi, molto più articolato e simile a un vero alfabeto (ha 20 lettere, contro le 4 del DNA) consente alle proteine di avere sequenze complesse, in grado di mediare un'infinità di meccanismi molecolari grazie alla maggiore eterogeneità delle proprietà chimico-fisiche degli aminoacidi, che possono essere polari o idrofobici, avere catene laterali molto grandi o piccole, cariche, aromatiche... inoltre, la combinazione di tali proprietà li differenzia ulteriormente (idrofobico piccolo, idrofobico grande ecc.). Da un punto di vista funzionale, il confronto tra le sequenze di due proteine è dunque più informativo del confronto tra le rispettive sequenze codificanti e non sbilanciato dalle mutazioni silenti, come spiegato in precedenza. Poichè la memoria delle mutazioni silenti è persa dopo la traduzione del trascritto in proteina, si deve comunque ricordare che non è possibile risalire correttamente dalla sequenza proteica a quella del suo trascritto. Infatti, in una sequenza proteica si può risalire ai codoni solo nel caso dei due aminoacidi metionina e triptofano

3 (ciascuno è codificato da un singolo codone). Per gli altri 18 aminoacidi - codificati da due o più codoni - è spesso impossibile risalire a quale specifico codone fosse presente nel trascritto. Infatti, anche nel caso si applichino le regole di codon usage dello specifico organismo, si potranno assegnare ulteriori codoni solo nei casi di associazione unvivoca (uso di un solo codone per aminoacido), ma non in quelli in cui il numero di codoni utilizzabili, pur ridotto dal codon usage, resti pari a due o più per aminoacido. Come si vedrà più avanti, questa impossibilità di retro-traduzione ha riflessi importanti sulle applicazioni di BLAST, il più importante ed utilizzato software di allineamento. Se il confronto non avviene tra tracritti maturi ma tra interi geni, il rumore di fondo causato da mutazioni funzionalmente irrilevanti è ancora più alto. Infatti, soprattutto negli eucarioti, un gran numero di mutazioni nei geni, incluse inserzioni e delezioni, riguarda le sequenze introniche, spesso molto più grandi degli esoni. Questa frazione, quasi sempre ampiamente maggioritaria (soprattutto in Homo sapiens e negli eucarioti più complessi), delle mutazioni geniche può pesare notevolmente sul livello di similarità tra due geni, anche quando i corrispondenti trascritti sono invece molto simili. Negli introni, non tutte le mutazioni hanno lo stesso peso: quelle che riguardano i consensus di splicing, ad esempio, possono avere drastici effetti sulla maturazione dei trascritti e quindi sulla sequenza finale dei prodotti proteicim mentre in larghe regioni introniche, le mutazioni non hanno alcun effetto sul trascritto e possono accumularsi, contribuendo a mostrare divergenza tra sequenze pur non avendo alcun effetto sui prodotti finali, talora identici o quasi. Per le proteine l'indicazione della percentuale di aminoacidi identici è importante ma non esaustiva, poiché è fortemente indicativa anche la percentuale di residui che in qualche modo sono "simili" o "correlati" (positives). I venti aminoacidi che compongono l'alfabeto delle proteine (quelli modificati, come l'idrossiprolina, non sono indicati da simboli specifici nelle sequenze, trattandosi di modificazioni post-traduzionali) sono raggruppabili per condivisione di proprietà chimico-fisiche (idrofobicità, polarità, carica, ingombro sterico...) o perchè i codoni che li specificano sono più o meno "vicini" nel codice genetico (ovvero, condividono più o meno basi). Quali sono le possibilità offerte dall'allineamento delle sequenze? Quali sono i limiti? Per comprendere bene il problema, è necessario tornare alla complessità delle informazioni disponibili. Il confronto tra le sequenze di DNA o proteine può fornire indicazioni preziose, attraverso l'individuazione di regioni "conservate" o "divergenti", ovvero parti più o meno lunghe della sequenza, in cui le molecole comparate mostrano notevole condivisione o non condivisione dei residui costituenti. Infatti, l'evoluzione dei viventi è mediata dall'evoluzione continua dei loro geni e proteine; la speciazione molecolare è a sua volta mediata prevalentemente da eventi di mutazione, ricombinazione e trasposizione delle sequenze di DNA, i cui prodotti sono successivamente sottoposti a meccanismi di selezione e deriva. Quando le mutazioni in una regione di DNA sono poco tollerate, in quanto lesive della funzione specificata, la selezione provvede a "conservare" quella regione (ovvero, a limitarne la variabilità), tanto tra le specie quanto tra i membri di una famiglia genica. Quando, invece, le mutazioni sono tollerate in quanto non influiscono pesantemente sulla funzione codificata, la variabilità osservabile dal confronto tra le sequenze è più alta. Infine, talora la variazione della sequenza può riflettere una specializzazione funzionale, ovvero la creazione di nuove funzioni a partire da una molecola progenitrice. Nota di genomica funzionale: La specializzazione funzionale per divergenza parziale della sequenza è un fenomeno spesso associato agli eventi di duplicazione e amplificazione genica in un organismo (creazione di paraloghi, ovvero geni omologhi derivanti, nello stesso organismo, da un ancestore comune). Infatti, la duplicazione di un gene consente alla sua "copia" un'evoluzione più libera, dal momento che il gene doppio può permettersi di accumulare mutazioni che transientemente portano a

4 una perdita o a un peggioramento di alcuni parametri funzionali, fino al raggiungimento di una funzione nuova, senza ridurre la fitness dell'organismo nelle fasi "sfavorevoil", poichè il gene master mantiene comunque la funzione originale. La possibilità quindi di "modulare" la funzione base di un gene e del suo prodotto proteico, riscontrata in natura, è alla base dei progetti di ingegnerizzazione biotecnologica di geni e proteine. Per questo, imparare a individuare con la bioinformatica le regioni di modulazione funzionale, fornisce al biotecnologo la capacità di smart design dell'ingegnerizzazione per mutagenesi mirata. In tutti i casi, poichè nessuno era presente al momento in cui avvenivano gli eventi di speciazione molecolare, l'allineamento delle sequenze permette di dedurre sia eventi di filogenesi molecolare, atti a ricostruire la storia evolutiva di molecole ed organismi, sia meccanismi alla base delle funzioni e delle loro specializzazioni. Residui o regioni di sequenze sempre identici o altamente conservati in geni o proteine di specie evolutivamente distanti, sono probabilmente cruciali per la (o per una) funzione mediata; i residui o le regioni che variano sono forse meno importanti, oppure hanno consentito di modulare la funzione originale, consentendone una specializzazione. Oltre a ricostruire, sulla base del grado di similarità, relazioni filogenetiche e funzionali, l'allineamento può servire anche per ricostruire la sequenza di interi cromosomi attraverso l'individuazione di regioni identiche "sovrapposte", condivise dai frammenti sequenziati (sequence assembly). Inoltre, il confronto tra la sequenza di un cdna e quella del DNA genomico della stessa specie può consentire di ricostruire la struttura della sequenza codificante, individuandone gli esoni e, quindi, anche gli introni e la regione di regolazione trascrizionale al 5' del primo esone. L'interpretazione dei risultati di un'analisi di allineamento ha dei limiti ed è importante conoscerli per evitare deduzioni errate. Ad esempio, solo quando tutte le sequenze da confrontare sono già note (sperimentalmente determinate), non sono in gioco variabili dipendenti dal grado di precisione degli algoritmi di predizione e l'accuratezza del confronto dipende interamente dagli algoritmi di allineamento e dai criteri utilizzati per valutare la similarità. Molto spesso l'allineamento avviene tra sequenze o frammenti di sequenze utilizzate come "sonde" (query) e sequenze presenti in una o più banche dati. In tal caso, i risultati dell'analisi non dipendono solo dagli algoritmi di allineamento e dai parametri e set di dati utilizzati per valutare il grado di similarità, ma anche dalla precisione con cui sono stati compilati i database e dall'accuratezza delle predizioni relative a (tante) sequenze geniche e proteiche "ipotetiche", depositate nelle banche dati alla stessa stregua di quelle "reali". Ulteriori fattori limitanti sono la completezza dei dati disponibili e la selezione operata. In altri termini, quando si indica ad un software di allineamento in quali banche dati andare a cercare le sequenze che saranno confrontate con la sonda, ci si deve rendere conto che il programma può trovare (e ci mostrerà nei risultati) sequenze omologhe solo nei database selezionati e che quindi tutte le ulteriori sequenze omologhe, esistenti ma depositate in banche dati non selezionate (dall'operatore, o non preselezionate come preset) non saranno estratte. Errori di valutazione possono essere commessi anche valutando quelli che si ritengono i risultati dell allineamento e che invece, molto spesso, rappresentano solo la sottoselezione dei risultati presentata in output. Ad esempio, se il preset del programma di allineamento è impostato su mostra i primi 100 risultati e l'operatore non è consapevole di tale preset, nel caso le sequenze allineate siano 1430, l'operatore osserverà "i risultati" credendo che corrispondano solo a quanto sta visualizzando, ma le sequenze dalla 101 alla 1430 non saranno visibili, sebbene pienamente parte de "i risultati". Ciò può far perdere preziose informazioni. Esempio: immaginiamo di utilizzare come sonda la sequenza di una proteina conservata in tutti gli organismi, ma non ancora caratterizzata funzionalmente. Per ottenere predizioni funzionali, l'allineamento con proteine omologhe degli altri organismi è in questo caso inutile (perchè sono altrettanto non caratterizzate), mentre sono molto più utili gli allineamenti con proteine meno simili, ma già completamente o parzialmente caratterizzate e che quindi potrebbero suggerire, sulla base della

5 conservazione di una o più regioni con la proteina d'interesse, una o più possibili funzioni. Supponiamo ora che nel database preselezionato le proteine omologhe di altri organismi siano 134. Poichè gli allineamenti mostrati per primi sono quelli con maggiore similarità, con il preset mostra i primi 100 risultati l'operatore inconsapevole visualizzerà solo i primi 100 allineamenti (inutili) con proteine omologhe in altri organismi e dedurrà che l'analisi per allineamento non gli è servita a niente. Erroneamente, perchè sarebbe stato sufficiente modificare il preset in mostra i primi 250 risultati, per ottenere, a partire dall'allineamento 135, preziose informazioni in grado di suggerirci gli esperimenti corretti per scoprire e dimostrare la funzione della proteina... Se si somma l'assenza delle sequenze non ancora determinate e/o depositate agli errori di predizione, che sono numerosi, ci si rende conto che qualsiasi dato deve essere considerato con molta cautela. Resta sempre valida l'asserzione: "assenza di evidenza non è evidenza di assenza": il non trovare sequenze omologhe ad una sonda, infatti, non vuol dire che esse non esistano e può darsi che non siano state ancora sequenziate. Alternativamente, la mancata estrazione potrebbe dipendere da errori di predizione genica e/o dell'annotazione del database, o dalle impostazioni di "stringenza" relative al software di allineamento o di visualizzazione dei risultati. Dunque, l'interpretazione dei risultati non deve essere frettolosa e deve maturare dopo un processo di verifica dei parametri impostati, dei set di dati analizzati, ecc. E' inoltre prudente non fidarsi eccessivamente degli accordi internazionali tra le banche dati e svolgere ricerche ampie. Il prezzo da pagare è l'estrazione di dati ridondanti, ma le analisi effettuate su più banche dati possono individuare, proprio nelle aree di non condivisione delle sequenze depositate, preziose informazioni. Criteri per la valutazione della similarità I metodi di allineamento consentono di formulare ipotesi la cui "robustezza" dipende non solo dal set di dati disponibili per il confronto delle sequenze, ma anche dai criteri adottati per valutare la similarità, che fondamentalmente sono i seguenti: (1) identità / non identità, che attribuisce un valore costante alle coppie di residui identici; (2) criterio del codice genetico, in cui è attribuito un punteggio che dipende dal numero di sostituzioni nucleotidiche per passare dai codoni che codificano un aminoacido a quelli che codificano l'altro; (3) criterio (2) soppesato in relazione alle proprietà strutturali; (4) matrici di punteggi basate sull'interconvertibilità osservata in un dato set di proteine omologhe: matrici PAM e BLOSUM. Per valutare la similarità tra sequenze di DNA il criterio più appropriato è quello di identità / non identità; il motivo è che l'alfabeto del DNA è troppo semplice (solo 4 lettere) per consentire "sfumature" ovvero stabilire relazioni di compatibilità tra le sue lettere. In pratica, il DNA trasmette l'informazione come codice (sequenza specifica delle lettere) piuttosto che attraverso proprietà chimico-fisiche più o meno simili delle basi. Per le proteine, invece, è meglio valutare anche il grado di correlazione tra aminoacidi. Infatti, negli output di allineamento tra proteine è solitamente riportata sia l'indicazione delle "identities" (I) che degli aminoacidi compatibili ("positives", P). Possono essere sviluppate numerose scale arbitrarie per soppesare la similarità tra i 20 aminoacidi; ad esempio, si può tentare di valutare insieme sia la somiglianza strutturale che l'interconvertibilità per mutazione (Feng et al., 1985):

6 La matrice in figura esemplifica - indipendentemente dal criterio con cui sono attribuiti i punteggi - la struttura delle matrici di sostituzione dove sono rappresentati i 20 aminoacidi sia in ascissa che in ordinata (matrici A x A) e quindi le celle di intersezione riportano i punteggi per ciascuna possibile sostituzione di un aminoacido con un altro (ovvero, per tutte le possibili coppie di aminoacidi allineati). Si può notare come le celle della diagonale, che riportano i casi di identità, mostrino sempre lo stesso punteggio, che è anche il massimo, mentre le altre celle, corrispondenti a coppie di residui differenti, mostrino valori più alti o più bassi a seconda della "vicinanza" tra aminoacidi, sulla base del criterio adottato per costruire la tabella. In questa tabella, che tiene conto sia delle proprietà degli aminoacidi che della vicinanza tra codoni codificanti (e quindi maggiore o minore interconvertibilità per mutazione) si può notare come, ad esempio, alla coppia D-E (Asp e Glu) sia assegnato il valore più alto dopo l'identità, essendo i due residui entrambi acidi e codificati da due codoni che differiscono solo per una base. Lo stesso accade per i residui Ile e Leu, mentre per coppie come Cys e Glu il valore è zero, essendo sia le proprietà che i codoni molto differenti. I criteri per valutare correlazioni dal punto di vista prettamente evolutivo o principalmente funzionale non sempre sono coincidenti. Ad esempio, il criterio del codice genetico si presta bene a studi evoluzionistici, mentre per analisi funzionali è fondamentale considerare le proprietà chimico-fisiche degli aminoacidi. In ogni caso, per valutare correttamente le relazioni tra sequenze è necessario valutare la significatività statistica della similarità rilevata in un allineamento ed evincere il rumore di fondo, prodotto dalla similarità casuale. Il rumore di fondo può essere dedotto dall'analisi comparativa con sequenze casuali aventi la medesima composizione in basi o aminoacidi. Per generare un certo numero di sequenze casuali aventi la medesima composizione è sufficiente adottare un generatore Montecarlo; ne esistono alcuni localizzati su server bioinformatici, ma il generatore di sequenze casuali non è certo un'invenzione bioinformatica. Tuttavia, poiché le sequenze di DNA e proteine non rispettano distribuzioni stocastiche dei residui, è necessario introdurre fattori correttivi. Sono state ottenute varie relazioni empiriche alla base di metodiche per la valutazione della significatività statistica della similarità. La metodica di Smith e collaboratori si basa sull'osservazione di una serie di allineamenti ed in particolare della correlazione tra i punteggi di similarità massima associati a subsequenze e la loro lunghezza. Ciò ha consentito di ricavare il valore medio di massima similarità e calcolare in modo empirico la significatività di quella osservata. La metodica di Karlin e Altschul prevede che i segmenti allineati siano privi di interruzioni ed è stata inclusa nella formulazione originaria dell'algoritmo di BLAST, tuttavia superata dalla formulazione di metodi che consentono di valutare la significatività anche in presenza di interruzioni (Gapped BLAST). I punteggi relativi alle regioni di massima similarità (MSP) seguono una distribuzione non normale che dipende dalla matrice utilizzata (PAM o, più frequentemente, BLOSUM-62). Dal confronto di due sequenze emergono, oltre alla regione di massima similarità, anche regioni di similarità elevata (HSP); la metodica di Karlin e

7 Altschul valuta la significatività statistica tanto in relazione a MSP quanto a HSP. Tuttavia, poichè similarità statisticamente non significative possono essere biologicamente rilevanti, non è corretto scartare ipotesi sulla base dell'assenza di significatività statistica, che perde parte del suo valore analitico, soprattutto in relazione ad analisi di tipo funzionale. Il fatto che similarità statisticamente non significative possono essere biologicamente rilevanti dipende dalla larga diffusione e conservazione evolutiva di regioni proteiche o nucleotidiche altamente degenerate ma funzionalmente conservate. Ne sono un esempio le lunghe regioni ad elica di proteine strutturali, in cui è importante solo che siano mantenute caratteristiche della sequenza compatibili con la struttura ad alfa elica e registri idrofilici o idrofobici atti a coordinare l'assemblaggio tra eliche o il passaggio di ioni. Anche nel DNA sono presenti regioni di ridotta complessità, sebbene il discorso di alta e bassa complessità sia più applicabile alle proteine, per l'intrinseca bassa complessità dell'alfabeto a sole 4 lettere del DNA. Nelle analisi evoluzionistiche può essere importante ricostruire eventi di filogenesi utilizzando anche molecole che, a causa di mutazioni in determinate regioni della sequenza, abbiano perso l'originale funzione, pur mantenendo una struttura globale quasi inalterata. E' il caso, ad esempio, di alcune proteine che, sebbene fortemente conservate nell'ambito della famiglia delle chinasi, hanno perso l'attività enzimatica a causa di poche o anche di una sola mutazione nel sito catalitico. Per un'analisi di correlazione tra specie può essere irrilevante il fatto che i membri di una "famiglia" proteica abbiano la stessa attività o l'abbiano persa; conta maggiormente il livello globale di divergenza dal comune ancestore. Proteine la cui funzione dipenda da un numero ridotto di residui, ovvero per le quali sia possibile preservare struttura e funzione "conservando" solo gruppi chiave di residui e consentendo una notevole variazione e combinazione degli altri, potranno, al contrario, essere tagliate fuori da analisi di correlazione evolutiva, in quanto mostranti livelli di similarità globale o perfino locale difficilmente distinguibili dal rumore di fondo. Quando, invece, i metodi di allineamento sono finalizzati ad analisi di tipo funzionale, la valutazione della significatività statistica deve essere integrata (e talora può essere soppiantata) da parametri quali, ad esempio, la conservazione della struttura globale o locale e quella di residui chiave. Può divenire difficile distinguere tra casi di forte divergenza e quelli di convergenza, ovvero tra i casi in cui proteine derivanti (a) da un comune ancestore abbiano conservato solo i residui cruciali per la funzione, divergendo in tutte le altre regioni della sequenza o (b) da differenti ancestori siano giunte a condividere la funzione e, quindi, a mostrare similarità nelle regioni comprendenti i residui chiave. In ogni caso, nella valutazione della similarità ai fini di analisi funzionali, qualsiasi indicazione dalla letteratura scientifica disponibile sul ruolo di uno o più residui deve essere presa in considerazione per "ponderare" localmente la variabilità, ovvero per individuare residui e regioni di sicura importanza per la funzione. Anche le analisi sulla struttura secondaria e quelle di modeling tridimensionale sono fondamentali per integrare la significatività dei dati derivanti da analisi di allineamento. Allineamento globale e locale Per tentare di raggiungere il miglior allineamento tra due sequenze si può ricorrere a due strategie: - allineamento globale (comprende tutti gli elementi delle sequenze allineate) - allineamento locale (individua le subsequenze con massimo livello di similarità) L'algoritmo di allineamento globale "classico" proposto inizialmente da Needleman e Wunsch è solitamente basato per gli allineamenti di DNA su matrici di identità / non identità e per quelli di proteine su matrici PAM o BLOSUM (trattate più avanti). L'algoritmo di Smith-Waterman è volto invece ad individuare regioni di similarità locale, ovvero a determinare il miglior allineamento attraverso subsequenze. Secondo il metodo di Smith-Waterman, la matrice viene inizializzata

8 definendo per ciascuna coppia di residui un punteggio di similarità s. Anche alle inserzioni/delezioni è attribuito un punteggio (gap penalty), determinato dalla somma di una penalità costante (gap open) ed una proporzionale (gap elongation) alla lunghezza della delezione. In questo metodo di allineamento si parte dall'elemento che realizza il massimo punteggio e si procede fino a quando l allungamento comporta un aumento dello score. Nella comparazione di sequenze di proteine si utilizzano matrici che valutano anche le proprietà strutturali degli aminoacidi. A parte "come" vengano realizzati gli allineamenti locali o globali, è fondamentale innanzitutto chiarirsi le idee sul perchè/quando utilizzare un approccio o l'altro. Il metodo più utilizzato è l'allineamento locale, in particolare attraverso l'algoritmo BLAST (Basic Local Alignment Search Tool). Il metodo locale permette infatti di evidenziare, alll'interno di due differenti sequenze, le regioni simili, anche nel caso esse rappresentino solo frazioni delle intere sequenze. Ciò è fondamentale, perchè le reali unità funzionali nell'evoluzione non sono solo interi geni e proteine, bensì frammenti rilevanti degli stessi, quali domini proteici capaci di mediare specifiche funzioni all'interno di una proteina e quindi conservati anche in proteine diverse. Tali domini sono spesso codificati, negli eucarioti, da un esone o gruppi di esoni. Grazie al metodo di allineamento locale, se due grandi proteine formate da più domini condividono solo un dominio ed una regione di legame al calcio, BLAST allineerà solo tali regioni e non quelle totalmente differenti rappresentate dai domini non condivisi. Per evitare equivoci, è da chiarire che l'allineamento locale è in grado di individuare frammenti simili, ma non è "obbligato" a limitarsi ai frammenti: quando due proteine (o due geni, poichè il discorso vale anche per le sequenze di DNA) sono simili per l'intera lunghezza, BLAST allineerà per tutta la lunghezza le proteine o i geni. In pratica, BLAST allinea tutto ciò che risulta avere una similarità al di sopra di una certa soglia, quindi, se tutta la sequenza è sopra tale soglia, l'allineamento è completo, se invece è sopra soglia solo un frammento, allinea solo tale frammento. Ci si potrebbe chiedere: se l'allineamento locale è così efficiente e, nei casi di similarità diffusa su tutta la sequenza, consente anche l'allineamento totale, perchè si utilizzano ancora algoritmi di allineamento globale? La risposta, banalizzando, potrebbe essere: non sempre si cercano e si vogliono valutare solo le similarità. Esistono, infatti, dei casi in cui è importante confrontare anche le parti differenti, al fine di valutarne il peso (appunto, in termini di divergenza): in particolare, in alcune analisi evoluzionistiche, limitarsi alle parti condivise è una forte limitazione, poichè la comparsa (o scomparsa) di nuove regioni in geni/proteine è un marcatore di speciazione molecolare e di separazione evolutiva. Anche per gli allineamenti associati agli studi strutturali (che saranno trattati però nel corso per la Laurea Magistrale) si utilizza l'allineamento globale. Infatti, se si confrontano due strutture che sono conservate come fold e divergenti come sequenza, l'allineamento locale rischia di "tagliare" fuori le zone di similarità troppo bassa e ciò è incompatibile con il fatto che nel confronto strutturale, tutte le parti della catena polipeptidica (anche quelle di sequenza divergente) devono essere confrontate. Si può intuire che, nelle analisi biotecnologiche/funzianali è prevalente l'uso degli algoritmi di allineamento locale. Infatti, numerosissimi sono i casi di condivisione di regioni funzionali (siti di legame, esoni, domini o motivi proteici) tra molecole (geni, proteine) che nel resto della sequenza possono divergere fortemente o essere completamente diverse. Matrici dot-plot (e concetto di finestra) Le regioni di similarità in un allineamento possono essere visualizzate creando una matrice dot-plot, costituita da celle comprese tra la sequenza orizzontale (inferiore) e quella verticale (a sinistra) e costruita marcando con un punto (dot, in inglese) le celle di intersezione tra residui identici. Le identità casuali producono un rumore di fondo elevato: per ridurlo si può passare dal confronto dei singoli residui a quello di brevi sequenze (finestre) di più residui. In tal caso, il dot è riportato solo quando in una finestra di w residui, s sono identici. A valori più alti di s corrisponde una stringenza

9 più alta, massima per s = w. Ovviamente, la variazione di w e s ha influenza sul rumore di fondo. I valori di s e w più adatti al confronto di sequenze nucleotidiche e proteiche sono determinati empiricamente. A causa dell'alfabeto di solo 4 lettere, negli allineamenti tra acidi nucleici il rumore di fondo (identità casuale) è elevato: Per questo motivo è necessario adottare valori più elevati di s: in pratica, è estremamente facile che l identità tra due nucleotidi (che sono di soli quattro tipi) di due sequenze sia casuale; l identità casuale tra dinucleotidi (16 combinazioni possibili) è più bassa, ancor più bassa quella tra trinucleotidi ecc. Una matrice dot-plot che consideri solo le identità non fornisce una reale indicazione dei rapporti di similarità per le proteine, ove la non identità tra aminoacidi può avere implicazioni biologiche profondamente diverse. Infatti, in alcuni casi la sostituzione di un residuo con un altro non identico, ma con proprietà molto simili (es: leucina ed isoleucina), può essere quasi irrilevante; in altri casi, due residui non identici possono avere proprietà molto diverse. Matrici PAM (Point Accepted Mutation) La matrice è basata su osservazioni "a posteriori", in quanto basata sul concetto di quanto una sostituzione risulti più o meno accettata in natura. Ritornando alla matrice di Feng mostrata in precedenza, si può notare che la differenza con la matrice PAM non consiste nella struttura (entrambe le matrici sono A x A), bensì nei criteri di attribuzione del punteggio, che Feng assegna sulla base di proprietà intrinseche (vicinanza delle proprietà delle catene laterali e delle sequenze dei codoni), mentre nelle matrici PAM si parte da dati empirici, ovvero l'osservazione del reale. La matrice PAM è infatti ottenuta a partire da una collezione di gruppi di proteine con similarità > 85% (per ridurre il peso delle mutazioni occorse più volte sullo stesso sito). Questo gruppo di più di 1500 sostituzioni porta ad una matrice in cui, per ciascun aminoacido, è calcolata una "mutabilità relativa" che è pari al rapporto tra numero di sostituzioni in cui è coinvolto e la sua abbondanza relativa. Sebbene gli aminoacidi siano 20, la frequenza con cui ciascuno di essi è rappresentato nei proteomi non è pari al 5%; la frequenza di alcuni aminoacidi è compresa tra il 7,5 ed il 10% e quella di altri è inferiore al 2,5%. La matrice PAM più utilizzata è la PAM-250 (Dayhoff et al., 1978). Matrici BLOSUM (Block Substitution Matrix) Anche le matrici BLOSUM si basano su dati empirici ed esse si rivelano particolarmente efficaci nell'allineamento di proteine evolutivamente distanti. Le matrici BLOSUM sono ottenute a partire da più di 2000 blocchi (non intere proteine, a differenza del dataset di partenza PAM) di allineamento, che consentono di stimare in modo più accurato il grado di similarità. Infatti, allineando proteine intere, si considera la variazione sia nelle parti conservate che in quelle variabili; limitando ai blocchi, la variazione è più significativa nell ambito della conservazione funzionale (le regioni al di fuori dei blocchi possono mediare funzioni accessorie e talora alternative). Nelle matrici BLOSUM tutte le sequenze con similarità superiore ad una certa soglia sono considerate come una singola sequenza, per ridurre il peso delle coppie di residui che appartengono a proteine stretamente correlate. La matrice più utilizzata (BLOSUM 62, Henikoff and Henikoff, 1992) raggruppa sequenze con similarità > 62%.

10 Allineamento locale: BLAST BLAST (Basic Local Alignment Search Tool) è il più diffuso programma di allineamento locale delle sequenze. Per vari anni il metodo FASTA (da non confondere con l omonimo formato) e BLAST sono stati utilizzati in alternativa o in modo complementare; progressivamente, però, la maggiore velocità, il continuo lavoro di sviluppo e di ottimizzazione hanno reso l uso di BLAST pressocché universale. FASTA esiste ancora ma, come altri validissimi programmi, è utilizzato in ambito più ristretto. Pertanto la descrizione di FASTA, non più inclusa nel programma d esame (che in compenso riporta una più completa descrizione di BLAST e consigli per la sua fruibilità), è tuttavia ospitata sul sito del corso tra la documentazione di supporto (sezione fuori programma ), per gli eventuali interessati (non sarà, comunque, oggetto di domande d esame o di valutazione). Coerentemente con quanto già spiegato per l'allineamento locale in genere, le sequenze individuate in ricerche BLAST possono rivelarsi lunghe (esattamente o approssimativamente) quanto l'intera sonda, o corrispondere a regioni più o meno estese della stessa. Infine, le sequenze individuate possono, a loro volta, rappresentare intere proteine o solo frammenti delle stesse (probabilmente, domini o insieme di domini). Infatti, non si deve mai dimenticare che BLAST individua per allineamento regioni di similarità locale e quindi la natura locale dell'allineamento può riguardare sia la sequenza query (sottomessa dall'operatore) che la sequenza subject (trovata nel database). In pratica, tutte le combinazioni possibili possono verificarsi: (a) l'intera sequenza query si allinea con un'intera sequenza subject (stessa lunghezza e similarità sopra soglia su tutte le regioni); (b) la sequenza query si allinea per intero con una regione omologa di una sequenza subject più lunga; (c) un frammento della sequenza query si allinea con un'intera sequenza subject (in questo caso è più lunga la query); (d) un frammento della sequenza query si allinea con un frammento della sequenza subject (evidentemente, una regione conservata presente in sequenze per il resto diverse). Poichè inoltre BLAST allinea tutti i frammenti di query e subject che risultano sopra soglia, può anche accadere che più frammenti di query e subject siano allineati. Ad esempio, se la sequenza di una proteina query è composta da tre regioni corrispondenti ai domini conservati A, B e C e la sequenza subject comprende le regioni A', D e C', BLAST allineerà le regioni omologhe N-terminale A-A' e C- terminale C-C', mentre le regioni centrali non omologhe B e D non risulteranno allineate. Talora BLAST può individuare una o più sequenze identiche alla sonda, malgrado nome e numero d'accesso risultino diversi. Ciò non è sorprendente, poiché non sempre i compilatori dei database si accorgono della ridondanza tra sequenze, ed alcune (o anche molte) sono depositate come nuove, senza verificarne la coincidenza totale con quelle già note. A volte l'identità può riguardare una sequenza codificante predetta a partire da dati genomici e quella reale di un cdna. In tal caso si ottengono la verifica della predizione e dati sull'espressione (stadio o tessuto-specifica, stimolata da induttori, associata a patologie ecc.). Basi algoritmiche BLAST si basa sull'algoritmo sviluppato da Altschul e collaboratori e sull'assunto che in sequenze omologhe - anche notevolmente divergenti - possono essere individuate regioni che mostrano una similarità statisticamente significativa. Nel confronto tra sequenze nucleotidiche è attribuito punteggio positivo alle identità e negativo alle non identità. Invece, per confrontare sequenze proteiche, sono adottate le matrici di punteggi PAM o BLOSUM. In BLAST è definita Maximal Score segment Pair (MSP) la regione di massima similarità, la cui significatività statistica è calcolata secondo il metodo di Karlin ed Altschul. Tutte le altre regioni con punteggio di similarità statisticamemente significativo in quanto superiore ad una soglia S sono definite High Score segment Pair (HSP). BLAST estrae dai database, ove trova le sequenze da confrontare con la sonda, solo regioni il cui punteggio di similarità sia superiore ad una determinata soglia. L'abbassamento della soglia aumenta la sensibilità, ma riduce la velocità. Il valore della soglia è determinato in modo che risulti automaticamente E = 10, ove E (Expected) rappresenta il numero atteso di regioni non correlate condivise tra sonda e sequenze

11 del database. In considerazione di quanto già illustrato in precedenza sul reale valore della significatività statistica, sono particolarmente apprezzabili le possibilità di modulare i parametri di BLAST (matrici, valori soglia, filtri ecc.) poichè, come al solito, solo la valutazione critica dei risultati ottenuti con ricerche reiterate e modulate può portare a conclusioni attendibili. Per capire come funziona BLAST si deve partire dalla constatazione che, quando si confrontano sequenze ad esempio di lunghezza diversa e non chiaramente omologhe, tanto l'occhio umano quanto l'algoritmo non saprebbero "da dove partire" per trovare regioni allineabili. Per questo motivo, si può immaginare di "fare a pezzi" la sequenza e - tenendo traccia delle posizioni relative dei frammentini - provare ad allinearne ciascuno con tutti gli altri. A tutti i possibili allineamenti si dovranno attribuire punteggi e ne risulterà una graduatoria in cui verranno identificate regioni MSP e HSP. A partire da tali frammenti si potranno "estendere" gli allineamenti aggiungendo al 5' (o Nter) e al 3' (o Cter) altri frammenti, se quelli contigui nelle sequenze originali risulteranno sopra soglia. Applicazioni di BLAST Il metodo BLAST, dall'originaria formulazione ad oggi, ha rappresentato un validissimo strumento d'analisi, che numerosi server bioinformatici consentono di utilizzare on-line per ricerche nelle principali banche dati. Sono state sviluppate numerose applicazioni, basate sul metodo BLAST ma ottimizzate per il tipo di ricerca, sonda e database nei quali si intenda cercare sequenze omologhe. Gli algoritmi di BLAST sono stati progressivamente potenziati, implementando nuove funzioni che consentono, ad esempio, di adottare matrici definite sulla base del set di dati in analisi o di integrare l'analisi di similarità con quella per pattern. I principali server che ospitano pagine dedicate a BLAST sono quelli dell'ncbi e dell'ebi, ma BLAST è utilizzabile on-line anche collegandosi ad altri server bioinformatici oppure localmente, scaricando via ftp database e programmi nella versione adeguata al sistema operativo utilizzato (Unix, Windows, MacOSX, Linux). Presso il server dell NCBI è possibile usufruire di applicazioni BLAST per screening on-line di vari database; esse sono divise, rispecchiando la logica del browser Entrez gestito dallo stesso server, in sezioni principali. Nella prima sezione (BLAST Assembled RefSeq Genomes) BLAST è ottimizzato per la ricerca in specifici genomi. Nella seconda sezione (Basic BLAST) sono presenti le applicazioni principali per l analisi per allineamento delle sequenze proteiche e nucleotidiche. Nella terza sezione (Specialized BLAST) sono presenti applicazioni basate su BLAST ed ottimizzate per usi specifici. Basic BLAST La sezione Basic BLAST si presenta con le sottosezioni nucleotide BLAST e protein BLAST che confrontano set di dati omogenei (query sequence e sequenze nel database sono dello stesso tipo). Le applicazioni nella sezione nucleotide BLAST servono a confrontare una query nucleotidica con le sequenze contenute nei db nucleotidici, utilizzando l algoritmo più diffuso, blastn, oppure gli algoritmi Megablast e discontiguous Megablast, ottimizzati per l allineamento di lunghe sequenze di DNA. Megablast è ottimizzato per allineare sequenze quasi uguali, le cui differenze possano derivare da errori di sequenziamento o polimorfismi. Pertanto, Megablast o suoi derivati sono utilizzati nell'assemblaggio di frammenti genomici o nel clustering di trascritti. La differenza fondamentale tra Megablast e blastn è nella scelta della "word size", ovvero la lunghezza minima della stringa di residui contigui considerata ai fini della valutazione di identità, che in Megablast è ottimale con valori maggiori o uguali a 16 (multipli di 4). Ciò rende più selettiva l'accettazione di identità e fino a 10 volte più veloce Megablast che, quindi, si presta meglio all'uso con sequenze molto lunghe. I default settings di Megablast richiedono, attualmente, una word lunga 28. Megablast è utile per l'analisi di sequenze molto lunghe ed estremamente simili; per lo studio di sequenze lunghe e

12 divergenti è invece da utilizzare "discontiguous Megablast ", in cui il valore di word size torna a livelli più bassi. In particolare, i "gap costs" sono pari a 5 per l'apertura di un gap e pari a 2 per la sua estensione. Si può comprendere come, accettando un numero di sostituzioni ancora basso, ma più alto di quello settato per Megablast, discontiguous Megablast sia utilizzato soprattutto per progetti di genomica comparata, in cui si confrontano sequenze di specie affini, le cui sequenze non divergono quanto quelle di specie evolutivamente lontane, ma più delle sequenze identiche (a parte i polimorfismi) della stessa specie. Le applicazioni nella sezione protein BLAST servono a confrontare una query proteica con le sequenze contenute nei db di proteine, utilizzando l algoritmo più diffuso, blastp, oppure gli algoritmi psi-blast e phi-blast, ottimizzati per l ottenimento di matrici di posizione o per ricerche centrate su un pattern. La ricerca con blastp è in genere più veloce che con blastn, perchè paragona sequenze omogenee e complesse in un insieme ridotto di dati. Ciò dipende dal fatto che le sequenze proteiche contengono un numero minore di residui rispetto alle regioni codificanti (per ciascun aminoacido, rappresentato dal codice ad una lettera, vi sono le tre basi di un codone), ma anche dalla presenza, nei database di acidi nucleici, delle sequenze di introni, UTR, trasposoni, regioni mediamente ed altamente ripetute. Inoltre, nelle banche dati nucleotidiche possono coesistere dati genomici grezzi ed annotati, predizioni geniche e cdna, EST e STS ecc... La sigla "psi", che contraddistingue l'algoritmo psi-blast, significa "position-specific iterated", perchè realizza ricerche iterative, in cui le sequenze estratte sono usate per costruire una matrice, che sarà utilizzata nella reiterazione della ricerca e così via. In pratica, la matrice che va a definirsi in PSI-BLAST è del tipo QxA, ove Q è la lunghezza della sequenza sonda ed A quella dell'alfabeto (in termini di simboli dei residui). La matrice costruita in tal modo è definita "Position Specific Score Matrix" o PSSM e può essere salvata come file di testo per l'uso in screening successivi di differenti database. Una serie di applicazioni BLAST, inoltre, implementa algoritmi ed esplora database in modo da individuare regioni di similarità con domini proteici. Quando invece è necessario confrontare la query di un tipo con database contenenti sequenze di tipo diverso, per consentire il corretto confronto tra i differenti alfabeti di DNA e proteine si ricorre alle applicazioni translated BLAST, che sono blastx, tblastn e tblastx. Quando si dispone di una sonda nucleotidica e si vuole confrontarla con sequenze proteiche (poichè è noto o si ipotizza possa contenere una sequenza codificante), l'applicazione blastx è appropriata, in quanto traduce la sequenza nucleotidica sonda nei sei possibili registri di lettura e confronta le sequenze tradotte con i database di proteine selezionati. Semplicisticamente, è come se si sottoponessero contemporaneamente sei sonde proteiche con blastp. L'applicazione tblastn, invece, confronta una sonda proteica con la traduzione dinamica nei sei registri di lettura dei database nucleotidici selezionati. Ovviamente i database non vengono tradotti ogni volta che si lancia tblastn; essi sono già presenti sul server che fornisce l'applicazione blast e sono periodicamente rigenerati in occasione di ciascun aggiornamento del database nucleotidico. tblastn può servire a risalire dalla sequenza proteica alle sequenze dei trascritti in grado di codificare la proteina; in tal modo si ottengono informazioni sull'espressione. Ottenuto il trascritto codificante, inoltre, si possono ottenere anche le regioni non codificanti 5'-UTR e 3'-UTR ed il trascritto completo, confrontato con le sequenze genomiche, consente di risalire al locus codificante ed alla struttura del gene. Ad esempio, negli eucarioti il confronto tra il trascritto completo e il genoma risulta in una serie di allineamenti di frammenti del trascritto a frammenti di un cromosoma, corrispondenti agli esoni. Le regioni tra esoni sono quindi identificate quali introni e la regione al 5' del primo esone può essere analizzata per cercare regioni promotoriali e siti di legame per fattori di trascrizione. L'applicazione che impiega il tempo maggiore, per ovvie maggiori esigenze di calcolo, è tblastx, che confronta una sequenza nucleotidica, dinamicamente tradotta nei sei registri di lettura, con le sequenze proteiche derivanti dalla traduzione dinamica nei sei registri dei database nucleotidici selezionati. A cosa serve? Si potrebbe pensare, infatti, che tblastx sia un'inutile e macchinoso doppione di blastn. Invece, le deduzioni che si ottengono confrontando ad esempio due genomi attraverso blastn o tblastx sono

13 diverse. Il confronto basato su blastn pesa allo stesso modo le mutazioni che non hanno alcun effetto sulle sequenze codificanti (mutazioni silenti, che trasformano il codone per un aminoacido in un altro codone che codifica lo stesso aminoacido) e le mutazioni che invece determinano sostituzioni aminoacidiche. In pratica, viene pesata correttamente la divergenza evolutiva, ma non la reale divergenza funzionale. Quest'ultima è meglio pesata da tblastx, poichè il passaggio di traduzione elimina le differenze silenti e sono pesate quindi solo le sostituzioni che alterano i prodotti finali, i quali in ultima analisi mediano le funzioni codificate. Per questi motivi, blastn richiede tempi di esecuzione maggiori e può essere utile limitare le ricerche ad un subset delle sequenze (ad es., solo quelle di un organismo o di un raggruppamento tassonomico, oppure solo EST o DNA genomico, o infine limitazioni combinate). Specialized BLAST Negli ultimi anni sono state implementate numerose versioni "speciali" di BLAST che, in pratica, differiscono dalle principali per l'ottimizzazione di algoritmi di ricerca, matrici, funzioni, filtri e database utilizzati, pur restando sostanzialmente basate sull'architettura fondamentale di BLAST. Una delle applicazioni specializzate più utili per complementare il lavoro molecolare è "Primer- BLAST", che consente di inserire la sequenza del templato, dei primer forward e reverse per la PCR, nonchè parametri che riguardano i primer. Aprendo la sezione "Advanced parameters"si può notare come in Primer-BLAST siano elevati i valori di "Expect" e bassi quelli di "Word Size". Esistono molti programmi per la progettazione dei primer che, più che validi per valutare la compatibilità della melting temperature, i rischi di appaiamento tra primer o di formazione di forcine, tuttavia non valutano la specificità di appaiamento. Il priming aspecifico infatti è un fattore che spesso crea problemi in PCR. Ad esempio, se progettiamo una coppia di primer sulla base della sola sequenza del gene del quale vogliamo amplificare, ad esempio, una regione, può darsi che il risultato dell amplificazione fornisca più bande e non solo quella attesa. Ciò facilmente può accadere se non abbiamo valutato la specificità della coppia di primer. Infatti, se ad esempio il gene di nostro interesse ha una serie di paraloghi (geni omologhi nello stesso organismo) ed i primer sono progettati in parti della sequenza conservate anche negli altri geni, essi si appaieranno in più punti nel genoma e produrranno più amplificati. Primer-BLAST, quindi, è da utilizzare per predire e quindi evitare amplificazioni aspecifiche, che possono sottrarre tempo alle analisi sperimentali o perfino portare fuori strada. Un ulteriore tool bioinformatico sviluppato per le analisi molecolari ed in particolare per il clonaggio è VecScreen, utile per "decontaminare" le sequenze genomiche o di cdna da quelle di vettori. Se, infatti, per sequenziare dei frammenti di DNA clonati si utilizzano un vettore ricombinante come stampo e dei primer per PCR che riconoscono regioni del vettore a monte ed a valle dell'inserto, la sequenza riassemblata conterrà l'inserto, ma anche le parti del vettore comprese nell'amplificato. Depositando sequenze di questo tipo in banca dati si produce, a causa della ripetizione delle sequenze spurie del vettore, un elevato rumore di fondo, che disturba le ricerche e confonde i risultati. Ormai gli esperti dei server bioinformatici che immettono nelle banche dati le nuove sequenze ricevute provvedono, sistematicamente, a verificarne eventuali contaminazioni da vettore. Tuttavia, qualche sequenza di vettore può sfuggire ed, in ogni caso, è opportuno (e corretto) che, prima di sottomettere una sequenza, si provveda ad analizzarla (ad esempio, con VecScreen, o mediante confronto contro database di vettori disponibili presso altri server). Poichè sempre più rilevante per la farmacogenomica la conoscenza dei polimorfismi genici (Single Nucleotide Polymorphism), nella sezione "Specialized BLAST" è disponibile SNP-BLAST, che consente di utilizzare geni o cdna come sonde per la ricerca dei relativi polimorfismi non solo in Homo sapiens, ma anche in altri organismi.

14 Chi analizza l'espressione genica può verificare la disponibilità per una sequenza nucleotidica di profili di espressione genica Gene Expression Omnibus (GEO) e dati su tessuto e stadio specificità; per chi lavora nell'immunologia molecolare è disponibile Ig-BLAST, limitato a human, mouse, rat e rabbit. BLAST e database I database associabili a ricerche con applicazioni NCBI-BLAST sono numerosi. In particolare, quelli per la sezione Nucleotide BLAST consentono ricerche in un ambito ampio, selezionando l'insieme delle sequenze non ridondanti o "nr" (che comprende le tre principali banche dati di DNA mondiali) o set più ristretti, quali ad esempio i database di sole EST (con sottosezioni est_human, est_mouse ed est_others) o di sequenze brevettate (Patent). Alcuni database sono riservati alle sequenze di uno specifico organismo, primo tra tutti l'uomo, ma anche lievito (database yeast, figura in alto) o altre specie modello. Attualmente presso l'ebi è implementato WU-Blast2, una versione di BLAST ottimizzata dal pool bioinformatico della Washington University e dall'ncbi. Selezionando la finestra dei database in cui può effettuare ricerche, si può avere un'idea del gran numero di database proteici e nucleotidici nei quali possono effettuare ricerche le applicazioni BLAST, nonchè del tipo di applicazioni utilizzabili per database. Scelta delle applicazioni in funzione delle ricerche. Per ottenere risultati significativi in una ricerca per allineamento è necessario selezionare opportunamente applicazioni e database; per trarne informazioni rilevanti è inoltre fondamentale sapere interpretare correttamente i risultati e rimodulare le richieste a seconda delle necessità. Nel caso non si abbiano le idee chiare o non si rammenti più quanto appreso, si potrà ricorrere agli schemi di selezione presenti sulle pagine guida (sezione Help) di NCBI-BLAST. Guide simili sono presenti anche presso altri server che forniscono servizi BLAST. In genere, la scelta di sito, applicazioni e database, nonchè dei parametri di ricerca ed output, non richiede studi approfonditi e, nella maggior parte delle ricerche di routine, i valori preimpostati possono essere lasciati inalterati, se è corretta la combinazione tra applicazione da utilizzare e database in cui effettuare la ricerca. Inoltre, in molti casi ormai, modifiche nella selezione dell'applicazione comportano il passaggio automatico al set di database compatibili, evitando ad utenti distratti di inoltrare richieste errate. E' esperienza comune che si ottengano risultati differenti effettuando analisi su server differenti; questo dipende sia dal differente tipo di database interrogabili, le cui sequenze non sono condivise al 100%, sia dal fatto che i parametri preimpostati di query ed output possono essere diversi. E' pertanto sempre opportuno, prima di passare ad una fase di analisi dei risultati e di elaborazione delle ipotesi, procedere in una serie di richieste su più database, reiterate con o senza filtri e con parametri più o meno stringenti. In genere è conveniente effettuare una medesima ricerca con BLAST con e senza filtro per le regioni a bassa complessità, in modo da non perdere informazioni che potrebbero essere mascherate dal rumore di fondo provocato da tali regioni, ma anche da rilevarne la presenza, talora biologicamente significativa. Ad esempio, alcune regioni ricche in prolina contraddistinguono particolari famiglie di proteine, regioni ricche in aminoacidi acidi spesso sono presenti in domini leganti cationi e regioni ricche in aminoacidi basici possono essere presenti in proteine nucleari. Tutto ciò può essere inutile, tuttavia, quando i risultati sono estremamente ed univocamente indicativi, come nel caso di identificazione di sequenze identiche al 100% o comunque altamente similari. BLAST ed i preset In molti laboratori BLAST è utilizzato ampiamente, poiché apparentemente l interfaccia è semplice: si inserisce la sequenza nella finestra di sottomissione, si schiaccia il pulsante si submission e si

15 attendono ed esaminano i risultati. In realtà, la gran maggioranza degli utilizzatori non è consapevole dei preset impostati e del fatto che quelli che sono considerati i risultati in realtà variano al variare dei settings. E inoltre importante saper leggere i risultati stessi e reiterare le richieste per ottenere più informazioni. Questa sezione è quindi rivolta a fornire indicazioni per un uso evoluto di BLAST. Esaminiamo l interfaccia di BLAST disponibile presso il sito dell NCBI. Nel caso si voglia utilizzare una query sequence proteica per cercare sequenze omologhe, si utilizzerà blastp. Nella sezione Basic BLAST si seleziona protein blast e la pagina che si apre è già impostata su blastp. La pagina consente la sottomissione della sequenza, che può essere sottomessa in formato FASTA oppure come semplice sequenza. In quest ultimo caso, tuttavia, converrà indicare di cosa si tratta nella finestra Job Title per tenere traccia della query utilizzata. Per una singola ricerca ciò non è molto importante, ma quando si usano più sequenze query, spesso si memorizzano i file con i risultati per poi analizzarli successivamente; in tal caso è opportuno che in ciascun file siano evidenti nome ed identificativo della sequenza query, per evitare confusione. Chi lancia BLAST subito dopo aver inserito la sequenza opera comunque scelte inconsapevoli : BLAST è solo un metodo che per funzionare si basa su molteplici settings variabili; inoltre anche i dataset di confronto sono variabili. Utilizzare i preset di base non significa quindi non avere operato alcuna scelta, quanto piuttosto avere accettato i preset. Può darsi che ciò vada bene, ma è opportuno sapere cosa si sta facendo, perché i risultati e la loro visualizzazione, spesso parziale, dipendono dai settings. Una prima cosa di cui spessso un utente non evoluto di BLAST non è consapevole è la scelta del database. Non ha senso dire questo è il risultato di BLAST in senso assoluto, poiché BLAST opera un confronto ed il risultato pertanto dipende tanto dalla query sequence quanto dai database che contengono le subject sequences con cui la query è allineata. Se, ad esempio, utilizziamo due volte la stessa query, mantenendo tutti i parametri dell algoritmo invariati, ma cambiamo database, i risultati saranno diversi. Per questo motivo la ripetizione delle ricerche con BLAST presso più server (ad es. NCBI ed EBI) consente di ottenere informazioni più complete. A volte la completezza di un dataset può essere un problema, più che una risorsa. In blastp il preset per il database è non-redudant protein sequences (nr). Questo database in pratica mira a fornire un set non ridondante di sequenze da più database. In teoria, è la scelta ottimale ed infatti è il preset. Tuttavia c è comunque ridondanza nei database e confrontare la query con un gran numero di sequenze può portare alla visualizzazione di risultati non sempre indicativi. Supponiamo, ad esempio, che si cerchino indicazioni sulla struttura di domini di una proteina non ancora caratterizzata. In tal caso desideriamo individuare - grazie alla capacità di allineamento locale di blast - blocchi di allineamento tra frammenti della nostra query ed altre proteine (intere o frammenti). Tuttavia, se vi sono in banca dati molte sequenze omologhe alla query, poiché il numero di sequenze mosrate in output è limitato da uno dei preset, c è il rischio che siano visualizzati solo allineamenti completi, nei quali cioè l intera query è allineata alle sequenze subject. Selezionare uno specifico database è quindi un operazione di modifica dei preset che molto spesso ha senso e può velocizzare la ricerca di informazioni. Ad esempio, ridurre la ricerca al solo database SwissProt, che contiene meno sequenze, ma ben annotate, porta a trovare nei risultati, ovvero tra le sequenze omologhe estratte, proteine per le quali sono spesso disponibili molte informazioni. E più importante infatti esaminare poche sequenze di qualità che trovare estratte molte sequenze delle quali alcune ridondanti, altre false predizioni, altre infine prive di annotazione d interesse... Tuttavia la modifica dei preset è un operazione che va fatta con intelligenza, utilizzata per estendere la ricerca. Meglio reiterare 3-4 volte una ricerca con BLAST ed ottenere informazioni utili per indirizzare il lavoro sperimentale, che risparmiare mezz ora di tempo e perdere informazioni che magari possono far risparmiare settimane o mesi di lavoro al banco... quindi modificare i preset non significa ad es. cercare solo in SwissProt, quanto piuttosto, dopo aver svolto la ricerca con i preset, modificare il database e reiterare con selezione SwissProt. Non si deve pensare, infatti, che selezionando un solo database o l insieme di tutti che lòo contiene sia inutile: le sequenze di SwissProt omologhe alla sonda

16 potrebbero essere estratte egualmente con la ricerca impostata su nr, ma non comparire in output per la limitazione nel numero di sequenze mostrate. Ad esempio, supponiamo che una certa sequenza XYZ presente in SwissProt ed omologa alla query possa fornirci informazioni utilissime. Utilizzando: database = SwissProt, se la sequenza XYZ è la settantaduesima in elenco, essa è visibile poiché è mantenuto il preset: sequenze in output = prime 100. Se tuttavia manteniamo anche il preset: database = non redudant (nr), la sequenza XYZ, a causa dell estrazione di molte altre sequenze, potrebbe scivolare oltre il centesimo posto in elenco e non essere più visualizzata. Si potrebbe dedurre che sia opportuno modificare il preset di visualizzazione, portandolo ad es. a mille, ma limitarsi a questo per non cambiare database non è una buona strategia. Infatti nei casi in cui la sequenza di interesse è un frammento piccolo, con score basso, il rischio che sia non visualizzato resta alto. D altronde, esaminare centinaia di alllineamenti prende molto tempo. Meglio dunque seguire la strategia di più ricerche, ciascuna in differenti database. Valutazione preliminare di output grafico ed elenco sequenze Nell esaminare il risultato di BLAST si deve tenere conto che le applicazioni disponibili in rete differiscono sia per l'ottimizzazione degli algoritmi che per le opzioni di output. In tutte le interfacce che dispongono di output grafico, questo può essere subito indicativo. Ad esempio, questo output ottenuto da BLAST presso il server svizzero SIB: mostra chiaramente che un primo set di sequenze è omologa con l intera sonda, mentre la regione di similarità è ristretta per un secondo set di sequenze alla sola parte N-terminale. Questo indica che la parte N-terminale della query è più conservata del resto della proteina, suggerendo che essa possa rappresentare un dominio (o regione) con una specifica funzione e che il resto della proteina possa avere una funzione diversa e quindi vi siano almeno due regioni/domini funzionali da analizzare. Ecco un altro esempio di output:

17 che mostra l esistenza di un blocco centrale più conservato delle regioni N- e C-terminale. Quindi, almeno 3 regioni funzionali, dove funzione non vuol dire necessariamente attività biochimica, intesa in senso enzimatico, quanto semplicemente regione proposta a mediare un meccanismo (legame di ioni, DNA, altre proteine, attività enzimatica o regolativa ecc.). Poiché la similarità non è alta (lo si deduce dal codice a colori delle barre), le sequenze potrebbero condividere domini specializzatisi per divergenza o essere infine caratterizzate da regioni a bassa complessità, formate per reiterazione e degenerazione di motivi semplici di sequenza, quali, ad esempio, le regioni coiled coil e quelle presenti nelle proteine ricche in un particolare aminoacido: in cui lo score dipende prevalentemente dalle identities, ovvero dall'allineamento tra gli aminoacidi del tipo iper-rappresentato in entrambe le sequenze. Dopo aver valutato l'output grafico (non sempre disponibile!) si passa all'analisi dell'elenco delle proteine estratte. L'elenco mostrato di seguito è limitato alle prime sequenze per ragioni di spazio:

18 Le prime tre mostrano i più alti valori di Score e sono rappresentate in verde nell'output grafico. La prima di esse, con numero di accesso Q8WTU4, mostra 100% di identità con la sequenza sonda: Sebbene (per motivi di spazio) si sia mostrato l'allineamento dei soli primi 60 residui, gli elementi informativi essenziali sono rilevabili: oltre alla descrizione della sequenza estratta "Hypothetical..." sono indicati l'organismo cui appartiene e, subito dopo, la lunghezza. A seguire, i valori di Score (che in questo caso è il più alto e varia da allineamento ad allineamento) e di Expect (pari a zero in questo caso) precedono l'indicazione del numero di residui identici (identities) e dell'insieme "residui identici + compatibili", la cui somma (positives,) che in questo caso coincide con identities perchè le sequenze sono uguali. Quando invece le sequenze sono diverse, il numero di residui "compatibili" (secondo il sistema di valutazione implementato) è pari alla differenza tra positives ed identities. Infine, è da ricordare che l'allineamento tra le due sequenze viene diviso per motivi di visualizzazione in blocchi di lunghezza prestabilita (in questo caso, 60 residui), in cui la sequenza marcata "Query" è la sonda e quella marcata "Sbjct" è la sequenza estratta. Tra i residui delle due sequenze, la riga intermedia riporta tutti i residui identici e, in caso di residui compatibili, il simbolo "+". Quando i residui allineati non sono compatibili, è lasciato uno spazio vuoto. Sebbene la prima sequenza Sbjct sia identica alla Query, essa non fornisce indicazioni utili sulla possibile funzione della proteina sonda, in quanto è una "Hypothetical protein" di funzione ignota. Più informativa è la seconda proteina, per la quale è indicata una funzione ("regulatory factor"): Tuttavia bisogna saper leggere: la Sbjct Q8VBY6 non è il regulatory factor, ma solo una proteina simile ("Similar to") a tale fattore regolativo... Nell'allineamento dei primi 60 residui mostrati non si rilevano differenze, ma ciò non deve ingannare, poiché è chiaramente indicato che, dei 749 residui allineati, molti ma non tutti (741) sono identici e 4 (ovvero, ) sono "compatibili". La terza proteina estratta, sebbene non omologa nell'estrema regione C-terminale, offre ulteriori informazioni: Infatti, sebbene abbia un valore di Score più basso della proteina di topo, essa è perfettamente identica alla sonda per i primi 656 residui. Dalla lunghezza indicata (707 AA) si deduce la presenza di una "coda" C-terminale divergente di circa 50 residui. Dalla parte iniziale dell'allineamento tra sonda e sequenza Q9W523 di Drosophila si possono rilevare alcune cose interessanti:

19 Infatti, a parte il valore di Score più basso (e quello di Expect più alto), si comprende la natura locale dell'allineamento (non per nulla BLAST vuol dire: Basic Local Alignment Search Tool...) tra la regione N-terminale della proteina sonda (ciò è asserito dai numeri "10" e "91" che indicano il primo ed ultimo residuo mostrati della sequenza "Query") ed una regione interna (residui di Sbjct) della grande (1624 AA) proteina di Drosophila. Si può inoltre rilevare che la maggior parte degli aminoacidi conservati sono residui di glutamina (simbolo "Q"). Estrazione di informazioni mediante link L'elenco delle sequenze estratte con BLAST solitamente contiene link (in blu e sottolineati) attraverso i quali si possono ottenere ulteriori informazioni. Tornando alle sequenze estratte nella ricerca "A", un clic sul link rappresentato dal numero di accesso della terza sequenza: richiama la scheda della proteina stessa (della quale si riportano solo alcune parti): In ciascuna scheda sono indicate, se disponibili, una o più referenze bibliografiche: in cui il link finale, rappresentato dalla sigla della rivista e dagli estremi del numero pubblicato, consente di accedere alla pagine web dell'articolo:

20 in cui sono riportati, ancora una volta, nome della rivista, titolo ed autori e compare un abstract (sommario informativo) dell'articolo. Nella scheda della sequenza estratta e richiamata mediante il link al numero d'accesso sono contenute, sempre o quasi, "Cross-references", ovvero link ad altre schede inerenti, quali ad es. sequenza genica codificante, organismo ed eventuali database relativi a tratti ereditari, malattie genetiche, famiglie di domini ecc.: Molto spesso, come nella normale ed a volte perfino ludica "navigazione in internet", il passaggio da un link ad un altro, soprattutto se si è abili nel non andare "fuori strada", può in tempi rapidi fornire moltissime informazioni utili e portarci a conoscenza di fenomeni biologici sconosciuti o quasi e possibilmente illuminanti per la nostra ricerca. Tuning: modifica dei parametri e reiterazione dell'analisi Nell'uso di BLAST in molti casi ci si limita ad una ricerca effettuata lasciando inalterati i set preimpostati: questo tipo di approccio in alcuni casi è sufficiente a rivelare informazioni abbastanza o completamente indicative; molte volte, tuttavia, fermarsi ai primi risultati ottenuti può essere un errore. Se, ad esempio, l'output di BLAST mostra che la sequenza utilizzata come query si allinea con elevati indici di similarità ad una o più sequenze dei database in cui si è svolta la ricerca, il confronto delle sequenze e l'analisi delle sequenze omologhe può essere sufficientemente informativo. Tuttavia, molto spesso l'output di BLAST mostra la presenza di una o più sequenze omologhe per le quali gli indici di similarità sono più bassi o addirittura molto bassi e l'allineamento è talora limitato a corti frammenti della sequenza query. In questi casi è ragionevole reiterare le analisi modificando i parametri di ricerca. Si definisce gergalmente "tuning" uno o più cicli di reiterazione e modifica dei parametri alla ricerca di risultati non emersi o poco chiari nelle analisi preliminari. Per comprendere come e quando si ricorra al tuning nelle analisi è necessario anche avere un'idea delle molteplici finalità di una ricerca BLAST. Tra i possibili approcci che si avvalgono di BLAST, in alcune analisi evoluzionistiche si usa come sonda "query" un gene o una proteina di un certo organismo per cercarne nei database ortologhi e paraloghi e delinearne la diffusione ed evoluzione negli organismi ed i membri della sua famiglia genica/proteica. E' evidente che, in tal caso, ricerche limitate ai parametri

Allineamento locale: BLAST

Allineamento locale: BLAST Allineamento locale: BLAST BLAST (Basic Local Alignment Search Tool) è il più diffuso programma di allineamento locale delle sequenze. Per vari anni il metodo FASTA (da non confondere con l omonimo formato)

Dettagli

Dal DNA alle proteine: La trascrizione e la traduzione

Dal DNA alle proteine: La trascrizione e la traduzione Dal DNA alle proteine: La trascrizione e la traduzione DNA RNA Trascrizione RNA PROTEINE Traduzione Dove avvengono? GLI EUCARIOTI I PROCARIOTI Cambell, Reece Biologia ZANICHELLI Trascrizione Sintesi di

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo Evoluzione In ogni popolazione si verificano delle mutazioni. Intelligenza Artificiale In un ambiente che varia, le mutazioni possono generare individui che meglio si adattano alle nuove condizioni. Questi

Dettagli

4. Ricerca di sequenze in banche dati e allineamento multiplo

4. Ricerca di sequenze in banche dati e allineamento multiplo 4. Ricerca di sequenze in banche dati e allineamento multiplo Collegatevi al sito www.ncbi.nlm.nih.gov/blast. Apparirà una pagina nella quale le versioni di BLAST disponibili sono organizzate in base al

Dettagli

VALORE DELLE MERCI SEQUESTRATE

VALORE DELLE MERCI SEQUESTRATE La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune

Dettagli

Appunti sulla Macchina di Turing. Macchina di Turing

Appunti sulla Macchina di Turing. Macchina di Turing Macchina di Turing Una macchina di Turing è costituita dai seguenti elementi (vedi fig. 1): a) una unità di memoria, detta memoria esterna, consistente in un nastro illimitato in entrambi i sensi e suddiviso

Dettagli

Calcolo delle probabilità

Calcolo delle probabilità Calcolo delle probabilità Laboratorio di Bioinformatica Corso A aa 2005-2006 Statistica Dai risultati di un esperimento si determinano alcune caratteristiche della popolazione Calcolo delle probabilità

Dettagli

Codifiche a lunghezza variabile

Codifiche a lunghezza variabile Sistemi Multimediali Codifiche a lunghezza variabile Marco Gribaudo marcog@di.unito.it, gribaudo@elet.polimi.it Assegnazione del codice Come visto in precedenza, per poter memorizzare o trasmettere un

Dettagli

Strutturazione logica dei dati: i file

Strutturazione logica dei dati: i file Strutturazione logica dei dati: i file Informazioni più complesse possono essere composte a partire da informazioni elementari Esempio di una banca: supponiamo di voler mantenere all'interno di un computer

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1 LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1 I CODICI 1 IL CODICE BCD 1 Somma in BCD 2 Sottrazione BCD 5 IL CODICE ECCESSO 3 20 La trasmissione delle informazioni Quarta Parte I codici Il codice BCD

Dettagli

Analisi e diagramma di Pareto

Analisi e diagramma di Pareto Analisi e diagramma di Pareto L'analisi di Pareto è una metodologia statistica utilizzata per individuare i problemi più rilevanti nella situazione in esame e quindi le priorità di intervento. L'obiettivo

Dettagli

Capitolo 2. Operazione di limite

Capitolo 2. Operazione di limite Capitolo 2 Operazione di ite In questo capitolo vogliamo occuparci dell operazione di ite, strumento indispensabile per scoprire molte proprietà delle funzioni. D ora in avanti riguarderemo i domini A

Dettagli

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE 51 Dichiarazione d intenti (mission statement) La dichiarazione d intenti ha il compito di stabilire degli obiettivi dal punto di vista del mercato, e in parte dal

Dettagli

Protocollo di tracciamento e valutazione degli studenti dei corsi di italiano ICoNLingua A.A. 2013-2014

Protocollo di tracciamento e valutazione degli studenti dei corsi di italiano ICoNLingua A.A. 2013-2014 Progetto ICoNLingua Scienza senza Frontiere CsF- Italia Protocollo di tracciamento e valutazione degli studenti dei corsi di italiano ICoNLingua A.A. 2013-2014 1. Introduzione La valutazione sia in itinere

Dettagli

Uso di base delle funzioni in Microsoft Excel

Uso di base delle funzioni in Microsoft Excel Uso di base delle funzioni in Microsoft Excel Le funzioni Una funzione è un operatore che applicato a uno o più argomenti (valori, siano essi numeri con virgola, numeri interi, stringhe di caratteri) restituisce

Dettagli

risulta (x) = 1 se x < 0.

risulta (x) = 1 se x < 0. Questo file si pone come obiettivo quello di mostrarvi come lo studio di una funzione reale di una variabile reale, nella cui espressione compare un qualche valore assoluto, possa essere svolto senza necessariamente

Dettagli

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo. DALLE PESATE ALL ARITMETICA FINITA IN BASE 2 Si è trovato, partendo da un problema concreto, che con la base 2, utilizzando alcune potenze della base, operando con solo addizioni, posso ottenere tutti

Dettagli

Il riduttore di focale utilizzato è il riduttore-correttore Celestron f/ 6.3.

Il riduttore di focale utilizzato è il riduttore-correttore Celestron f/ 6.3. LE FOCALI DEL C8 Di Giovanni Falcicchia Settembre 2010 Premessa (a cura del Telescope Doctor). Il Celestron C8 è uno Schmidt-Cassegrain, ovvero un telescopio composto da uno specchio primario concavo sferico

Dettagli

SPC e distribuzione normale con Access

SPC e distribuzione normale con Access SPC e distribuzione normale con Access In questo articolo esamineremo una applicazione Access per il calcolo e la rappresentazione grafica della distribuzione normale, collegata con tabelle di Clienti,

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede

Dettagli

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI) COMUNE DI RAVENNA Il sistema di valutazione delle posizioni del personale dirigente GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI) Ravenna, Settembre 2004 SCHEMA DI SINTESI PER LA

Dettagli

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY. Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY. Lezioni Lincee Palermo, 26 Febbraio 2015 Alla base della vita degli

Dettagli

( x) ( x) 0. Equazioni irrazionali

( x) ( x) 0. Equazioni irrazionali Equazioni irrazionali Definizione: si definisce equazione irrazionale un equazione in cui compaiono uno o più radicali contenenti l incognita. Esempio 7 Ricordiamo quanto visto sulle condizioni di esistenza

Dettagli

DNA - RNA. Nucleotide = Gruppo Fosforico + Zucchero Pentoso + Base Azotata. Le unità fondamentali costituenti il DNA e l RNA sono i Nucleotidi.

DNA - RNA. Nucleotide = Gruppo Fosforico + Zucchero Pentoso + Base Azotata. Le unità fondamentali costituenti il DNA e l RNA sono i Nucleotidi. DNA - RNA Le unità fondamentali costituenti il DNA e l RNA sono i Nucleotidi. Nucleotide = Gruppo Fosforico + Zucchero Pentoso + Base Azotata. Esistono 4 basi azotate per il DNA e 4 per RNA Differenze

Dettagli

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video Video Librerie digitali Gestione di video Ogni filmato è composto da più parti Video Audio Gestito come visto in precedenza Trascrizione del testo, identificazione di informazioni di interesse Testo Utile

Dettagli

Gestione della memoria centrale

Gestione della memoria centrale Gestione della memoria centrale Un programma per essere eseguito deve risiedere in memoria principale e lo stesso vale per i dati su cui esso opera In un sistema multitasking molti processi vengono eseguiti

Dettagli

Stampa su moduli prestampati utilizzando Reflection for IBM 2011 o 2008

Stampa su moduli prestampati utilizzando Reflection for IBM 2011 o 2008 Stampa su moduli prestampati utilizzando Reflection for IBM 2011 o 2008 Ultima revisione 13 novembre 2008 Nota: Le informazioni più aggiornate vengono prima pubblicate in inglese nella nota tecnica: 2179.html.

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

Rapporto dal Questionari Insegnanti

Rapporto dal Questionari Insegnanti Rapporto dal Questionari Insegnanti SCUOLA CHIC81400N N. Docenti che hanno compilato il questionario: 60 Anno Scolastico 2014/15 Le Aree Indagate Il Questionario Insegnanti ha l obiettivo di rilevare la

Dettagli

Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste

Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste versione 2.1 24/09/2015 aggiornamenti: 23-set-2015; 24-set-2015 Autore: Francesco Brunetta (http://www.francescobrunetta.it/)

Dettagli

Calcolo del Valore Attuale Netto (VAN)

Calcolo del Valore Attuale Netto (VAN) Calcolo del Valore Attuale Netto (VAN) Il calcolo del valore attuale netto (VAN) serve per determinare la redditività di un investimento. Si tratta di utilizzare un procedimento che può consentirci di

Dettagli

Laboratorio di Pedagogia Sperimentale. Indice

Laboratorio di Pedagogia Sperimentale. Indice INSEGNAMENTO DI LABORATORIO DI PEDAGOGIA SPERIMENTALE LEZIONE III INTRODUZIONE ALLA RICERCA SPERIMENTALE (PARTE III) PROF. VINCENZO BONAZZA Indice 1 L ipotesi -----------------------------------------------------------

Dettagli

REPLICAZIONE DEL DNA

REPLICAZIONE DEL DNA REPLICAZIONE DEL DNA La replicazione (o anche duplicazione) è il meccanismo molecolare attraverso cui il DNA produce una copia di sé stesso. Ogni volta che una cellula si divide, infatti, l'intero genoma

Dettagli

. A primi passi con microsoft a.ccepss SommarIo: i S 1. aprire e chiudere microsoft access Start (o avvio) l i b tutti i pro- grammi

. A primi passi con microsoft a.ccepss SommarIo: i S 1. aprire e chiudere microsoft access Start (o avvio) l i b tutti i pro- grammi Capitolo Terzo Primi passi con Microsoft Access Sommario: 1. Aprire e chiudere Microsoft Access. - 2. Aprire un database esistente. - 3. La barra multifunzione di Microsoft Access 2007. - 4. Creare e salvare

Dettagli

DATA BASE ON LINE (BANCA DATI MODULI SPERIMENTALI)

DATA BASE ON LINE (BANCA DATI MODULI SPERIMENTALI) Progetto regionale antidispersione per favorire l adempimento dell obbligo d istruzione 2 a annualità DATA BASE ON LINE (BANCA DATI MODULI SPERIMENTALI) MANUALE DI UTILIZZO Indice Premessa 3 Ingresso nel

Dettagli

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi. Iniziamo con definizione (capiremo fra poco la sua utilità): DEFINIZIONE DI VARIABILE ALEATORIA Una variabile aleatoria (in breve v.a.) X è funzione che ha come dominio Ω e come codominio R. In formule:

Dettagli

Excel. A cura di Luigi Labonia. e-mail: luigi.lab@libero.it

Excel. A cura di Luigi Labonia. e-mail: luigi.lab@libero.it Excel A cura di Luigi Labonia e-mail: luigi.lab@libero.it Introduzione Un foglio elettronico è un applicazione comunemente usata per bilanci, previsioni ed altri compiti tipici del campo amministrativo

Dettagli

3. Confronto tra due sequenze

3. Confronto tra due sequenze 3. Confronto tra due sequenze Esercizio 1: uso di DotLet Il programma DotLet è accessibile dal sito http://myhits.isb-sib.ch/cgi-bin/dotlet, dove può essere utilizzato attraverso un interfaccia utente

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE LE SUCCESSIONI 1. COS E UNA SUCCESSIONE La sequenza costituisce un esempio di SUCCESSIONE. Ecco un altro esempio di successione: Una successione è dunque una sequenza infinita di numeri reali (ma potrebbe

Dettagli

DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1

DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1 DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1 Marta Desimoni**, Daniela Pelagaggi**, Simona Fanini**, Loredana Romano**,Teresa Gloria Scalisi* * Dipartimento

Dettagli

CAPACITÀ DI PROCESSO (PROCESS CAPABILITY)

CAPACITÀ DI PROCESSO (PROCESS CAPABILITY) CICLO DI LEZIONI per Progetto e Gestione della Qualità Facoltà di Ingegneria CAPACITÀ DI PROCESSO (PROCESS CAPABILITY) Carlo Noè Università Carlo Cattaneo e-mail: cnoe@liuc.it 1 CAPACITÀ DI PROCESSO Il

Dettagli

Guida Compilazione Piani di Studio on-line

Guida Compilazione Piani di Studio on-line Guida Compilazione Piani di Studio on-line SIA (Sistemi Informativi d Ateneo) Visualizzazione e presentazione piani di studio ordinamento 509 e 270 Università della Calabria (Unità organizzativa complessa-

Dettagli

COME VIENE REALIZZATA UNA RICERCA SPERIMENTALE IN BIOLOGIA MOLECOLARE?

COME VIENE REALIZZATA UNA RICERCA SPERIMENTALE IN BIOLOGIA MOLECOLARE? COME VIENE REALIZZATA UNA RICERCA SPERIMENTALE IN BIOLOGIA MOLECOLARE? A Flusso di attività B - INPUT C Descrizione dell attività D RISULTATO E - SISTEMA PROFESSIONALE 0. RICHIESTA DI STUDIARE E/O INDIVIDUARE

Dettagli

1. Distribuzioni campionarie

1. Distribuzioni campionarie Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie

Dettagli

per immagini guida avanzata Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1

per immagini guida avanzata Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Una tabella Pivot usa dati a due dimensioni per creare una tabella a tre dimensioni, cioè una tabella

Dettagli

Interesse, sconto, ratei e risconti

Interesse, sconto, ratei e risconti TXT HTM PDF pdf P1 P2 P3 P4 293 Interesse, sconto, ratei e risconti Capitolo 129 129.1 Interesse semplice....................................................... 293 129.1.1 Esercizio per il calcolo dell

Dettagli

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0 Rappresentazione dei numeri I numeri che siamo abituati ad utilizzare sono espressi utilizzando il sistema di numerazione decimale, che si chiama così perché utilizza 0 cifre (0,,2,3,4,5,6,7,8,9). Si dice

Dettagli

Rappresentazione dei numeri in un calcolatore

Rappresentazione dei numeri in un calcolatore Corso di Calcolatori Elettronici I A.A. 2010-2011 Rappresentazione dei numeri in un calcolatore Lezione 2 Università degli Studi di Napoli Federico II Facoltà di Ingegneria Rappresentazione dei numeri

Dettagli

PROGRAMMA GESTIONE TURNI MANUALE UTENTE. Programma Gestione Turni Manuale Utente versione 1.1

PROGRAMMA GESTIONE TURNI MANUALE UTENTE. Programma Gestione Turni Manuale Utente versione 1.1 PROGRAMMA GESTIONE TURNI MANUALE UTENTE INDICE 1 PREMESSA 3 2 COMANDI COMUNI 3 3 SEDI 3 4 FESTIVITÀ 4 5 PERIODI TURNI 4 6 COD. TURNI 6 7 TURNI SPORTIVI 9 8 COD. EQUIPAGGI 9 9 DISPONIBILITÀ 10 10 INDISPONIBILITÀ

Dettagli

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

LE FUNZIONI A DUE VARIABILI

LE FUNZIONI A DUE VARIABILI Capitolo I LE FUNZIONI A DUE VARIABILI In questo primo capitolo introduciamo alcune definizioni di base delle funzioni reali a due variabili reali. Nel seguito R denoterà l insieme dei numeri reali mentre

Dettagli

Project Cycle Management

Project Cycle Management Project Cycle Management Tre momenti centrali della fase di analisi: analisi dei problemi, analisi degli obiettivi e identificazione degli ambiti di intervento Il presente materiale didattico costituisce

Dettagli

SISTEMI DI NUMERAZIONE E CODICI

SISTEMI DI NUMERAZIONE E CODICI SISTEMI DI NUMERAZIONE E CODICI Il Sistema di Numerazione Decimale Il sistema decimale o sistema di numerazione a base dieci usa dieci cifre, dette cifre decimali, da O a 9. Il sistema decimale è un sistema

Dettagli

Capitolo 3. L applicazione Java Diagrammi ER. 3.1 La finestra iniziale, il menu e la barra pulsanti

Capitolo 3. L applicazione Java Diagrammi ER. 3.1 La finestra iniziale, il menu e la barra pulsanti Capitolo 3 L applicazione Java Diagrammi ER Dopo le fasi di analisi, progettazione ed implementazione il software è stato compilato ed ora è pronto all uso; in questo capitolo mostreremo passo passo tutta

Dettagli

Documento di accompagnamento: mediane dei settori bibliometrici

Documento di accompagnamento: mediane dei settori bibliometrici Documento di accompagnamento: mediane dei settori bibliometrici 1. Introduzione Vengono oggi pubblicate sul sito dell ANVUR e del MIUR 3 tabelle, deliberate nel CD dell ANVUR del 13 agosto 2012, relative

Dettagli

COMUNE DI PERUGIA AREA DEL PERSONALE DEL COMPARTO DELLE POSIZIONI ORGANIZZATIVE E DELLE ALTE PROFESSIONALITA

COMUNE DI PERUGIA AREA DEL PERSONALE DEL COMPARTO DELLE POSIZIONI ORGANIZZATIVE E DELLE ALTE PROFESSIONALITA COMUNE DI PERUGIA AREA DEL PERSONALE DEL COMPARTO DELLE POSIZIONI ORGANIZZATIVE E DELLE ALTE PROFESSIONALITA METODOLOGIA DI VALUTAZIONE DELLA PERFORMANCE Approvato con atto G.C. n. 492 del 07.12.2011 1

Dettagli

Correttezza. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 10. A. Miola Novembre 2007

Correttezza. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 10. A. Miola Novembre 2007 Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1 Dispensa 10 Correttezza A. Miola Novembre 2007 http://www.dia.uniroma3.it/~java/fondinf1/ Correttezza 1 Contenuti Introduzione alla correttezza

Dettagli

~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE

~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE STUDIO DI FUNZIONE Passaggi fondamentali Per effettuare uno studio di funzione completo, che non lascia quindi margine a una quasi sicuramente errata inventiva, sono necessari i seguenti 7 passaggi: 1.

Dettagli

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Premessa Con l analisi di sensitività il perito valutatore elabora un range di valori invece di un dato

Dettagli

VERIFICA DELLE IPOTESI

VERIFICA DELLE IPOTESI VERIFICA DELLE IPOTESI Nella verifica delle ipotesi è necessario fissare alcune fasi prima di iniziare ad analizzare i dati. a) Si deve stabilire quale deve essere l'ipotesi nulla (H0) e quale l'ipotesi

Dettagli

Parte I. Prima Parte

Parte I. Prima Parte Parte I Prima Parte Capitolo 1 Introduzione generale 1.1 Il problema dell assegnazione Corsi-Borsisti Il problema dell assegnazione delle borse dei corsi ai vari studenti può essere riassunto nei punti

Dettagli

RECUPERO DATI LIFO DA ARCHIVI ESTERNI

RECUPERO DATI LIFO DA ARCHIVI ESTERNI RECUPERO DATI LIFO DA ARCHIVI ESTERNI È possibile importare i dati relativi ai LIFO di esercizi non gestiti con Arca2000? La risposta è Sì. Esistono tre strade per recuperare i dati LIFO per gli articoli

Dettagli

Il sistema monetario

Il sistema monetario Il sistema monetario Premessa: in un sistema economico senza moneta il commercio richiede la doppia coincidenza dei desideri. L esistenza del denaro rende più facili gli scambi. Moneta: insieme di tutti

Dettagli

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux Scheduling della CPU Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux Sistemi multiprocessori Fin qui si sono trattati i problemi di scheduling su singola

Dettagli

Servizi di consulenza specialistica per IGRUE 2009 2012

Servizi di consulenza specialistica per IGRUE 2009 2012 Allegato 9A Metodo della stima delle differenze Descrizione della procedura Il metodo della stima delle differenze è indicato qualora il controllore ritenga che la popolazione sia affetta da un tasso di

Dettagli

Gestione Risorse Umane Web

Gestione Risorse Umane Web La gestione delle risorse umane Gestione Risorse Umane Web Generazione attestati di partecipazione ai corsi di formazione (Versione V03) Premessa... 2 Configurazione del sistema... 3 Estrattore dati...

Dettagli

RNA non codificanti ed RNA regolatori

RNA non codificanti ed RNA regolatori RNA non codificanti ed RNA regolatori RNA non codificanti ed RNA regolatori Piccoli RNA non codificanti RNA regolatore microrna RNAi e sirna Piccoli RNA non codificanti Gli RNA non codificanti (ncrna)

Dettagli

STATISTICA IX lezione

STATISTICA IX lezione Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri

Dettagli

Luigi Piroddi piroddi@elet.polimi.it

Luigi Piroddi piroddi@elet.polimi.it Automazione industriale dispense del corso 10. Reti di Petri: analisi strutturale Luigi Piroddi piroddi@elet.polimi.it Analisi strutturale Un alternativa all analisi esaustiva basata sul grafo di raggiungibilità,

Dettagli

Struttura e funzione dei geni. Paolo Edomi - Genetica

Struttura e funzione dei geni. Paolo Edomi - Genetica Struttura e funzione dei geni 1 Il DNA è il materiale genetico La molecola di DNA conserva l informazione genetica: topi iniettati con solo DNA di batteri virulenti muoiono 2 Proprietà del DNA Il DNA presenta

Dettagli

per immagini guida avanzata Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1

per immagini guida avanzata Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Il raggruppamento e la struttura dei dati sono due funzioni di gestione dati di Excel, molto simili tra

Dettagli

Algoritmi e strutture dati. Codici di Huffman

Algoritmi e strutture dati. Codici di Huffman Algoritmi e strutture dati Codici di Huffman Memorizzazione dei dati Quando un file viene memorizzato, esso va memorizzato in qualche formato binario Modo più semplice: memorizzare il codice ASCII per

Dettagli

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione

Dettagli

SERVIZIO NAZIONALE DI VALUTAZIONE 2010 11

SERVIZIO NAZIONALE DI VALUTAZIONE 2010 11 SERVIZIO NAZIONALE DI VALUTAZIONE 2010 11 Le rilevazioni degli apprendimenti A.S. 2010 11 Gli esiti del Servizio nazionale di valutazione 2011 e della Prova nazionale 2011 ABSTRACT Le rilevazioni degli

Dettagli

REGOLAMENTO (UE) N. 1235/2011 DELLA COMMISSIONE

REGOLAMENTO (UE) N. 1235/2011 DELLA COMMISSIONE 30.11.2011 Gazzetta ufficiale dell Unione europea L 317/17 REGOLAMENTO (UE) N. 1235/2011 DELLA COMMISSIONE del 29 novembre 2011 recante modifica del regolamento (CE) n. 1222/2009 del Parlamento europeo

Dettagli

AGGIORNAMENTO AREA SEMANTICA GESTIONE SOGGETTARI

AGGIORNAMENTO AREA SEMANTICA GESTIONE SOGGETTARI Pag. 1 di 9 Manuale Utente Aprile 2013 -MUT-01--Gestione_Soggetto Pag. 2 di 9 INDICE 1. SCOPO DEL DOCUMENTO... 3 2. DESCRIZIONE... 3 3. GESTIONE DI EDIZIONI DIVERSE DEL SOGGETTARIO DI FIRENZE... 3 3.1

Dettagli

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi ControlloCosti Cubi OLAP I cubi OLAP Un Cubo (OLAP, acronimo di On-Line Analytical Processing) è una struttura per la memorizzazione e la gestione dei dati che permette di eseguire analisi in tempi rapidi,

Dettagli

03. Il Modello Gestionale per Processi

03. Il Modello Gestionale per Processi 03. Il Modello Gestionale per Processi Gli aspetti strutturali (vale a dire l organigramma e la descrizione delle funzioni, ruoli e responsabilità) da soli non bastano per gestire la performance; l organigramma

Dettagli

Plate Locator Riconoscimento Automatico di Targhe

Plate Locator Riconoscimento Automatico di Targhe Progetto per Laboratorio di Informatica 3 - Rimotti Daniele, Santinelli Gabriele Plate Locator Riconoscimento Automatico di Targhe Il programma plate_locator.m prende come input: l immagine della targa

Dettagli

ISTRUZIONI PER LA GESTIONE BUDGET

ISTRUZIONI PER LA GESTIONE BUDGET ISTRUZIONI PER LA GESTIONE BUDGET 1) OPERAZIONI PRELIMINARI PER LA GESTIONE BUDGET...1 2) INSERIMENTO E GESTIONE BUDGET PER LA PREVISIONE...4 3) STAMPA DIFFERENZE CAPITOLI/BUDGET.10 4) ANNULLAMENTO BUDGET

Dettagli

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi Versione 2.0 Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi Corso anno 2011 E. MANUALE UTILIZZO HAZARD MAPPER Il programma Hazard Mapper è stato realizzato per redarre,

Dettagli

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che:

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che: Teoria dei Giochi, Trento, 2004/05 c Fioravante Patrone 1 Teoria dei Giochi Corso di laurea specialistica: Decisioni economiche, impresa e responsabilità sociale, A.A. 2004/05 Soluzioni degli esercizi

Dettagli

Logistica magazzino: Inventari

Logistica magazzino: Inventari Logistica magazzino: Inventari Indice Premessa 2 Scheda rilevazioni 2 Registrazione rilevazioni 3 Filtro 3 Ricerca 3 Cancella 3 Stampa 4 Creazione rettifiche 4 Creazione rettifiche inventario 4 Azzeramento

Dettagli

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL 1 RAPPRESENTAZIONE GRAFICA Per l analisi dati con Excel si fa riferimento alla versione 2007 di Office, le versioni successive non differiscono

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 12-Il t-test per campioni appaiati vers. 1.2 (7 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

INFORMATIVA SUL DIRITTO ALLA PRIVACY PER LA CONSULTAZIONE DEL SITO WEB www.arlatighislandi.it

INFORMATIVA SUL DIRITTO ALLA PRIVACY PER LA CONSULTAZIONE DEL SITO WEB www.arlatighislandi.it INFORMATIVA SUL DIRITTO ALLA PRIVACY PER LA CONSULTAZIONE DEL SITO WEB www.arlatighislandi.it redatto ai sensi del decreto legislativo n 196/2003 2 GENNAIO 2014 documento pubblico 1 PREMESSA 3 SEZIONE

Dettagli

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 13: L offerta dell impresa e il surplus del produttore Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:

Dettagli

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Dipartimento di Ingegneria della Informazione Via Diotisalvi, 2 56122 PISA ALGORITMI GENETICI (GA) Sono usati per risolvere problemi di ricerca

Dettagli

Strumenti di indagine per la valutazione psicologica

Strumenti di indagine per la valutazione psicologica Strumenti di indagine per la valutazione psicologica 2.2 Mettere a punto un test psicologico Davide Massidda davide.massidda@gmail.com Da dove partire C'è davvero bisogno di un nuovo strumento di misura?

Dettagli

Esempi di algoritmi. Lezione III

Esempi di algoritmi. Lezione III Esempi di algoritmi Lezione III Scopo della lezione Implementare da zero algoritmi di media complessità. Verificare la correttezza di un algoritmo eseguendolo a mano. Imparare a valutare le prestazioni

Dettagli

Progetto di simulazione molecolare per il corso di Complementi di algoritmi A.A. 2005-06

Progetto di simulazione molecolare per il corso di Complementi di algoritmi A.A. 2005-06 Progetto di simulazione molecolare per il corso di Complementi di algoritmi A.A. 2005-06 13 febbraio 2006 1 Descrizione Il progetto si compone delle seguenti fasi: 1. caricamento di soluzioni in formato

Dettagli

TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA

TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA SCUOLA PRIMARIA DI CORTE FRANCA MATEMATICA CLASSE QUINTA TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA L ALUNNO SVILUPPA UN ATTEGGIAMENTO POSITIVO RISPETTO ALLA MATEMATICA,

Dettagli

Il rischio cancerogeno e mutageno

Il rischio cancerogeno e mutageno Il rischio cancerogeno e mutageno Le sostanze cancerogene Un cancerogeno è un agente capace di provocare l insorgenza del cancro o di aumentarne la frequenza in una popolazione esposta. Il cancro è caratterizzato

Dettagli

Cominciamo dalla barra multifunzione, ossia la struttura a schede che ha sostituito la barra dei menu e la barra delle icone (Figura 1).

Cominciamo dalla barra multifunzione, ossia la struttura a schede che ha sostituito la barra dei menu e la barra delle icone (Figura 1). La barra multifunzione La barra multifunzione e il pulsante Microsoft Office Se avete lavorato per tanti anni con la suite da ufficio Office, questa nuova versione 2007 può disorientarvi davvero molto.

Dettagli

Sensori a effetto Hall bipolari con ritenuta stabilizzati e non stabilizzati con circuito chopper

Sensori a effetto Hall bipolari con ritenuta stabilizzati e non stabilizzati con circuito chopper Sensori a effetto Hall bipolari con ritenuta stabilizzati e non stabilizzati con circuito chopper I risultati dei test mostrano che è possibile ottenere prestazioni significativamente maggiori impiegando

Dettagli