La ricerca di similarità: i metodi
|
|
- Livia Campo
- 7 anni fa
- Visualizzazioni
Transcript
1 La ricerca di similarità: i metodi Pairwise alignment allineamenti a coppie 1. Analisi della matrice a punti (dot matrix) 2. Programmazione dinamica (dynamic programming) allineamenti locale e globale. algoritmi che trovano la soluzione ottima. 3. Metodo delle n-tuple (Fasta, Blast) le banche dati crescono a dismisura e gli algoritmi ottimi sono computazionalmente molto lunghi. Compromesso tra velocità e precisione per avvicinarsi alla soluzione ottima ideale. In questo caso si parla di euristica. I metodi delle n-ple sono difficili da quantificare in complessità di calcolo ma in generale l ordine passa da O(n 2 ) a O(n). FASTA FASTA è un programma che cerca similarità locali utilizzando l algoritmo di Pearson e Lipman La sua strategia è quella di suddividere la sequenza query in tante sottosequenze lunghe 1 o 2 amminoacidi (parole). Il passo seguente è quello di suddivere tutte le sequenze della banca dati in sequenze di stessa lunghezza e di calcolare la posizione delle varie parole in tutte le sequenze. Per velocizzare i calcoli il programma ha già preparato una tabella con tutte le possibili combinazioni di due o tre amminoacidi ( 20 x 20 = 400 combinazioni) e calcola il numero e la posizione delle varie parole che compongono ogni singola sequenza. Per esempio data una query di sequenza: MAPESRTGSAATATSTD MA AP PE ES.. e una libreria di n sequenze avremo: 1) LCSPAPATREYFELFARIGIDKK 2) ETAHGSAATATWKLINCV n) parola 1 2 n MA - - AP 5 - PE - - ES - - SR - - RT - - TG - GS - 5 SA - 6 AA - 7 AT 7 8,10 TA - 2,9 AT - 10 TS - - ST - - ecc. 1
2 FASTA Subito dopo FASTA si preoccupa di calcolare il cosiddetto offset. Dopo aver determinato tutte le parole in comune tra la sequenza query e tutte le altre sequenze della banca dati, si preoccupa di determinarne le posizioni relative, per identificare quelle con amminoacidi comuni in un allineamento senza interruzioni. In pratica calcola la differenza tra le posizioni parole nella query e quelle corrispondenti in ciascuna delle sequenze della banca dati. parola query 1 2 n offset 1 offset 2 offset n (1-query) (2-query) (n-query) MA AP PE ES SR 5 RT TG 7 GS SA AA AT , , -1 TA 12-2, , -3 AT TS ST Query FASTA Siccome nella tabella di offset, a valori uguali corrispondono amminoacidi allineati, si possono costruire allineamenti di proteine MAPESR TGSA ATATSTD Sequenza 2 ETAHGSA ATATWKLINCV Utilizzando opportune matrici di sostituzione, come BLOSUM 62 o PAM 240, si possono assegnare valori numerici ai vari allineamenti, scegliere le 10 regioni con i valori più alti e sommarle insieme ottenendo il valore chiamato init1. Tutti i valori di init1 vengono ordinati per valori decrescenti e i migliori vengono utilizzati per l analisi successiva E possibile introdurre gaps o inserzioni per allungare l estensione dell allineamento pagando delle penalizzazioni ( il punteggio init1 si abbassa ) Query PK---MAPESR TGSA ATATSTD--- N -V Sequenza 2 PKACVVMETAHGSA ATATWKLINCV I nuovi valori vengono ricalcolati con le stesse procedure e la somma dei nuovi dieci valori è chiamata initn. Ancora una volta i valori di initn vengono ordinati per valori decrescenti dal migliore al peggiore. I migliori valori, infine, vengono allineati alla sequenza query con un algoritmo di allineamento globale e i punteggi finali sono indicati opt. 2
3 FASTA a) Ricerca parole identiche tra le due seq. b) Ricerca diagonali (k-ple sulla stessa diagonale sono considerate parte dell allineamento senza gap se non distano troppo per un parametro fissato). Calcolo di init1 con le matrici solo i 10 più alti sono classificati ed il più alto utilizzato c) Allungamento con gap e calcolo di initn. Questa ricongiunzione viene effettuata se la penalità di ricongiungimento, proporzionale alla distanza tra le regioni di similarità, é inferiore al contributo dato al punteggio di similarità dalla regione di similarità che viene ricongiunta nell'allineamento. d) Nella quarta ed ultima fase, l'allineamento precedentemente ottenuto viene ulteriormente ottimizzato utilizzando la procedura di allineamento descritta da Chao et al. (1992) che utilizza un algoritmo per l'allineamento di due sequenze all'interno di una banda diagonale di dimensioni predeterminate. Il punteggio di similarità calcolato in questa ultima fase viene denominato punteggio opt. Dopo aver calcolato i punteggi finali (opt) FASTA elabora i risultati per stimare la significatività statistica dei risultati operando come segue: Genera un numero statisticamente significativo di combinazioni di sequenze con la stessa lunghezza e la stessa composizione amminoacidica della sequenza query Per ciascuna di esse lancia un FASTA contro un subset della banca dati Calcola la media (muµ), la deviazione standard (rhoσ), assumendo che i valori si distribuiscano in modo normale (cioè con una distribuzione casuale di Poisson) Confronta i valori opt ottenuti con il valore medio della distribuzione ricavandone la probabilità di avere quel particolare valore di opt per caso 3
4 Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev. Standard si discosta (4 indica già che siamo fuori della distribuzione) Deviazione standard è l indice di dispersione della distribuzione σ = ( x µ) N 2 Calcoli statistici Statistica dei confronti locali tra due sequenze Per stimare se il punteggio di allineamento tra due sequenze è dovuto al caso oppure è significativo si fanno un certo numero di confronti (sequence space) di una delle due sequenze (la Query) di stessa composizione AA ma con ordine casuale contro la seconda sequenza (il Subject). L equazione che mette in relazione il punteggio grezzo per capire se è significativo o no è l E-value: S è il punteggio grezzo E( x S) E( S) = kmne λs K dipende dal numero di allineamenti prova effettuati (sequence space) λ dipende dalla matrice di sostituzione m ed n sono le lunghezze delle due sequenze 4
5 Punteggio grezzo S E-value E(S) Le prove di raccolta dei punteggi avranno una distribuzione simile a quella normale ma che in realtà si chiama distribuzione dei valori estremi (Gumbel distribution o EVD) 0.4 A. 0.2 Yev X Se si vuole sapere quanto significativo è il punteggio ottenuto dal mio allineamento reale in confronto alla distribuzione ottenuta secondo quanto detto prima, allora si ricorre all Evalue che indica: Il numero di differenti allineamenti con uno score (x) equivalente o migliore di quello ottenuto dal mio allineamento (chiamato S) che possono capitare per caso in una ricerca in database. Più basso è tale valore e più significativo è il mio allineamento E( x S) E( S) = kmne λs 5
6 Bit-score Il punteggio grezzo S ha in sé scarso significato perché è come un valore numerico che indica la similarità tra le due sequenze ma senza una unità di misura che possa essere utilizzata per il confronto con altre ricerche. 1. In pratica non riassume l essenza statistica del sistema di punteggio utilizzato per calcolare se quello che si osserva è veramente significativo o no. 2. Infatti uno stesso allineamento può avere punteggi S diversi se si utilizzano matrici di sostituzione diverse che attribuiscono a match, mismatch e gap valori diversi 3. A tale scopo è stato introdotto il bit-score che consente di ottenere una normalizzazione dei punteggi. S si normalizza come segue: Da cui deriva che l E-value è: S ln K S' = λ ln 2 E = mn2 S ' E, di conseguenza, dipende solo dai parametri di lunghezza delle sequenze. Esiste infine un altra misura che è il P-value molto simile all E-value Calcolo E-value nel caso di ricerca in banca dati Nel caso di ricerca in banca dati le equazioni precedenti sono: E( x S) E( S) = kmne E = mn2 S ' S ln K S' = λ ln 2 λs L unica differenza è nel significato. Nel caso di FASTA se m è la lunghezza della sequenza query n è è il numero delle sequenze della banca dati K e λ sono calcolati dinamicamente per ogni singola ricerca 6
7 7
8 La distribuzione dei veri e falsi positivi la ricerca della giusta soglia BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query in parole di pochi amminoacidi, di solito 2 o 3 (parametro W) e generando una lista di parole affini (diverso da FASTA) con la matrice di sostituzione (BLOSUM). Le parole affini conservate dovranno avere uno score superiore ad una soglia fissata T 2. Le parole affini sono ricercate nella banca dati per match esatti ed una volta trovate le sequenze che li contengono questi vengono estesi a dx e sx dell allineamento per una certa profondità stabilita dal parametro X e le coppie di segmenti, presenti nella stessa coppia di sequenze, che totalizzano un punteggio di similarità statisticamente significativo, superiore ad una soglia S, vengono definiti HSP (High scoring Segment Pairs). 3. Nella stessa coppia possono esserci più HSP di cui é anche possibile calcolare la probabilità di occorrenza (Karlin & Altschul, 1993). W = word-size T = threshold X = elongation S = HSP threshold 8
9 Si definisce MSP (Maximal scoring Segment Pair) la coppia di segmenti, di eguale lunghezza, che realizza il massimo punteggio di similarità nel confronto di due sequenze; l algorimo ne valuta in modo rigoroso la significatività statistica (Karlin & Altschul, 1990, 1993). BLAST two hit method le versioni attuali di Blast adottano il Two-hit method che deriva dall'osservazione che il tempo di esecuzione dell'algoritmo e' principalmente impiegato nell'allungamento degli Hits per ottenere gli HSPs. L'algoritmo allora considera solo i casi in cui esistono due hit sulla stessa diagonale ad una distanza inferiore ad un parametro A prima di cercare gli HSPs. Per non perdere in sensibilità e' stata abbassata la soglia di T. L'algoritmo è più veloce e non ha perso in precisione Nella sua attuale implementazione, inoltre, BLAST considera anche i gap nel tentativo di unire, quindi, degli HSP "ungapped" che sono spazialmente vicini nella matrice di allineamento e la cui unione in un unico frammento (contenente gap ed inserzioni) non comporta un peggioramento dello score finale ma un miglioramento complessivo. Il tutto secondo dei nuovi parametri che regolano i costi e le penalità della presenza di gap nell'allineamento. Il parametro A 9
10 BLAST I vari algoritmi differiscono molto per il metodo con cui definiscono una sequenza casuale. BLAST calcola a priori la probabilità che un certo punteggio sia significativo sulla base della dimensione e composizione della banca dati applicando: λs E( S) = kmne m è la lunghezza della sequenza query e n è la lunghezza in residui della banca dati λ e K sono precalcolati secondo una distribuzione standard interna al contrario di FASTA. Il punteggio è simile a quello di FASTA La significatività di un risultato è espressa come valore E(S) (Expectation). Più basso il valore di E più significativo è l allineamento. Un valore di 1.0e-5 per esempio vuol dire che la probabilità di avere per caso una sequenza con lo stesso score della mia query è uguale a 1.0e-5; ovvero l attesa è che ogni sequenze se ne possa, in media, trovare una (1/100000) che totalizzi un punteggio uguale o migliore di 1.0e-5. 10
11 CONFRONTO BLAST E FASTA fasta3 proteina o DNA contro banca dati o proteici o DNA rispettivamente fastx/y3 DNA contro banca dati proteico, traduzione nei 6 frame tfastx/y3 proteina contro banca dtai di DNA tradotto blastn query DNA banca dati DNA blastp query proteina banca dati proteine blastx query DNA (tradotta nei sei frame di lettura) banca dati proteine tblastn query proteina banca dati DNA (sequenze tutte tradotte nelle sei fasi di lettura) tblastx query DNA (tradotta nei sei frame di lettura) banca dati DNA (tradotta nei sei frame di lettura) SIMILARITA USO DELLA SCORING MATRIX K-TUPLE GAP VELOCITA' SPECIFICITA' 1-2 aa / 4-6 nt FASTA Locale (e' in genere riportato solo il miglior allineamento locale) Durante la estensione nella fase B. In questo caso il calcolo si effettua nella prima fase solo per identità Consentiti nella fase C Da 1/2 ad 1/5 di BLAST Migliore per il confronto di sequenze nucleotidiche Locale (e' riportata la serie di allineamenti locali sopra il valore soglia tra query e subject: al contrario di FASTA si riescono ad individuare repeat e zone eventuali di overlap tra gli allineamenti locali che sono eliminate da FASTA nella fase C) Fase di scansione per W e fase di estensione per gli HSP l'algoritmo e' ottimizzato per ricercare parole W "simili" e non esatte. Si traduce il tutto in una maggiore sensibilità di ricerca rispetto a FASTA per le proteine. 3 aa / 11-12nt. A livello nucleotidico, non essendo applicate matrici di similarità che perdono di significato avendo solo 4 simboli (A,C,G,T), BLAST perde in sensibilità avendo W=11 Consentiti nella versione attuale Da 2 a 5 volte maggiore di FASTA Migliore per il confronto di sequenze proteiche BLAST 11
12 CONFRONTO BLAST E FASTA Calcolo statistico K e λ E-value E( S) = kmn e λs FASTA Calcolati dinamicamente m -> lunghezza sequenza query n -> numero sequenze della banca dati BLAST Precalcolati per quella determinata matrice di sostituzione e valore di gap penalties m -> lunghezza sequenza query n -> numero residui o nucleotidi totali della banca dati E( x S) E( S) = kmne S ln K S' = λ ln 2 E = mn2 S ' λs Alcuni esempi di interfacce web FASTA ( BLAST ( 12
13 13
14 14
15 15
16 16
17 17
18 18
BLAST. W = word size T = threshold X = elongation S = HSP threshold
BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query
DettagliZ-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random
Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev.
DettagliLa ricerca di similarità in banche dati
La ricerca di similarità in banche dati Uno dei problemi più comunemente affrontati con metodi bioinformatici è quello di trovare omologie di sequenza interrogando una banca dati. L idea di base è che
DettagliProgrammazione dinamica
Programmazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni
DettagliQuarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST
Quarta lezione 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Ricerca di omologhe in banche dati Proteina vs. proteine Gene (traduzione in aa) vs. proteine Gene vs. geni
DettagliFASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento
Algoritmi EURISTICI di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca per similarità rapida anche se meno accurata contro le migliaia di sequenze depositate. Attualmente
DettagliLa distribuzione dei veri e falsi positivi la ricerca della giusta soglia
La distribuzione dei veri e falsi positivi la ricerca della giusta soglia BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et
DettagliUNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)
Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 3 Allineamento veloce (euristiche) Banche dati primarie e secondarie Esistono due categorie
DettagliLaboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.
Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti patti@di.unito.it Esercitazione 7 1 Info&Bio Bio@Lab Allineamento di sequenze Esercitazione 7 2 1 Es2: Allineamento
DettagliLezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST
Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere
DettagliLezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST
Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere
DettagliMetodi euristici di allineamento
Metodi euristici di allineamento Algoritmi euristici di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca rapida, anche se meno accurata, utilizzando la similarità
DettagliLe sequenze consenso
Le sequenze consenso Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione riassume un multiallineamento. non è identica
DettagliFASTA. Lezione del
FASTA Lezione del 10.03.2016 Omologia vs Similarità Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto
DettagliLezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST
Lezione 6 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere
DettagliRicerca di omologia di sequenza
Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti
DettagliAlgoritmi di Allineamento
Algoritmi di Allineamento CORSO DI BIOINFORMATICA Corso di Laurea in Biotecnologie Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento di Coppie di Sequenze Allineamento
DettagliSAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing
SAGA: sequence alignment by genetic algorithm ALESSANDRO PIETRELLI Soft Computing Bologna, 25 Maggio 2007 Multi Allineamento di Sequenze (MSAs) Cosa sono? A cosa servono? Come vengono calcolati Multi Allineamento
DettagliRicerche con BLAST (Laboratorio)
Laboratorio di Bioinformatica I Ricerche con BLAST (Laboratorio) Dott. Sergio Marin Vargas (2014 / 2015) NCBI BLAST BLAST: Basic Local Alignment Search Tool http://blast.ncbi.nlm.nih.gov/blast.cgi NCBI
DettagliBLAST: Basic Local Alignment Search Tool
BLAST: Basic Local Alignment Search Tool 1 Outline della lezione di oggi BLAST Uso pratico Algoritmo Strategie Trovare proteine lontanamente legate: PSI-BLAST 2 Problema con gli algoritmi dinamici Gli
DettagliProgrammazione dinamica
rogrammazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni
DettagliALLINEAMENTO DI SEQUENZE
ALLINEAMENTO DI SEQUENZE Procedura per comparare due o piu sequenze, volta a stabilire un insieme di relazioni biunivoche tra coppie di residui delle sequenze considerate che massimizzino la similarita
DettagliAllineamento e similarità di sequenze
Allineamento e similarità di sequenze Allineamento di Sequenze L allineamento tra due o più sequenza può aiutare a trovare regioni simili per le quali si può supporre svolgano la stessa funzione; La similarità
DettagliCorso di Bioinformatica
Corso di Bioinformatica Cortona - Novembre 2002 Metodi Computazionali per l'analisi delle sequenze Dr. Sabino Liuni Istituto di Tecnologie Biomediche- CNR Sezione di Bioinformatica e Genomica - Bari Sabino@area.ba
DettagliLezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:
Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: antonella.meloni@ifc.cnr.it Sequenza A= stringa formata da N simboli, dove i simboli apparterranno ad un certo alfabeto. A
DettagliInfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche
InfoBioLab I ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche Esercizio 1 - obiettivi: Ricerca di 2 proteine in ENTREZ Salva i flat file che descrivono le 2 proteine in formato testo Importa
DettagliEsercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)
Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini) Collegatevi al sito www.ncbi.nlm.nih.gov/blast. Apparirà una pagina nella quale le versioni
DettagliPairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro
Pairwise Sequence Alignment BIOINFORMATICA Corso di Laurea in Ingegneria Informatica e Biomedica Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento Esatto di Coppie
DettagliBioinformatica ed applicazioni di bioinformatica strutturale!
Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica! Le banche dati! Programmi per estrarre ed analizzare i dati! I numeri! Cellule nell uomo! Geni nell uomo! Genoma umano Il dogma
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizioni
DettagliAllineamento multiplo di sequenze
Allineamento multiplo di sequenze Bioinformatica a.a. 2008/2009 Letterio Galletta Università di Pisa 22 Maggio 2009 Letterio Galletta (Università di Pisa) Allineamento multiplo di sequenze 22 Maggio 2009
DettagliLezione 7. Allineamento di sequenze biologiche
Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra
DettagliAllineamenti a coppie
Laboratorio di Bioinformatica I Allineamenti a coppie Dott. Sergio Marin Vargas (2014 / 2015) ExPASy Bioinformatics Resource Portal (SIB) http://www.expasy.org/ Il sito http://myhits.isb-sib.ch/cgi-bin/dotlet
DettagliLezione 6. Analisi di sequenze biologiche e ricerche in database
Lezione 6 Analisi di sequenze biologiche e ricerche in database Schema della lezione Allinemento: definizioni Allineamento di due sequenze Ricerca di singola sequenza in banche dati (Alignment-based database
Dettagliq xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;
Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p1 p6 p i >0; 6! i=1 p i =1 Sequenza di dna/proteine x con probabilita q x Probabilita dell intera sequenza n " i!1 q xi Massima verosimiglianza
DettagliInformatica e biotecnologie
Informatica e biotecnologie Ricerca di informazioni e analisi di sequenze CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Informatica e biotecnologie Strumenti per raccogliere
DettagliCerca la tua sequenza ed analizzala. 4-Utilizzando l intera sequenza NM_ quante ORF trovate nella ORF +3?
Ferlito Valentina Esercizio 1 Cerca la tua sequenza ed analizzala 1-Ricerca in Genbank la sequenza dell adenine nucleotide translocator umano 2-Quante sequenze proteiche di riferimento vi sono? 3-Quante
DettagliBioinformatics more basic notions
Bioinformatics more basic notions Alcune slides provengono dal materiale rilasciato da: Dr Sergio Marin Vargas - Verona Prof. Riccardo Percudari - Parma Bioinformatics Bio-inspired Computer science Gli
DettagliDipartimento di Fisica a.a. 2004/2005 Fisica Medica 2 Test di ipotesi 2/5/2005
Dipartimento di Fisica a.a. 2004/2005 Fisica Medica 2 Test di ipotesi 2/5/2005 Test di significatività Nei lavori di statistica medica si citano sempre i livelli di significatività (ovvero la probabilità)
DettagliUniversità degli studi di Pisa
Università degli studi di Pisa Nicola Guido PATTERNHUNTER: Faster and More Sensitive. Homology Search Seminario: Bioinformatica a.a. 2008/2009 Contenuto della presentazione Introduzione Scenario PatternHunter
DettagliStatistica I. Ingegneria Gestionale. Scritto del 17/07/2012
Statistica I. Ingegneria Gestionale. Scritto del 17/07/01 Cerchiare, su questo foglio, le risposte corrette e risolvere per esteso gli esercizi sui fogli assegnati. Esercizio 1. Un operatore finanziario
DettagliUTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI
UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI Come prima cosa diamo un occhiata alla nostra sequenza di interesse, chiamata «unknown sequence» Con un doppio click possiamo visualizzarla
DettagliBioinformatica. Analisi del genoma
Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento
DettagliInformatica e Bioinformatica A. A
Purtroppo non esiste un modo univoco per indicare un gene. Ad esempio abbiamo visto che il gene tcap a seconda del record è riportato come titin-cap protein o telethonin. Questo crea confusione e non facilita
DettagliLezione 2: Allineamento di sequenze. BLAST e CLUSTALW
Lezione 2: Allineamento di sequenze BLAST e CLUSTALW Allineamento di sequenze Allineamenti L avvento della genomica moderna permette di analizzare le similitudini e le differenze tra organismi a livello
DettagliLezione 7. Allineamento di sequenze biologiche
Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra
DettagliInformatica 3. Informatica 3. LEZIONE 21: Ricerca su liste e tecniche di hashing. Lezione 21 - Modulo 1. Introduzione (1) Introduzione (2) Ricerca:
Informatica 3 Informatica 3 LEZIONE 21: Ricerca su liste e tecniche di hashing Modulo 1: Algoritmi sequenziali e basati su liste Modulo 2: Hashing Lezione 21 - Modulo 1 Algoritmi sequenziali e basati su
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione possibile [Jain
DettagliInformatica e Bioinformatica: Basi di Dati
Informatica e Bioinformatica: Date TBD Bioinformatica I costi di sequenziamento e di hardware descrescono vertiginosamente si hanno a disposizione sempre più dati e hardware sempre più potente e meno costoso...
DettagliInformatica e biotecnologie II parte
Informatica e biotecnologie II parte Analisi di sequenze: allineamenti CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Bioinformatica La Bioinformatica è una disciplina
DettagliMateriale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna).
Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna). Date due o più sequenze, inizialmente potremmo volere: misurarne il grado di similarità;
DettagliIl processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni
La statistica inferenziale Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni E necessario però anche aggiungere con
DettagliCONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI
CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI ipotesi sul confronto tra le medie di due campioni indipendenti Obiettivo: decidere, attraverso il confronto tra le medie dei due campioni indipendenti,
DettagliL A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
DettagliUNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 II Esonero - 15 Gennaio 2015
UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 014/015 II Esonero - 15 Gennaio 015 1 3 4 5 6 Tot. Avvertenza: Svolgere ogni esercizio nello spazio assegnato,
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Definizioni preliminari
DettagliStatistica Elementare
Statistica Elementare 1. Frequenza assoluta Per popolazione si intende l insieme degli elementi che sono oggetto di una indagine statistica, ovvero l insieme delle unità, dette unità statistiche o individui
DettagliLezione 7. Allineamento di sequenze biologiche
Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra
DettagliPROBABILITA. Distribuzione di probabilità
DISTRIBUZIONI di PROBABILITA Distribuzione di probabilità Si definisce distribuzione di probabilità il valore delle probabilità associate a tutti gli eventi possibili connessi ad un certo numero di prove
DettagliOmologia di sequenze: allineamento e ricerca
Omologia di sequenze: allineamento e ricerca Genomi (organismi) e geni hanno un evoluzione divergente Sequenze imparentate per evoluzione divergente sono omologhe Le sequenze sono confrontabili tramite
DettagliTeoria e tecniche dei test
Teoria e tecniche dei test Lezione 9 LA STANDARDIZZAZIONE DEI TEST. IL PROCESSO DI TARATURA: IL CAMPIONAMENTO. Costruire delle norme di riferimento per un test comporta delle ipotesi di fondo che è necessario
DettagliUniversity of Messina, Italy
TRATTAMENTO E VALUTAZIONE DI DATI STATISTICI Applicazione della statistica alla valutazione dei dati Le applicazioni più comuni della statistica alla chimica analitica sono: Definire l intervallo numerico
DettagliLezione 6. Lo string matching
Lezione 6 Lo string matching String matching Date due stringhe (sequenze di caratteri) vogliamo stabilire se sono uguali Nel caso dello string matching, due stringhe sono uguali se... sono uguali ( DNA
DettagliProposta sistema elettorale per elezioni parlamentari
Circolo PD Parigi Data: 11 Agosto 2013 Edizione: 2.0 Proposta sistema elettorale per elezioni parlamentari Questo documento illustra la proposta di un nuovo sistema elettorale pensato per l elezione legislativa
DettagliSTATISTICA AZIENDALE Modulo Controllo di Qualità
STATISTICA AZIENDALE Modulo Controllo di Qualità A.A. 009/10 - Sottoperiodo PROA DEL 14 MAGGIO 010 Cognome:.. Nome: Matricola:.. AERTENZE: Negli esercizi in cui sono richiesti calcoli riportare tutte la
Dettaglistandardizzazione dei punteggi di un test
DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it standardizzazione dei punteggi di un test serve a dare significato ai punteggi che una persona ottiene ad un test, confrontando la
DettagliSperimentazioni di Fisica I mod. A Statistica - Lezione 2
Sperimentazioni di Fisica I mod. A Statistica - Lezione 2 A. Garfagnini M. Mazzocco C. Sada Dipartimento di Fisica G. Galilei, Università di Padova AA 2014/2015 Elementi di Statistica Lezione 2: 1. Istogrammi
DettagliAllineamento locale: BLAST
Allineamento locale: BLAST BLAST (Basic Local Alignment Search Tool) è il più diffuso programma di allineamento locale delle sequenze. Per vari anni il metodo FASTA (da non confondere con l omonimo formato)
DettagliCorso di Visione Artificiale. Texture. Samuel Rota Bulò
Corso di Visione Artificiale Texture Samuel Rota Bulò Texture Le texture sono facili da riconoscere ma difficili da definire. Texture Il fatto di essere una texture dipende dal livello di scala a cui si
DettagliAllineamenti di sequenze: concetti e algoritmi
Allineamenti di sequenze: concetti e algoritmi 1 globine: a- b- mioglobina Precoce esempio di allineamento di sequenza: globine (1961) H.C. Watson and J.C. Kendrew, Comparison Between the Amino-Acid Sequences
DettagliQuanti soggetti devono essere selezionati?
Quanti soggetti devono essere selezionati? Determinare una appropriata numerosità campionaria già in fase di disegno dello studio molto importante è molto Studi basati su campioni troppo piccoli non hanno
DettagliNUMERI CASUALI E SIMULAZIONE
NUMERI CASUALI E SIMULAZIONE NUMERI CASUALI Usati in: statistica programmi di simulazione... Strumenti: - tabelle di numeri casuali - generatori hardware - generatori software DESCRIZIONE DEL PROBLEMA
DettagliRichiami di inferenza statistica Strumenti quantitativi per la gestione
Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Parametri e statistiche Esempi Tecniche di inferenza Stima Precisione delle stime Intervalli
DettagliRichiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer
Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Inferenza statistica: insieme di tecniche che si utilizzano per ottenere informazioni su una
DettagliMetodi statistici per le ricerche di mercato
Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per
DettagliUniversita degli Studi di Siena
Universita degli Studi di Siena Facolta di Ingegneria Dispense del corso di Sistemi di Supporto alle Decisioni I La Programmazione Dinamica Chiara Mocenni Corso di Laurea triennale in Ingegneria Gestionale
DettagliLa media e la mediana sono indicatori di centralità, che indicano un centro dei dati.
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,
DettagliLez. 8 La Programmazione. Prof. Pasquale De Michele (Gruppo 2) e Raffaele Farina (Gruppo 1) 1
Lez. 8 La Programmazione Prof. Pasquale De Michele (Gruppo 2) e Raffaele Farina (Gruppo 1) 1 Dott. Pasquale De Michele Dott. Raffaele Farina Dipartimento di Matematica e Applicazioni Università di Napoli
DettagliArgomenti Capitolo 1 Richiami
Argomenti Capitolo 1 Richiami L insieme dei numeri reali R si rappresenta geometricamente con l insieme dei punti di una retta orientata su cui sia stato fissato un punto 0 e un segmento unitario. L insieme
DettagliCorso di Laurea a Distanza in Ingegneria Elettrica Corso di Comunicazioni Elettriche Teoria della probabilità A.A
Corso di Laurea a Distanza in Ingegneria Elettrica Corso di Comunicazioni Elettriche Teoria della probabilità A.A. 2004-05 Alberto Perotti DELEN-DAUIN Esperimento casuale Esperimento suscettibile di più
DettagliCALCOLO DELL ERRORE E VALUTAZIONE DI UN METODO ANALITICO
CALCOLO DELL ERRORE E VALUTAZIONE DI UN METODO ANALITICO In chimica analitica un settore importante riguarda il calcolo dell errore e la valutazione della significatività di una misura. Generalmente nell
DettagliA W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I
COME CALCOLARE IL PUNTEIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi che, però, sono le due facce di una stessa medaglia al
DettagliAppunti lezione Capitolo 13 Programmazione dinamica
Appunti lezione Capitolo 13 Programmazione dinamica Alberto Montresor 12 Novembre, 2015 1 Domanda: Fattore di crescita dei numeri catalani Vogliamo dimostrare che cresce almeno come 2 n. La nostra ipotesi
DettagliProbabilità e Statistica
Probabilità e Statistica - 12.01.2016 Cognome e Nome............................................................................... C. d. L.:................................................Anno di Corso:
DettagliCapitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"
Levine, Krehbiel, Berenson Statistica Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari" Unità Integrata Organizzativa
DettagliAppunti di statistica ed analisi dei dati
Appunti di statistica ed analisi dei dati Indice generale Appunti di statistica ed analisi dei dati...1 Analisi dei dati...1 Calcolo della miglior stima di una serie di misure...3 Come si calcola μ...3
DettagliPerché considerare la struttura 3D di una proteina
Modelling Perché considerare la struttura 3D di una proteina Implicazioni in vari campi : biologia, evoluzione, biotecnologie, medicina, chimica farmaceutica... Metodi di studio della struttura di una
DettagliCorso Integrato di Statistica Informatica e Analisi dei Dati Sperimentali. Esercitazione E
Corso Integrato di Statistica Informatica e Analisi dei Dati Sperimentali A.A 2009-2010 Esercitazione E Scopo dell esercitazione Applicazioni del teorema del limite centrale. Rappresentazione delle incertezze
DettagliTest di significatività
Test di significatività I test di significatività hanno come scopo quello di comprendere se la rilevazione da noi fatta sul campione può essere considerata un evento straordinario o la norma. Quantificare
DettagliStrumenti di indagine per la valutazione psicologica
Strumenti di indagine per la valutazione psicologica 2.3 Validazione di un test clinico Davide Massidda davide.massidda@gmail.com Definire un cut-off Per ogni scala del questionario, sommando o mediando
Dettagli8 Metodi iterativi per la risoluzione di sistemi lineari
8 Metodi iterativi per la risoluzione di sistemi lineari È dato il sistema lineare Ax = b con A R n n e x, b R n, con deta 0 Si vogliono individuare dei metodi per determinarne su calcolatore la soluzione,
DettagliGli errori nella verifica delle ipotesi
Gli errori nella verifica delle ipotesi Nella statistica inferenziale si cerca di dire qualcosa di valido in generale, per la popolazione o le popolazioni, attraverso l analisi di uno o più campioni E
Dettagli6.6 Sequence Alignment
6.6 Sequence Alignment E capitato anche a voi? Di digitare sul computer una parola in maniera sbagliata (per esempio usando un dizionario sul Web): AGORITNI E sentirsi chiedere: «Forse cercavi ALGORITMI?»
DettagliCorso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati
Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli Esercizi ricerche in banche dati 1) Nel romanzo fantasy Jurassic Park di Michael Crichton sulla possibilità di clonare i dinosauri,
DettagliTeorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazion
Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazione lineare di N variabili aleatorie le cui funzioni
DettagliAlgoritmi di ricerca locale
Algoritmi di ricerca locale Utilizzati in problemi di ottimizzazione Tengono traccia solo dello stato corrente e si spostano su stati adiacenti Necessario il concetto di vicinato di uno stato Non si tiene
DettagliEsercitazione 4 del corso di Statistica 2 Prof. Domenico Vistocco
Esercitazione 4 del corso di Statistica 2 Prof. Domenico Vistocco Alfonso Iodice D Enza May 23, 2007 1 Esercizio Si consideri un mazzo di carte francesi di 2 carte e si supponga di stare giocando a poker.
DettagliRisoluzione di problemi ingegneristici con Excel
Risoluzione di problemi ingegneristici con Excel Problemi Ingegneristici Calcolare per via numerica le radici di un equazione Trovare l equazione che lega un set di dati ottenuti empiricamente (fitting
Dettagli