BANCHE DATI DI SEQUENZE PROTEICHE E GENOMICHE E ANALISI DELLE SEQUENZE



Documenti analoghi
4. Ricerca di sequenze in banche dati e allineamento multiplo

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST

Elementi di Psicometria con Laboratorio di SPSS 1

Banche Dati Secondarie. geni trascritti proteine profili strutture

3. Confronto tra due sequenze

Recettori di superficie

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Sperimenta il BioLab Attività di Bioinformatica Caccia al gene

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

DOMANDA FREQUENTE: QUALE E LA FUNZIONE DI UNA CERTA PROTEINA? SI AUMENTA O SI DIMINUISCE L ESPRESSIONE DELLA PROTEINA

Dal DNA alle proteine: La trascrizione e la traduzione

Relazioni statistiche: regressione e correlazione

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

VALORE DELLE MERCI SEQUESTRATE

Corrispondenze e funzioni

Alcuni consigli per un uso di base delle serie di dati automatiche in Microsoft Excel

L uso della Balanced Scorecard nel processo di Business Planning

( x) ( x) 0. Equazioni irrazionali

4 3 4 = 4 x x x 10 0 aaa

La possibilita di conoscere i geni deriva dalla capacita di manipolarli:

Dimensione di uno Spazio vettoriale

Polimorfismi LEZIONE 6. By NA 1

Analisi della performance temporale della rete

Struttura e funzione dei geni. Paolo Edomi - Genetica

risulta (x) = 1 se x < 0.

WG-TRANSLATE Manuale Utente WG TRANSLATE. Pagina 1 di 15

Capitolo 2 - Teoria della manutenzione: classificazione ABC e analisi di Pareto

Strumenti di indagine per la valutazione psicologica

La funzione è continua nel suo dominio perchè y = f(x) è composizione di funzioni continue. Il punto x = 0 è un punto isolato per D f.

STATISTICA IX lezione

ESEMPI DI QUERY SQL. Esempi di Query SQL Michele Batocchi AS 2012/2013 Pagina 1 di 7

V= R*I. LEGGE DI OHM Dopo aver illustrato le principali grandezze elettriche è necessario analizzare i legami che vi sono tra di loro.

TS DIMOSTRATIVO: TS INR

DNA - RNA. Nucleotide = Gruppo Fosforico + Zucchero Pentoso + Base Azotata. Le unità fondamentali costituenti il DNA e l RNA sono i Nucleotidi.

Come Creare una Strategia di Trading di Successo

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Determinare la grandezza della sottorete

You created this PDF from an application that is not licensed to print to novapdf printer (

Osservazioni sulla continuità per le funzioni reali di variabile reale

MODULO 5 Appunti ACCESS - Basi di dati

Soluzione dell esercizio del 2 Febbraio 2004

Operazioni sulla Retta Algebrica e riflessione sulla loro definizione nell insieme dei Naturali

Capitolo 10 Z Elasticità della domanda

B+Trees. Introduzione

Soluzione dell esercizio del 12 Febbraio 2004

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi

Gli attributi di STUDENTE saranno: Matricola (chiave primaria), Cognome, Nome.

Il web server Apache Lezione n. 3. Introduzione

Programma Gestione Presenze Manuale autorizzatore. Versione /08/2010. Area Sistemi Informatici - Università di Pisa

Macromolecole Biologiche. I domini (III)

Come utilizzare il nuovo HelpDesk Maggioli Informatica

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

9. Urti e conservazione della quantità di moto.

Registratori di Cassa

Capitolo 3. L applicazione Java Diagrammi ER. 3.1 La finestra iniziale, il menu e la barra pulsanti

Come modificare la propria Home Page e gli elementi correlati

SINTESI DELL RNA. Replicazione. Trascrizione. Traduzione

Guida all uso di Java Diagrammi ER

AREA DOCENTE - ACCESSO, REG. DI CLASSE E VOTI Indice Del Manuale

MANUALE DI GESTIONE BANCA DATI INTERNET ED AREA FTP PER ESPERTI DI RAZZA

Downloaded from Riarrangiamento dei geni per le Immunoglobuline e sviluppo dei linfociti B

Teoria delle code. Sistemi stazionari: M/M/1 M/M/1/K M/M/S

SISTEMI INFORMATIVI AVANZATI -2010/ Introduzione

Esercizi su. Funzioni

Vlan Relazione di Sistemi e Reti Cenni teorici

SRS (Sequence Retrieval System) della EBI che mette a disposizione anche dello spazio sul server per memorizzare le richerche.

10. Insiemi non misurabili secondo Lebesgue.

Onestà di un dado. Relazione sperimentale

Leasing secondo lo IAS 17

Un gioco con tre dadi

Esercizi di Ricerca Operativa II

Transitori del primo ordine

PROTOCOLLO CHIRURGICO PER ESPANSORI

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Energia potenziale elettrica e potenziale. In queste pagine R indicherà una regione in cui è presente un campo elettrostatico.

Pagina 1 di 10

Calcolo del Valore Attuale Netto (VAN)

RECUPERO DATI LIFO DA ARCHIVI ESTERNI

VINCERE AL BLACKJACK

Corso di Calcolo Numerico

Laboratorio di Tecniche Microscopiche AA Lezione 12 Marzo 2008 Ore 15-16

Nell esempio verrà mostrato come creare un semplice documento in Excel per calcolare in modo automatico la rata di un mutuo a tasso fisso conoscendo

I database relazionali sono il tipo di database attualmente piu diffuso. I motivi di questo successo sono fondamentalmente due:

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

Modulo didattico sulla misura di grandezze fisiche: la lunghezza

SPECTER OPS. L'obiettivo del giocatore agente è quello che il suo agente completi 3 su 4 missioni obiettivo qualsiasi

Lezioni di Matematica 1 - I modulo

GESTIONE INTERESSI DI MORA. Impostazioni su Gestione Condominio. Addebito interessi su codice spesa 22. Immissione/gestione versamenti

Pro e contro delle RNA

Procedura di iscrizione alla Piattaforma On Line

GUIDA ALLA RILEVANZA

Elementi di Psicometria con Laboratorio di SPSS 1

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

Laboratorio di Pedagogia Sperimentale. Indice

Linkage. Lezione 4 (riprendere il testo di Genetica ) By NA

Prof.ssa Paola Vicard

Procedura di iscrizione alla Piattaforma On Line e-learning. Q&S Qualità & Sicurezza S.r.l. PUNTO 1: Accesso alla Piattaforma... 2

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

Basi di Dati Prof. L. Tanca e F. A. Schreiber APPELLO DEL 12 FEBBRAIO 2015 PARTE 1

Transcript:

Cittaro Davide BANCHE DATI DI SEQUENZE PROTEICHE E GENOMICHE E ANALISI DELLE SEQUENZE Caratterizzazione sequenza ID: BF149559 La ricerca in entrez di BF149559 da i seguenti risultati. IDENTIFIERS dbest Id: 6595844 EST name: uy66d08.y1 GenBank Acc: BF149559 GenBank gi: 11030954 CLONE INFO Clone Id: Source: DNA type: PRIMERS Sequencing: PolyA Tail: IMAGE:3664527 (5') IMAGE Consortium, LLNL cdna Primer name ambiguous Unknown SEQUENCE TAACTTTGTACTAATTTTGGAGGGGAAACCATCTTTTTTAGATACACTTTAAAATGGAAA AACATTTCTTATGGATTCCATCAGGAGCTGTTTTAGGTGCAGTGAGAAATACCCTGCAGG TTCTGCTCAGCCTCTGCCAGTGGCTGCCTCACGTTCCCACAGCAAGACCTGGGAGGGACC TGCTGTGGAAGCTGTGGGTGCAGGCTGGGATAGATAGGGAGGGCATGCCTCGCTTTGGAT GAGGGATCCATTTAAACACTACCGTTTGGAATTGAGGGCTAGAAGGAGAACATGATTTCC TGCAGGAGGGACAAAGGCTGAGTGTTCACGTGCCAGCAGGCTCCAGAACACACCAGGGTT AAAGTTTAACTTTCTGTATGAATTCATTGTTGGGCCCAAATCCGCATAGGAGCACGGTGA TCCCGCGCTCGGGTTTCTGTAGCCTTTTCACAAGTC Quality: High quality sequence stops at base: 360 Entry Created: Oct 26 2000 Last Updated: Dec 29 2000 COMMENTS This clone is available royalty-free through LLNL ; contact the IMAGE Consortium (info@image.llnl.gov) for further information. MGI:1425295 LIBRARY Lib Name: McCarrey Eddy round spermatid Organism: Mus musculus Strain: CD-1 Sex: male Organ: testis Tissue type: round spermatids, pooled from multiple mice Develop. stage: 60 day Lab host: DH10B (phage-resistant) Vector: pbluescript SK+ (Stratagene) R. Site 1: XhoII R. Site 2: EcoRI Description: cdna oligo dt-primed [5'-(GA)10-ACTAGTCTCGAGTTTTTTTTTTTTT-3' ] and directionally cloned using 5' linkers 5'-AATTCGGCACGAG-3' and 5'-CTCGTGCCG-3'. Size selection of >400bp material gives average insert size ranging from 1-2

kb. Library was mass excised (from lambda-unizap-xr) and resulting single-stranded phagemids were prepped and tranformed into DH10B. Library contains 98.5% recombinants. References: J. Androl. 20:635-639 and Gene 25:263-269. Library constructed and donated by J. McCarrey, Ph.D. (Southwest Foundation for Biomedical Research, Dept. of Genetics); excision done by E.M. Eddy, Ph.D. (National Institutes of Health, National Institute of Environmental Health Sciences). Original lambda-based library is available through ATCC, catalog #63423. SUBMITTER Name: Marra M/WashU-NCI Mouse EST Project 1999 Institution: Washington University School of Medicine Address: 4444 Forest Park Parkway, Box 8501, St. Louis, MO 63108, USA Tel: 314 286 1800 Fax: 314 286 1810 E-mail: mouseest@watson.wustl.edu CITATIONS Title: The WashU-NCI Mouse EST Project 1999 Authors: Year: 1999 Status: Unpublished Marra,M., Hillier,L., Kucaba,T., Martin,J., Beck,C., Wylie,T., Underwood,K., Steptoe,M., Theising,B., Allen,M., Bowers,Y., Person,B., Swaller,T., Gibbons,M., Pape,D., Harvey,N., Schurk,R., Ritter,E., Kohn,S., Shin,T., Jackson,Y., Cardenas,M., McCann,R., Waterston,R., Wilson,R. MAP DATA Il confronto della EST trovata contro la banca dati con blastn ha dato i seguenti risultati: Sequences producing significant alignments: (bits) Value gi 26331699 dbj AK036803.1 Mus musculus adult female vagin... 904 0.0 gi 26329224 dbj AK033549.1 Mus musculus adult male colon c... 904 0.0 gi 12859815 dbj AK019543.1 Mus musculus adult male testis... 904 0.0 gi 26081620 dbj AK029993.1 Mus musculus adult male testis... 904 0.0 gi 28277097 gb BC045691.1 Homo sapiens, clone IMAGE:530150... 62 8e-07 gi 22749346 ref NM_152663.1 Homo sapiens hypothetical prot... 62 8e-07 gi 9863726 emb AL355520.8 Human DNA sequence from clone RP... 62 8e-07 gi 21758487 dbj AK098470.1 Homo sapiens cdna FLJ25604 fis,... 62 8e-07 gi 28173122 gb AC093412.3 Homo sapiens chromosome 3 clone... 42 0.72 gi 27683868 ref XM_219921.1 Rattus norvegicus similar to C... 42 0.72 gi 27683864 ref XM_219920.1 Rattus norvegicus similar to C... 42 0.72 gi 21465364 gb AC011499.5 Homo sapiens chromosome 19 clone... 42 0.72 gi 12313753 gb AC066615.7 AC066615 Homo sapiens chromosome... 42 0.72 gi 4827292 gb AC006296.8 AC006296 Homo sapiens chromosome 4... 42 0.72... gi 7648817 gb AF216207.1 AF216207 Mus musculus ribosomal pr... 40 2.8 gi 26090590 dbj AK044884.1 Mus musculus 9.5 days embryo pa... 40 2.8 Dei primi quattro risultati trovati, cioè gli allineamenti con le maggiori performances, riportiamo l allineamento:

>gi 26331699 dbj AK036803.1 Mus musculus adult female vagina cdna, RIKEN full-length enriched library, clone:9930012l10 product:ral-a EXCHANGE FACTOR RALGPS2 homolog [Mus musculus], full insert sequence Length = 3339 Score = 904 bits (456), Expect = 0.0 Identities = 456/456 (100%) Strand = Plus / Plus Query: 1 taactttgtactaattttggaggggaaaccatcttttttagatacactttaaaatggaaa 60 Sbjct: 2209 taactttgtactaattttggaggggaaaccatcttttttagatacactttaaaatggaaa 2268 Query: 61 aacatttcttatggattccatcaggagctgttttaggtgcagtgagaaataccctgcagg 120 Sbjct: 2269 aacatttcttatggattccatcaggagctgttttaggtgcagtgagaaataccctgcagg 2328 Query: 121 ttctgctcagcctctgccagtggctgcctcacgttcccacagcaagacctgggagggacc 180 Sbjct: 2329 ttctgctcagcctctgccagtggctgcctcacgttcccacagcaagacctgggagggacc 2388 Query: 181 tgctgtggaagctgtgggtgcaggctgggatagatagggagggcatgcctcgctttggat 240 Sbjct: 2389 tgctgtggaagctgtgggtgcaggctgggatagatagggagggcatgcctcgctttggat 2448 Query: 241 gagggatccatttaaacactaccgtttggaattgagggctagaaggagaacatgatttcc 300 Sbjct: 2449 gagggatccatttaaacactaccgtttggaattgagggctagaaggagaacatgatttcc 2508 Query: 301 tgcaggagggacaaaggctgagtgttcacgtgccagcaggctccagaacacaccagggtt 360 Sbjct: 2509 tgcaggagggacaaaggctgagtgttcacgtgccagcaggctccagaacacaccagggtt 2568 Query: 361 aaagtttaactttctgtatgaattcattgttgggcccaaatccgcataggagcacggtga 420 Sbjct: 2569 aaagtttaactttctgtatgaattcattgttgggcccaaatccgcataggagcacggtga 2628 Query: 421 tcccgcgctcgggtttctgtagccttttcacaagtc 456 Sbjct: 2629 tcccgcgctcgggtttctgtagccttttcacaagtc 2664 >gi 26329224 dbj AK033549.1 Mus musculus adult male colon cdna, RIKEN full-length enriched library, clone:9030616o22 product:ral-a EXCHANGE FACTOR RALGPS2 homolog [Mus musculus], full insert sequence Length = 2932 Score = 904 bits (456), Expect = 0.0 Identities = 456/456 (100%) Strand = Plus / Plus

Query: 1 taactttgtactaattttggaggggaaaccatcttttttagatacactttaaaatggaaa 60 Sbjct: 2233 taactttgtactaattttggaggggaaaccatcttttttagatacactttaaaatggaaa 2292 Query: 61 aacatttcttatggattccatcaggagctgttttaggtgcagtgagaaataccctgcagg 120 Sbjct: 2293 aacatttcttatggattccatcaggagctgttttaggtgcagtgagaaataccctgcagg 2352 Query: 121 ttctgctcagcctctgccagtggctgcctcacgttcccacagcaagacctgggagggacc 180 Sbjct: 2353 ttctgctcagcctctgccagtggctgcctcacgttcccacagcaagacctgggagggacc 2412 Query: 181 tgctgtggaagctgtgggtgcaggctgggatagatagggagggcatgcctcgctttggat 240 Sbjct: 2413 tgctgtggaagctgtgggtgcaggctgggatagatagggagggcatgcctcgctttggat 2472 Query: 241 gagggatccatttaaacactaccgtttggaattgagggctagaaggagaacatgatttcc 300 Sbjct: 2473 gagggatccatttaaacactaccgtttggaattgagggctagaaggagaacatgatttcc 2532 Query: 301 tgcaggagggacaaaggctgagtgttcacgtgccagcaggctccagaacacaccagggtt 360 Sbjct: 2533 tgcaggagggacaaaggctgagtgttcacgtgccagcaggctccagaacacaccagggtt 2592 Query: 361 aaagtttaactttctgtatgaattcattgttgggcccaaatccgcataggagcacggtga 420 Sbjct: 2593 aaagtttaactttctgtatgaattcattgttgggcccaaatccgcataggagcacggtga 2652 Query: 421 tcccgcgctcgggtttctgtagccttttcacaagtc 456 Sbjct: 2653 tcccgcgctcgggtttctgtagccttttcacaagtc 2688 >gi 12859815 dbj AK019543.1 Mus musculus adult male testis cdna, RIKEN full-length enriched library, clone:4921528g01 product:ral-a EXCHANGE FACTOR RALGPS2 homolog [Mus musculus], full insert sequence Length = 3346 Score = 904 bits (456), Expect = 0.0 Identities = 456/456 (100%) Strand = Plus / Plus Query: 1 taactttgtactaattttggaggggaaaccatcttttttagatacactttaaaatggaaa 60 Sbjct: 2235 taactttgtactaattttggaggggaaaccatcttttttagatacactttaaaatggaaa 2294 Query: 61 aacatttcttatggattccatcaggagctgttttaggtgcagtgagaaataccctgcagg 120 Sbjct: 2295 aacatttcttatggattccatcaggagctgttttaggtgcagtgagaaataccctgcagg 2354

Query: 121 ttctgctcagcctctgccagtggctgcctcacgttcccacagcaagacctgggagggacc 180 Sbjct: 2355 ttctgctcagcctctgccagtggctgcctcacgttcccacagcaagacctgggagggacc 2414 Query: 181 tgctgtggaagctgtgggtgcaggctgggatagatagggagggcatgcctcgctttggat 240 Sbjct: 2415 tgctgtggaagctgtgggtgcaggctgggatagatagggagggcatgcctcgctttggat 2474 Query: 241 gagggatccatttaaacactaccgtttggaattgagggctagaaggagaacatgatttcc 300 Sbjct: 2475 gagggatccatttaaacactaccgtttggaattgagggctagaaggagaacatgatttcc 2534 Query: 301 tgcaggagggacaaaggctgagtgttcacgtgccagcaggctccagaacacaccagggtt 360 Sbjct: 2535 tgcaggagggacaaaggctgagtgttcacgtgccagcaggctccagaacacaccagggtt 2594 Query: 361 aaagtttaactttctgtatgaattcattgttgggcccaaatccgcataggagcacggtga 420 Sbjct: 2595 aaagtttaactttctgtatgaattcattgttgggcccaaatccgcataggagcacggtga 2654 Query: 421 tcccgcgctcgggtttctgtagccttttcacaagtc 456 Sbjct: 2655 tcccgcgctcgggtttctgtagccttttcacaagtc 2690 >gi 26081620 dbj AK029993.1 Mus musculus adult male testis cdna, RIKEN full-length enriched library, clone:4932413l04 product:ral-a EXCHANGE FACTOR RALGPS2 homolog [Mus musculus], full insert sequence Length = 4398 Score = 904 bits (456), Expect = 0.0 Identities = 456/456 (100%) Strand = Plus / Plus Query: 1 taactttgtactaattttggaggggaaaccatcttttttagatacactttaaaatggaaa 60 Sbjct: 2337 taactttgtactaattttggaggggaaaccatcttttttagatacactttaaaatggaaa 2396 Query: 61 aacatttcttatggattccatcaggagctgttttaggtgcagtgagaaataccctgcagg 120 Sbjct: 2397 aacatttcttatggattccatcaggagctgttttaggtgcagtgagaaataccctgcagg 2456 Query: 121 ttctgctcagcctctgccagtggctgcctcacgttcccacagcaagacctgggagggacc 180 Sbjct: 2457 ttctgctcagcctctgccagtggctgcctcacgttcccacagcaagacctgggagggacc 2516 Query: 181 tgctgtggaagctgtgggtgcaggctgggatagatagggagggcatgcctcgctttggat 240 Sbjct: 2517 tgctgtggaagctgtgggtgcaggctgggatagatagggagggcatgcctcgctttggat 2576

Query: 241 gagggatccatttaaacactaccgtttggaattgagggctagaaggagaacatgatttcc 300 Sbjct: 2577 gagggatccatttaaacactaccgtttggaattgagggctagaaggagaacatgatttcc 2636 Query: 301 tgcaggagggacaaaggctgagtgttcacgtgccagcaggctccagaacacaccagggtt 360 Sbjct: 2637 tgcaggagggacaaaggctgagtgttcacgtgccagcaggctccagaacacaccagggtt 2696 Query: 361 aaagtttaactttctgtatgaattcattgttgggcccaaatccgcataggagcacggtga 420 Sbjct: 2697 aaagtttaactttctgtatgaattcattgttgggcccaaatccgcataggagcacggtga 2756 Query: 421 tcccgcgctcgggtttctgtagccttttcacaagtc 456 Sbjct: 2757 tcccgcgctcgggtttctgtagccttttcacaagtc 2792 Alcune osservazioni preliminari possono essere fatte: - L allineamento con le quattro sequenze è totale. - Le quattro sequenze provengono da Mus musculus (da cui proviene anche la EST BF149559) - Le quattro sequenze sono caratterizzate in tre tessuti differenti di topo (tra cui il testicolo, da cui proviene la EST BF149559) Per il momento focalizziamo l attenzione sui due geni espressi nel testicolo (ID: AK019543 e ID: AK029993): LOCUS AK019543 3346 bp mrna linear HTC 05-DEC-2002 DEFINITION Mus musculus adult male testis cdna, RIKEN full-length enriched library, clone:4921528g01 product:ral-a EXCHANGE FACTOR RALGPS2 homolog [Mus musculus], full insert sequence. ACCESSION AK019543 VERSION AK019543.1 GI:12859815 KEYWORDS HTC; CAP trapper. SOURCE Mus musculus (house mouse) ORGANISM Mus musculus Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus. [..] FEATURES Location/Qualifiers source 1..3346 /organism="mus musculus" /strain="c57bl/6j" /db_xref="fantom_db:4921528g01" /db_xref="mgi:1912176" /db_xref="taxon:10090" /clone="4921528g01" /sex="male" /tissue_type="testis" /clone_lib="riken full-length enriched mouse cdna library" /dev_stage="adult" misc_feature 121..1892 /note="ral-a EXCHANGE FACTOR RALGPS2 homolog [Mus musculus] (SPTR Q9ERD6, evidence: FASTY, 90.1%ID,

100%length, match=1797) putative" /db_xref="mgi:1925505" BASE COUNT 951 a 735 c 808 g 852 t ORIGIN 1 gggtggcgga ggccccggcg tcgcctcagc ctctcaggaa tgatgcattt gtggccttgg 61 acatgaagta atcagacctc tgttgctgtt actgtaggct caggggctga tgaggaaagc 121 atggacctaa tgaacgggca ggcaagcagt gttactatcg cagccactgt ttccgagaag 181 agtagcagct ctggcaccct aagcgagaag ggctaccgca cagatgcgta agttgatgct 241 accggtttga tgttcttaag gttacgccag aagaatacgc gggtcagata acactaatgg 301 atgttccagt gtttaaagct attcagccag atgaactttc aagttgtgga tggaataaaa 361 aagaaaaata tagttctgca ccaaatgcag ttgctttcac aagaagattt aatcacgtaa 421 gcttttgggt tgtaagagag attctccatg ctcaaacact gaaaataaga gcagaagttt 481 tgagccacta tattaagact gctaagaaac tatatgaact taacaacctt cacgcactta 541 tggctgtggt ttctggctta cagagtgcgc cgattttccg gttgactaag acgtgggcgt 601 tattaagtcg aaaagacaaa actacctttg aaaaactaga atatgtaatg agtaaagaag 661 ataactacaa aagactcaga gactatataa gcagcttaaa gatgactcct tgcattccct 721 atttaggcat ctatttgtct gacttgacct acattgactc cgcgtaccca tccaccggca 781 gcattctaga aaatgagcaa agatcaaatc tgatgaacaa cattcttcga ataatttctg 841 atttgcagca gtcctgtgaa tatgatattc ccatattgcc tcatgtccaa aaatacctga 901 actctgttca gtatatagaa gaactacaaa agtttgtgga agacgataat tacaagctct 961 ccttaaagat agaaccagga gcaagtactc cacgctcggc tgcctccagg gaggacctag 1021 caggtcctga cataggcgcc tcaccccagg gagggaggaa gagtagtgct gctgctgctg 1081 ccgccgcggc tgccgaggga gccttactgc cacagacgcc accttcccct cggaacctca 1141 ttccacacgg acacaggaag tgccacagcc tgggttacaa tttcattcat aagatgaaca 1201 cagcagagtt taagagcgca acgttcccaa acgcagggcc acggcacctg ctggatgata 1261 gtgtcatgga gccgcacgca ccgtcgcgag gccaggctga gagctctaca ctttccagtg 1321 gaatatccat agggagcagt gatggttctg aactaagcga agagacctca tggccggctt 1381 ttgaaaggaa cagattatac cattctctcg gcccggtgac aagagtgccg cgaaatggct 1441 atcgaagcca cacgaaggcc agcagctctg cggagtcgga agatttggcg gtgcatctgt 1501 accccggagc tgttactatt caaggtgtgc tccggaggaa aaccttgcta aaagaaggca 1561 agaaacccac agtagcatct tggacaaagt attgggcagc cttgtgtgga acacagcttt 1621 tttactatgc cgccaaatct ctgaaggcta cagaaagaaa gcatttcaaa tcaacgtcaa 1681 ataagaatgt gtctgtggtg ggctggatgg tgatgatggc tgacgaccca gagcatccag 1741 acctctttct gctgactgac tccgagaaag gaaattcata caagtttcaa gctggcagca 1801 ggatgaatgc aatgctgtgg tttaaacact tgagcgcggc ctgccagagt aacaagcaac 1861 aggttcctac aaacttgatg acttttgagt aaacgcctga gacagaagag gagtgctatt 1921 gttcccgtgt ggaaccggga cctgccgaga gccccagccg caccatcccg tgccaggaag 1981 agcccccagg ctccagccca gcctccggag ctcagaacca aaagcactaa tttcagggaa 2041 tgaagtgaga tgttcccaga gaaaaacgat ggagttgcaa agcaaactgc catgaacttc 2101 gcttcttctc tccgaactga cctgtggaag ccactgcctt aacagagtgc gaggagagcc 2161 gacaccaaat agtgtgtgtg cgtcttctgg cggtgctgtg cttggaataa attgtagcta 2221 atttgcattt cttttaactt tgtactaatt ttggagggga aaccatcttt tttagataca 2281 ctttaaaatg gaaaaacatt tcttatggat tccatcagga gctgttttag gtgcagtgag 2341 aaataccctg caggttctgc tcagcctctg ccagtggctg cctcacgttc ccacagcaag 2401 acctgggagg gacctgctgt ggaagctgtg ggtgcaggct gggatagata gggagggcat 2461 gcctcgcttt ggatgaggga tccatttaaa cactaccgtt tggaattgag ggctagaagg 2521 agaacatgat ttcctgcagg agggacaaag gctgagtgtt cacgtgccag caggctccag 2581 aacacaccag ggttaaagtt taactttctg tatgaattca ttgttgggcc caaatccgca 2641 taggagcacg gtgatcccgc gctcgggttt ctgtagcctt ttcacaagtc aggtgggtta 2701 tccagccacg ggtgtcccag ggaagaccct ggtgtttctt gtgctgttgc cccttgcagt 2761 gtttaatgtg cagtatgcca gacttatttt ttattgaatt tgtttttgtt cagtatgagg 2821 ttcaaaagca tacttgttta aaaggttctt catgtatatg tatgtatttt attgtaagac 2881 aaagcaattt taagaagaat aaaggcaaag tttgcagttc taggaattga aaatataaaa 2941 ccttttcttg tatgacttca caaaatgtac cagaacattg tattcagaaa gttactgtcg 3001 gtccccagtg tgaaaaccat gtttgttagt aactgaccaa gcattggaga gagctctcct 3061 aggcaataac acatttaatt tttaaaacga atgttggact tgacatagct tagaatttta 3121 accaaaaata acgcttgact gttgagggtc cccactttta cagtggctcc gtgtgcaaag 3181 gccttgactg acagacacct cctagcaaac tgctctttgg gtctcatgta aaatgtctca 3241 cattgtgtcc ttcaagaatt gtatacttta tcagaagtat tttatcacca agcccattga 3301 gcttaactag aaaatactgt ctatacagta attacagtaa ttagct

LOCUS AK029993 4398 bp mrna linear HTC 05-DEC-2002 DEFINITION Mus musculus adult male testis cdna, RIKEN full-length enriched library, clone:4932413l04 product:ral-a EXCHANGE FACTOR RALGPS2 homolog [Mus musculus], full insert sequence. ACCESSION AK029993 VERSION AK029993.1 GI:26081620 KEYWORDS HTC; CAP trapper. SOURCE Mus musculus (house mouse) ORGANISM Mus musculus Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus. [..] FEATURES Location/Qualifiers source 1..4398 /organism="mus musculus" /strain="c57bl/6j" /db_xref="fantom_db:4932413l04" /db_xref="taxon:10090" /clone="4932413l04" /sex="male" /tissue_type="testis" /clone_lib="riken full-length enriched mouse cdna library" /dev_stage="adult" misc_feature 1..4398 /note="ral-a EXCHANGE FACTOR RALGPS2 homolog [Mus musculus] (SPTR Q9ERD6, evidence: FASTY, 90.1%ID, 100%length, match=1797)" BASE COUNT 1249 a 925 c 1045 g 1179 t ORIGIN 1 tcccccgagc gccggcggca ggcgctgaat gagagacgcc gactgctcgg ttgggcgagc 61 gattgcctcg gagccgcggg cgaagcggag gcgacggccg cggctgcaca ggaatgatgc 121 atttgtggcc ttggacatga agtaatcaga cctctgttgc tgttactgta ggctcagggg 181 ctgatgagga aagcatggac ctaatgaacg ggcaggcaag cagtgttact atcgcagcca 241 ctgtttccga gaagagtagc agctctgagt cactaagcga gaagggctct gaattgaaga 301 aaagctttga tgctgtggtg tttgatgttc ttaaggttac gccagaagaa tacgcgggtc 361 agataacact aatggatgtt ccagtgttta aagctattca gccagatgta tccctacatc 421 atcaccctta gaacagtcct tttaagagtg ttggaaccta caagacgtaa gagaagctgt 481 gactcctgtg aattgagtca ttctctcata gggaactttc aagttgtgga tggaataaaa 541 aagaaaaata tagttctgca ccaaatgcag ttgctttcac aagaagattt aatcacgtaa 601 gcttttgggt tgtaagagag attctccatg ctcaaacact gaaaataaga gcagaagttt 661 tgagccacta tattaagact gctaagaaac tatatgaact taacaacctt cacgcactta 721 tggctgtggt ttctggctta cagagtgcgc cgattttccg gttgactaag acgtgggcgt 781 tattaagtcg aaaagacaaa actacctttg aaaaactaga atatgtaatg agtaaagaag 841 ataactacaa aagactcaga gactatataa gcagcttaaa gatgactcct tgcattccct 901 atttaggcat ctatttgtct gacttgacct acattgactc cgcgtaccca tccaccggca 961 gcattctaga aaatgagcaa agatcaaatc tgatgaacaa cattcttcga ataatttctg 1021 atttgcagca gtcctgtgaa tatgatattc ccatattgcc tcatgtccaa aaatacctga 1081 actctgttca gtatatagaa gaactacaaa agtttgtgga agacgataat tacaagctct 1141 ccttaaagat agaaccagga gcaagtactc cacgctcggc tgcctccagg gaggacctag 1201 caggtcctga cataggcgcc tcaccccagg gagggaggaa gagtagtgct gctgctgctg 1261 ccgccgcggc tgccgaggga gccttactgc cacagacgcc accttcccct cggaacctca 1321 ttccacacgg acacaggaag tgccacagcc tgggttacaa tttcattcat aagatgaaca 1381 cagcagagtt taagagcgca acgttcccaa acgcagggcc acggcacctg ctggatgata 1441 gtgtcatgga gccgcacgca ccgtcgcgag gccaggctga gagctctaca ctttccagtg 1501 gaatatccat agggagcagt gatggttctg aactaagcga agagacctca tggccggctt 1561 ttgaaagctc tgcggagtcg gaagatttgg cggtgcatct gtaccccgga gctgttacta 1621 ttcaaggtgt gctccggagg aaaaccttgc taaaagaagg caagaaaccc acagtagcat 1681 cttggacaaa gtattgggca gccttgtgtg gaacacagct tttttactat gccgccaaat 1741 ctctgaaggc tacagaaaga aagcatttca aatcaacgtc aaataagaat gtgtctgtgg

1801 tgggctggat ggtgatgatg gctgacgacc cagagcatcc agacctcttt ctgctgactg 1861 actccgagaa aggaaattca tacaagtttc aagctggcag caggatgaat gcaatgctgt 1921 ggtttaaaca cttgagcgcg gcctgccaga gtaacaagca acaggttcct acaaacttga 1981 tgacttttga gtaaacgcct gagacagaag aggagtgcta ttgttcccgt gtggaaccgg 2041 gacctgccga gagccccagc cgcaccatcc cgtgccagga agagccccca ggctccagcc 2101 cagcctccgg agctcagaac caaaagcact aatttcaggg aatgaagtga gatgttccca 2161 gagaaaaacg atggagttgc aaagcaaact gccatgaact tcgcttcttc tctccgaact 2221 gacctgtgga agccactgcc ttaacagagt gcgaggagag ccgacaccaa atagtgtgtg 2281 tgcgtcttct ggcggtgctg tgcttggaat aaattgtagc taatttgcat ttcttttaac 2341 tttgtactaa ttttggaggg gaaaccatct tttttagata cactttaaaa tggaaaaaca 2401 tttcttatgg attccatcag gagctgtttt aggtgcagtg agaaataccc tgcaggttct 2461 gctcagcctc tgccagtggc tgcctcacgt tcccacagca agacctggga gggacctgct 2521 gtggaagctg tgggtgcagg ctgggataga tagggagggc atgcctcgct ttggatgagg 2581 gatccattta aacactaccg tttggaattg agggctagaa ggagaacatg atttcctgca 2641 ggagggacaa aggctgagtg ttcacgtgcc agcaggctcc agaacacacc agggttaaag 2701 tttaactttc tgtatgaatt cattgttggg cccaaatccg cataggagca cggtgatccc 2761 gcgctcgggt ttctgtagcc ttttcacaag tcaggtgggt tatccagcca cgggtgtccc 2821 agggaagacc ctggtgtttc ttgtgctgtt gccccttgca gtgtttaatg tgcagtatgc 2881 cagacttatt ttttattgaa tttgtttttg ttcagtatga ggttcaaaag catacttgtt 2941 taaaaggttc ttcatgtata tgtatgtatt ttattgtaag acaaagcaat tttaagaaga 3001 ataaaggcaa agtttgcagt tctaggaatt gaaaatataa aaccttttct tgtatgactt 3061 cacaaaatgt accagaacat tgtattcaga aagttactgt cggtccccag tgtgaaaacc 3121 atgtttgtta gtaactgacc aagcattgga gagagctctc ctaggcaata acacatttaa 3181 tttttaaaac gaatgttgga cttgacatag cttagaattt taaccaaaaa taacgcttga 3241 ctgttgaggg tccccacttt tacagtggct ccgtgtgcaa aggccttgac tgacagacac 3301 ctcctagcaa actgctcttt gggtctcatg taaaatgtct cacattgtgt ccttcaagaa 3361 ttgtatactt tatcagaagt attttatcac caagcccatt gagcttaact agaaaatact 3421 gtctatacag taattacagt aattagctaa aaaaaagaaa ttagtccaag agaaaatgaa 3481 gagccttttc tgagtgtttc taatttgaat aattcaaaga cgtcatgtga cagaaatacc 3541 ttatttgaga cttcctagac aagcagggaa aggcacatat tgccgtgaga gaatgatttt 3601 tcagataacg gtctaagcta acccgtgttg tgttgagtat acgcagacag atccgcagtg 3661 gccagcgggg ctacagcgca ggctttcccc gtgtgtctta cttttgtctt gcctcttttt 3721 tttttttttt tttaaagcaa ttccttagtt tgttttgctc cagaataatg ttttaaatag 3781 tatgcatact gtttttgaga tactgtgaat gagagccccg tggctgttgt agtactactc 3841 tgtcatgaat atgctaaagc cgttacaatg taggtgaatc aggtctgggg agatgggcag 3901 ctcgcacagg ccagcctcac agttttgcca aagagaaagg gctgagatgg gcgttgtatt 3961 tggtacaccc agctctggac acttacgggt gtgtagagga agaaccggat tcagatttga 4021 tcagccaggc cctattagca ccatggctcc tggctgaaag taaaactatt tttctacctt 4081 gagattgctc taaagatcag tcattgcttt ttaggatgat tttagaaacc gtgagagatg 4141 cattagagta ggtgagttgt tttttatctg taattcacca aatggtatca gattataatt 4201 gaagcaaaga aaacattgcc aaactatatt aaatatttga gtattttact tactggagaa 4261 tgaatcctgt tatgcttacc ctcaggtgta aattagttct caccagctca tttcccacag 4321 acagtaaagc tcatttgttt ctctcatagc caaggagaac tctttcagaa actcgattaa 4381 aatttaaact ttacaagc Per la ricerca delle ORF si è tenuto in considerazione solo il frame di lettura (+) dal momento che ciò che stiamo analizzando è un mrna: sequenza AK019543 Frame Da A Length +3 297 1892 1596 +2 2288 2476 189 +2 2612 2797 186 +3 2766 2930 165 +1 2305 2451 147 +1 301 420 120 +1 1435 1551 117 +1 121 231 111 +1 +2 +3

Sequenza AK029993 Frame Da A Length +3 720 1994 1275 +3 195 431 237 +1 376 600 225 +2 2390 2578 189 +2 2714 2899 186 +2 3893 4057 165 +3 2868 3032 165 +1 2404 2553 147 +2 29 145 117 +1 +2 +3 Le sequenze tradotte delle ORF di maggiori dimensioni ritrovate sopra sono rispettivamente: >AK019543 ORF:297..1892 Frame +3 MDVPVFKAIQPDELSSCGWNKKEKYSSAPNAVAFTRRFNHVSFWVVREILHAQTLKIRAEVLSHYIKTAK KLYELNNLHALMAVVSGLQSAPIFRLTKTWALLSRKDKTTFEKLEYVMSKEDNYKRLRDYISSLKMTPCI PYLGIYLSDLTYIDSAYPSTGSILENEQRSNLMNNILRIISDLQQSCEYDIPILPHVQKYLNSVQYIEEL QKFVEDDNYKLSLKIEPGASTPRSAASREDLAGPDIGASPQGGRKSSAAAAAAAAAEGALLPQTPPSPRN LIPHGHRKCHSLGYNFIHKMNTAEFKSATFPNAGPRHLLDDSVMEPHAPSRGQAESSTLSSGISIGSSDG SELSEETSWPAFERNRLYHSLGPVTRVPRNGYRSHTKASSSAESEDLAVHLYPGAVTIQGVLRRKTLLKE GKKPTVASWTKYWAALCGTQLFYYAAKSLKATERKHFKSTSNKNVSVVGWMVMMADDPEHPDLFLLTDSE KGNSYKFQAGSRMNAMLWFKHLSAACQSNKQQVPTNLMTFE >AK029993 ORF:720..1994 Frame +3 MAVVSGLQSAPIFRLTKTWALLSRKDKTTFEKLEYVMSKEDNYKRLRDYISSLKMTPCIPYLGIYLSDLT YIDSAYPSTGSILENEQRSNLMNNILRIISDLQQSCEYDIPILPHVQKYLNSVQYIEELQKFVEDDNYKL SLKIEPGASTPRSAASREDLAGPDIGASPQGGRKSSAAAAAAAAAEGALLPQTPPSPRNLIPHGHRKCHS LGYNFIHKMNTAEFKSATFPNAGPRHLLDDSVMEPHAPSRGQAESSTLSSGISIGSSDGSELSEETSWPA FESSAESEDLAVHLYPGAVTIQGVLRRKTLLKEGKKPTVASWTKYWAALCGTQLFYYAAKSLKATERKHF KSTSNKNVSVVGWMVMMADDPEHPDLFLLTDSEKGNSYKFQAGSRMNAMLWFKHLSAACQSNKQQVPTNL MTFE Entrambe le sequenze sono state utilizzate per una ricerca di omologhi in banca dati tramite Blastp. I risultati ottenuti sono identici per le due proteine, eccezion fatta per gli scores ed i relativi E- value. Questa differenza è da imputarsi oltre che ad una diversa lunghezza delle due putative proteine anche al fatto che nella seconda di esse (AK029993) è assente un breve tratto nella sezione C-terminale. Per AK019543 Sequences producing significant alignments: (bits) Value tr!q8bz37 RAL-A exchange factor RALGPS2 homolog [Mus musculus (M... 1008 0.0 tr!q8bzu2 RAL-A exchange factor RALGPS2 homolog [Mus musculus (M... 1007 0.0 tr!q9erd6 Ral-A exchange factor RalGPS2 [4921528G01RIK] [Mus mus... 1007 0.0 tn!aah47391 Similar to RIKEN cdna 4921528G01 gene [Homo sapiens... 984 0.0 tr!q9d2y7 9130014M22Rik protein [4921528G01RIK] [Mus musculus (M... 928 0.0 tr!q8c134 RAL-A exchange factor RALGPS2 homolog [Mus musculus (M... 854 0.0 tr!q8bvr9 Similar to RAL guanine nucleotide exchange factor RALG... 637 0.0 tr!o15059 Hypothetical protein KIAA0351 [KIAA0351] [Homo sapiens... 616 e-175 tr!q9h4v2 DJ595C2.1.2 (KIAA0351) (Fragment) [DJ595C2.1] [Homo sa... 474 e-133 tr!q9nw78 Hypothetical protein [Homo sapiens (Human)] 442 e-123

tr!q9nz16 Ral guanine nucleotide exchange factor RalGPS1A [Homo... 419 e-116 tr!q8n7g9 Hypothetical protein FLJ25604 [Homo sapiens (Human)] 416 e-115... tn!aao51688 Similar to Dictyostelium discoideum (Slime mold). Nu... 105 1e-21 sp!p04821!cc25_yeast Cell division control protein 25 [CDC25] [S... 105 2e-21 Per AK029993: Sequences producing significant alignments: (bits) Value tr!q8bz37 RAL-A exchange factor RALGPS2 homolog [Mus musculus (M... 776 0.0 tr!q8bzu2 RAL-A exchange factor RALGPS2 homolog [Mus musculus (M... 776 0.0 tr!q9erd6 Ral-A exchange factor RalGPS2 [4921528G01RIK] [Mus mus... 775 0.0 tn!aah47391 Similar to RIKEN cdna 4921528G01 gene [Homo sapiens... 758 0.0 tr!q9d2y7 9130014M22Rik protein [4921528G01RIK] [Mus musculus (M... 696 0.0 tr!q9h4v2 DJ595C2.1.2 (KIAA0351) (Fragment) [DJ595C2.1] [Homo sa... 660 0.0 tr!q8c134 RAL-A exchange factor RALGPS2 homolog [Mus musculus (M... 623 e-177 tr!o15059 Hypothetical protein KIAA0351 [KIAA0351] [Homo sapiens... 485 e-136 tr!q8bvr9 Similar to RAL guanine nucleotide exchange factor RALG... 473 e-132... tr!q8t6g6 Ras GTP exchange factor K [GEFK] [Dictyostelium discoi... 83 7e-15 sp!p04821!cc25_yeast Cell division control protein 25 [CDC25] [S... 81 2e-14 Dal momento che le due proteine prese in esame identificano medesimi risultati nella ricerca in banca dati, ho ritenuto interessante visualizzare l allineamento tra le due mediante dotplot, al fine di evidenziarne le similitudini. Di seguito è riportato unicamente il Dot-Plot relativo utilizzando una matrice di identità per il confronto. In ascisse è riportata la sequenza relativa a AK019543, in ordinate quella relativa a AK029993. E evidente come nella seconda manchi una parte di sequenza nella regione N-terminale (80 aa) e parte nella regione C-terminale (27 aa). Può essere interessante AK029993 AK019543 notare che la sequenza AK029993 consta di 424 aminoacidi e se a questi si sommano i 107 mancanti si ottiene un totale di 531 aminoacidi, esattamente il numero contenuto nella sequenza AK019543. E ragionevole supporre che mentre la sezione di 27 aa mancante verso il C-terminale sia il risultato di una delezione, gli 80 aa mancanti all Nterminale siano il risultato di una mutazione che ha modificato l ampiezza della ORF originaria eventualmente con l introduzione di un codone di stop prematuro; per verificare queste ipotesi si è proceduto per prima cosa ad effettuare un allineamento pairwise tra le due sequenze nucleotidiche in questione e si è visto che la sequenza nucleotidica AK029993 presenta una inserzione di 105 bp che copre l intervallo 408-513, a monte dell inizio della traduzione.

Score = 171 bits (89), Expect = 5e-39 Identities = 89/89 (100%) AK019543: 245 gtttgatgttcttaaggttacgccagaagaatacgcgggtcagataacactaatggatgt 304 AK029993: 320 gtttgatgttcttaaggttacgccagaagaatacgcgggtcagataacactaatggatgt 379 AK019543: 305 tccagtgtttaaagctattcagccagatg 333 AK029993: 380 tccagtgtttaaagctattcagccagatg 408 Score = 1982 bits (1031), Expect = 0.0 Identities = 1043/1055 (98%) AK019543: 333 gaactttcaagttgtggatggaatnnnnnnnnnnnntatagttctgcaccaaatgcagtt 392 AK029993: 513 gaactttcaagttgtggatggaataaaaaagaaaaatatagttctgcaccaaatgcagtt 572 AK019543: 393 gctttcacaagaagatttaatcacgtaagcttttgggttgtaagagagattctccatgct 452 AK029993: 573 gctttcacaagaagatttaatcacgtaagcttttgggttgtaagagagattctccatgct 632 AK019543: 453 caaacactgaaaataagagcagaagttttgagccactatattaagactgctaagaaacta 512 AK029993: 633 caaacactgaaaataagagcagaagttttgagccactatattaagactgctaagaaacta 692 AK019543: 513 tatgaacttaacaaccttcacgcacttatggctgtggtttctggcttacagagtgcgccg 572 AK029993: 693 tatgaacttaacaaccttcacgcacttatggctgtggtttctggcttacagagtgcgccg 752 La sequenza inserita in questa posizione provoca la terminazione prematura della traduzione. Di seguito è riportata la traduzione della regione a monte dell ORF trovata in AK029993, in blu è evidenziata la sequenza inserita AK029993 gaagaatacgcgggtcag 362 E E Y A G Q ataacactaatggatgttccagtgtttaaagctattcagccagatgtatccctacatcat 422 I T L M D V P V F K A I Q P D V S L H H cacccttagaacagtccttttaagagtgttggaacctacaagacgtaagagaagctgtga 482 H P - N S P F K S V G T Y K T - E K L - ctcctgtgaattgagtcattctctcatagggaactttcaagttgtggatggaataaaaaa 542 L L - I E S F S H R E L S S C G W N K K gaaaaatatagttctgcaccaaatgcagttgctttcacaagaagatttaatcacgtaagc 602 E K Y S S A P N A V A F T R R F N H V S ttttgggttgtaagagagattctccatgctcaaacactgaaaataagagcagaagttttg 662 F W V V R E I L H A Q T L K I R A E V L agccactatattaagactgctaagaaactatatgaacttaacaaccttcacgcacttatg 722 S H Y I K T A K K L Y E L N N L H A L M gctgtggtttctggcttacagagtgcgccgattttccgg A V V S G L Q S A P I F R

AK019543 gaagaatacgcgggtcagataacactaatggat 302 E E Y A G Q I T L M D gttccagtgtttaaagctattcagccagatgaactttcaagttgtggatggaataaaaaa 362 V P V F K A I Q P D E L S S C G W N K K gaaaaatatagttctgcaccaaatgcagttgctttcacaagaagatttaatcacgtaagc 422 E K Y S S A P N A V A F T R R F N H V S ttttgggttgtaagagagattctccatgctcaaacactgaaaataagagcagaagttttg 482 F W V V R E I L H A Q T L K I R A E V L agccactatattaagactgctaagaaactatatgaacttaacaaccttcacgcacttatg 542 S H Y I K T A K K L Y E L N N L H A L M gctgtggtttctggcttacagagtgcgccgattttccgg A V V S G L Q S A P I F R In prossimità delle frecce nere sono i codoni di inizio, in prossimità della freccia verde è il codone di inizio di AK029993 analogo a quello di AK019543 (le sequenze che seguono sono identiche). In prossimità della freccia rossa è il punto in cui si inserisce la sequenza aggiuntiva rispetto ad AK019543. Tale sequenza aggiuntiva, come è possibile vedere, si inserisce senza alterare il frame di lettura (+3) dal momento che è composta da un numero di basi multiplo di 3. I numerosi codoni di stop presenti nella sequenza inserita spiegano come mai le ORF siano così differenti. A questo punto per caratterizzare la sequenza di partenza si considererà unicamente l mrna AK019543 che, teoricamente, codifica per una proteina integra. Riprendendo quindi gli allineamenti significativi ottenuti con Blastp, sono stati considerati solamente i primi tre dal momento che ottengono i migliori risultati. Di seguito i relativi allineamenti: >tr!q8bz37 RAL-A exchange factor RALGPS2 homolog [Mus musculus (Mouse)] Length = 555 Score = 1069 bits (2764), Expect = 0.0 Identities = 531/531 (100%), Positives = 531/531 (100%) Query: 1 MDVPVFKAIQPDELSSCGWNKKEKYSSAPNAVAFTRRFNHVSFWVVREILHAQTLKIRAE 60 MDVPVFKAIQPDELSSCGWNKKEKYSSAPNAVAFTRRFNHVSFWVVREILHAQTLKIRAE Sbjct: 25 MDVPVFKAIQPDELSSCGWNKKEKYSSAPNAVAFTRRFNHVSFWVVREILHAQTLKIRAE 84 Query: 61 VLSHYIKTAKKLYELNNLHALMAVVSGLQSAPIFRLTKTWALLSRKDKTTFEKLEYVMSK 120 VLSHYIKTAKKLYELNNLHALMAVVSGLQSAPIFRLTKTWALLSRKDKTTFEKLEYVMSK Sbjct: 85 VLSHYIKTAKKLYELNNLHALMAVVSGLQSAPIFRLTKTWALLSRKDKTTFEKLEYVMSK 144 Query: 121 EDNYKRLRDYISSLKMTPCIPYLGIYLSDLTYIDSAYPSTGSILENEQRSNLMNNILRII 180 EDNYKRLRDYISSLKMTPCIPYLGIYLSDLTYIDSAYPSTGSILENEQRSNLMNNILRII Sbjct: 145 EDNYKRLRDYISSLKMTPCIPYLGIYLSDLTYIDSAYPSTGSILENEQRSNLMNNILRII 204 Query: 181 SDLQQSCEYDIPILPHVQKYLNSVQYIEELQKFVEDDNYKLSLKIEPGASTPRSAASRED 240 SDLQQSCEYDIPILPHVQKYLNSVQYIEELQKFVEDDNYKLSLKIEPGASTPRSAASRED Sbjct: 205 SDLQQSCEYDIPILPHVQKYLNSVQYIEELQKFVEDDNYKLSLKIEPGASTPRSAASRED 264 Query: 241 LAGPDIGASPQGGRKSSAAAAAAAAAEGALLPQTPPSPRNLIPHGHRKCHSLGYNFIHKM 300 LAGPDIGASPQGGRKSSAAAAAAAAAEGALLPQTPPSPRNLIPHGHRKCHSLGYNFIHKM Sbjct: 265 LAGPDIGASPQGGRKSSAAAAAAAAAEGALLPQTPPSPRNLIPHGHRKCHSLGYNFIHKM 324 Query: 301 NTAEFKSATFPNAGPRHLLDDSVMEPHAPSRGQAESSTLSSGISIGSSDGSELSEETSWP 360 NTAEFKSATFPNAGPRHLLDDSVMEPHAPSRGQAESSTLSSGISIGSSDGSELSEETSWP Sbjct: 325 NTAEFKSATFPNAGPRHLLDDSVMEPHAPSRGQAESSTLSSGISIGSSDGSELSEETSWP 384

Query: 361 AFERNRLYHSLGPVTRVPRNGYRSHTKASSSAESEDLAVHLYPGAVTIQGVLRRKTLLKE 420 AFERNRLYHSLGPVTRVPRNGYRSHTKASSSAESEDLAVHLYPGAVTIQGVLRRKTLLKE Sbjct: 385 AFERNRLYHSLGPVTRVPRNGYRSHTKASSSAESEDLAVHLYPGAVTIQGVLRRKTLLKE 444 Query: 421 GKKPTVASWTKYWAALCGTQLFYYAAKSLKATERKHFKSTSNKNVSVVGWMVMMADDPEH 480 GKKPTVASWTKYWAALCGTQLFYYAAKSLKATERKHFKSTSNKNVSVVGWMVMMADDPEH Sbjct: 445 GKKPTVASWTKYWAALCGTQLFYYAAKSLKATERKHFKSTSNKNVSVVGWMVMMADDPEH 504 Query: 481 PDLFLLTDSEKGNSYKFQAGSRMNAMLWFKHLSAACQSNKQQVPTNLMTFE 531 PDLFLLTDSEKGNSYKFQAGSRMNAMLWFKHLSAACQSNKQQVPTNLMTFE Sbjct: 505 PDLFLLTDSEKGNSYKFQAGSRMNAMLWFKHLSAACQSNKQQVPTNLMTFE 555 >tr!q8bzu2 RAL-A exchange factor RALGPS2 homolog [Mus musculus (Mouse)] Length = 590 Score = 1068 bits (2761), Expect = 0.0 Identities = 530/531 (99%), Positives = 531/531 (100%) Query: 1 MDVPVFKAIQPDELSSCGWNKKEKYSSAPNAVAFTRRFNHVSFWVVREILHAQTLKIRAE 60 MDVPVFKAIQPDELSSCGWNKKEKYSSAPNAVAFTRRFNHVSFWVVREILHAQTLKIRAE Sbjct: 60 MDVPVFKAIQPDELSSCGWNKKEKYSSAPNAVAFTRRFNHVSFWVVREILHAQTLKIRAE 119 Query: 61 VLSHYIKTAKKLYELNNLHALMAVVSGLQSAPIFRLTKTWALLSRKDKTTFEKLEYVMSK 120 VLSHYIKTAKKLYELNNLHALMAVVSGLQSAPIFRLTKTWALLSRKDKTTFEKLEYVMSK Sbjct: 120 VLSHYIKTAKKLYELNNLHALMAVVSGLQSAPIFRLTKTWALLSRKDKTTFEKLEYVMSK 179 Query: 121 EDNYKRLRDYISSLKMTPCIPYLGIYLSDLTYIDSAYPSTGSILENEQRSNLMNNILRII 180 EDNYKRLRDYISSLKMTPCIPYLGIYLSDLTYIDSAYPSTGSILENEQRSNLMNNILRII Sbjct: 180 EDNYKRLRDYISSLKMTPCIPYLGIYLSDLTYIDSAYPSTGSILENEQRSNLMNNILRII 239 Query: 181 SDLQQSCEYDIPILPHVQKYLNSVQYIEELQKFVEDDNYKLSLKIEPGASTPRSAASRED 240 SDLQQSCEYDIPILPHVQKYLNSVQYIEELQKFVEDDNYKLSLKIEPGASTPRSAASRED Sbjct: 240 SDLQQSCEYDIPILPHVQKYLNSVQYIEELQKFVEDDNYKLSLKIEPGASTPRSAASRED 299 Query: 241 LAGPDIGASPQGGRKSSAAAAAAAAAEGALLPQTPPSPRNLIPHGHRKCHSLGYNFIHKM 300 LAGPDIGASPQGGRKSSAAAAAAAAAEGALLPQTPPSPRNLIPHGHRKCHSLGYNFIHKM Sbjct: 300 LAGPDIGASPQGGRKSSAAAAAAAAAEGALLPQTPPSPRNLIPHGHRKCHSLGYNFIHKM 359 Query: 301 NTAEFKSATFPNAGPRHLLDDSVMEPHAPSRGQAESSTLSSGISIGSSDGSELSEETSWP 360 NTAEFKSATFPNAGPRHLLDDSVMEPHAPSRGQAESSTLSSGISIGSSDGSELSEETSWP Sbjct: 360 NTAEFKSATFPNAGPRHLLDDSVMEPHAPSRGQAESSTLSSGISIGSSDGSELSEETSWP 419 Query: 361 AFERNRLYHSLGPVTRVPRNGYRSHTKASSSAESEDLAVHLYPGAVTIQGVLRRKTLLKE 420 AFERNRLYH+LGPVTRVPRNGYRSHTKASSSAESEDLAVHLYPGAVTIQGVLRRKTLLKE Sbjct: 420 AFERNRLYHTLGPVTRVPRNGYRSHTKASSSAESEDLAVHLYPGAVTIQGVLRRKTLLKE 479 Query: 421 GKKPTVASWTKYWAALCGTQLFYYAAKSLKATERKHFKSTSNKNVSVVGWMVMMADDPEH 480 GKKPTVASWTKYWAALCGTQLFYYAAKSLKATERKHFKSTSNKNVSVVGWMVMMADDPEH Sbjct: 480 GKKPTVASWTKYWAALCGTQLFYYAAKSLKATERKHFKSTSNKNVSVVGWMVMMADDPEH 539 Query: 481 PDLFLLTDSEKGNSYKFQAGSRMNAMLWFKHLSAACQSNKQQVPTNLMTFE 531 PDLFLLTDSEKGNSYKFQAGSRMNAMLWFKHLSAACQSNKQQVPTNLMTFE Sbjct: 540 PDLFLLTDSEKGNSYKFQAGSRMNAMLWFKHLSAACQSNKQQVPTNLMTFE 590 >tr!q9erd6 Ral-A exchange factor RalGPS2 [4921528G01RIK] [Mus musculus (Mouse)] Length = 590 Score = 1068 bits (2761), Expect = 0.0 Identities = 530/531 (99%), Positives = 531/531 (100%)

Query: 1 MDVPVFKAIQPDELSSCGWNKKEKYSSAPNAVAFTRRFNHVSFWVVREILHAQTLKIRAE 60 MDVPVFKAIQPDELSSCGWNKKEKYSSAPNAVAFTRRFNHVSFWVVREILHAQTLKIRAE Sbjct: 60 MDVPVFKAIQPDELSSCGWNKKEKYSSAPNAVAFTRRFNHVSFWVVREILHAQTLKIRAE 119 Query: 61 VLSHYIKTAKKLYELNNLHALMAVVSGLQSAPIFRLTKTWALLSRKDKTTFEKLEYVMSK 120 VLSHYIKTAKKLYELNNLHALMAVVSGLQSAPIFRLTKTWALLSRKDKTTFEKLEYVMSK Sbjct: 120 VLSHYIKTAKKLYELNNLHALMAVVSGLQSAPIFRLTKTWALLSRKDKTTFEKLEYVMSK 179 Query: 121 EDNYKRLRDYISSLKMTPCIPYLGIYLSDLTYIDSAYPSTGSILENEQRSNLMNNILRII 180 EDNYKRLRDYISSLKMTPCIPYLGIYLSDLTYIDSAYPSTGSILENEQRSNLMNNILRII Sbjct: 180 EDNYKRLRDYISSLKMTPCIPYLGIYLSDLTYIDSAYPSTGSILENEQRSNLMNNILRII 239 Query: 181 SDLQQSCEYDIPILPHVQKYLNSVQYIEELQKFVEDDNYKLSLKIEPGASTPRSAASRED 240 SDLQQSCEYDIP+LPHVQKYLNSVQYIEELQKFVEDDNYKLSLKIEPGASTPRSAASRED Sbjct: 240 SDLQQSCEYDIPMLPHVQKYLNSVQYIEELQKFVEDDNYKLSLKIEPGASTPRSAASRED 299 Query: 241 LAGPDIGASPQGGRKSSAAAAAAAAAEGALLPQTPPSPRNLIPHGHRKCHSLGYNFIHKM 300 LAGPDIGASPQGGRKSSAAAAAAAAAEGALLPQTPPSPRNLIPHGHRKCHSLGYNFIHKM Sbjct: 300 LAGPDIGASPQGGRKSSAAAAAAAAAEGALLPQTPPSPRNLIPHGHRKCHSLGYNFIHKM 359 Query: 301 NTAEFKSATFPNAGPRHLLDDSVMEPHAPSRGQAESSTLSSGISIGSSDGSELSEETSWP 360 NTAEFKSATFPNAGPRHLLDDSVMEPHAPSRGQAESSTLSSGISIGSSDGSELSEETSWP Sbjct: 360 NTAEFKSATFPNAGPRHLLDDSVMEPHAPSRGQAESSTLSSGISIGSSDGSELSEETSWP 419 Query: 361 AFERNRLYHSLGPVTRVPRNGYRSHTKASSSAESEDLAVHLYPGAVTIQGVLRRKTLLKE 420 AFERNRLYHSLGPVTRVPRNGYRSHTKASSSAESEDLAVHLYPGAVTIQGVLRRKTLLKE Sbjct: 420 AFERNRLYHSLGPVTRVPRNGYRSHTKASSSAESEDLAVHLYPGAVTIQGVLRRKTLLKE 479 Query: 421 GKKPTVASWTKYWAALCGTQLFYYAAKSLKATERKHFKSTSNKNVSVVGWMVMMADDPEH 480 GKKPTVASWTKYWAALCGTQLFYYAAKSLKATERKHFKSTSNKNVSVVGWMVMMADDPEH Sbjct: 480 GKKPTVASWTKYWAALCGTQLFYYAAKSLKATERKHFKSTSNKNVSVVGWMVMMADDPEH 539 Query: 481 PDLFLLTDSEKGNSYKFQAGSRMNAMLWFKHLSAACQSNKQQVPTNLMTFE 531 PDLFLLTDSEKGNSYKFQAGSRMNAMLWFKHLSAACQSNKQQVPTNLMTFE Sbjct: 540 PDLFLLTDSEKGNSYKFQAGSRMNAMLWFKHLSAACQSNKQQVPTNLMTFE 590 Le tre proteine suggerite sono praticamente identiche tra di loro, le uniche differenze sono evidenziate in rosso. La prima proteina (Q8BZ37) è lunga solo 555 aminoacidi dal momento che le manca una sequenza di 35 aminoacidi all estremità N-terminale (rispetto alle altre due sequenze mancano gli aminoacidi nell intervallo 20-55). In tabella sono riportate le differenze aminoacidiche nella sequenza. Proteina Posizione 252 (217) Posizione 429 (394) Q8BZ37 Ile Ser Q8BZU2 Ile Thr Q9ERD6 Met Ser La nostra proteina putativa si allinea perfettamente con Q8BZ37 ma rispetto a questa la sequenza è più corta e mancano 25 aminoacidi nella all estremità N-terminale. I rispettivi mrna con relativa traduzione sono riportati di seguito:

AK019543 ggacctaatgaacgggcaggcaagcagtgttactatcgcagccactgtttccgagaagag 182 G P N E R A G K Q C Y Y R S H C F R E E tagcagctctggcaccctaagcgagaagggctaccgcacagatgcgtaagttgatgctac 242 - Q L W H P K R E G L P H R C V S - C Y cggtttgatgttcttaaggttacgccagaagaatacgcgggtcagataacactaatggat 302 R F D V L K V T P E E Y A G Q I T L M D gttccagtg V P V AK036803 (Q8BZ37) atggacctaatgaacggg 216 M D L M N G caggcaagcagtgttactatcgcagccactgtttccgagggtcagataacactaatggat 276 Q A S S V T I A A T V S E G Q I T L M D gttccagtg V P V Ancora una volta l inserzione di una sequenza interferisce con il meccanismo di traduzione. La presenza di tanti mrna simili che possiedono lunghe inserzioni e delezioni l uno rispetto agli altri suggerisce di verificare se gli mrna fin ora incontrati siano il risultato di splicing alternativo di un unico gene, splicing che evidentemente avviene diversamente nei vari tessuti. In effetti la ricerca del Locus 4921528G01 (indicato come cross-reference dopo il primo blastn) nel genoma di topo identifica una regione nel cromosoma I lunga 134697 bp. Tale regione risulta comprendere 27 esoni. Analizzando la sequenza nucleotidica per ciascun esone e confrontandola con i 4 mrna trovati all inizio delle analisi, si può dedurre il seguente schema: AK019543 --2-3-4---6-7-8-9-16-17-18-19-20-21-22-23-24-25-26-27 AK029993 1-2-3-4-5-6-7-8-9-16-17-18-19-20-21----23-24-25-26-27 AK036803 1-2---4---6-7-8-9-16-17-18-19-20-21-22-23-24-25-26-27 AK033549 1-2-3-4---6-7-8-9-16-17-18-19-20-21-22-23-24-25-26-27 AF312924-2-3-4---6-7-8-9-16-17-18-19-20-21-22-23-24-25-26-27 In questo schema valgono le seguenti corrispondenze: ID mrna ID proteina Tessuto di origine AK019543 --- Testicolo AK029993 --- Testicolo AK036803 Q8BZ37 Vagina AK033549 Q8BZU2 Colon AF312924 Q9ERD6 Testicolo La sequenza AF312924 non risulta dal primo Blastn effettuato ma è stata ottenuta come cross-reference della proteina Q9ERD6, ottenuta con Blastp. Per ogni mrna è riportata la sequenza di esoni di cui è composto. In particolare si nota che la sequenza AK029993 possiede l esone 5 in più rispetto agli altri e non possiede l esone 22. In effetti tali differenze di sequenza giustificano le differenze nella sequenza aminoacidica riscontrate precedentemente (spostamento del codone di inizio più a valle e differenza di 27 aminoacidi al C-terminale). L esone 5 si inserisce senza alterare il frame di lettura e inserisce codoni di stop. L assenza dell esone 3 nella sequenza AK036803 giustifica la differenza di 35 aminoacidi tra la relativa proteina Q8BZ37 e la proteina Q8BZU2 (relativa alla sequenza AK033549).

In più viene annotato che l esone 3 della sequenza AK019543 è differente dagli altri nella propria regione al 5 : i primi 75 nucleotidi dell esone in questione non si allineano perfettamente alla sequenza regolare dell esone 3. Esone 3 AK019543 AAGAGTAGCAGCTCTGGCACCCTAAGCGAGAAGGGCTACCGCACAGATGCGTAA Esone 3 regolare AAGAGTAGCAGCTCTGAGTCACTAAGCGAGAAGGGCTCTGAATTGAAGAAAAGC Esone 3 AK019543 GTTGATGCTACCG-GTTTGATG... Esone 3 regolare TTTGATGCTGTGGTGTTTGATG... Gli mrna che presentano lo stesso schema di splicing sono AK019543 e AF312924, entrambi caratterizzati nel testicolo di topo. Le ORF individuate su questi mrna sono una di 531 aa (AK019543, frame +3) e una di 590 aa (AF312924, frame +1, id:q9erd6). La lettura in frame +1 della sequenza AK019543 porta ad una interruzione della traduzione a causa dei codoni di stop presenti sull esone anomalo, quindi la traduzione deve partire più a valle e con un frame di lettura differente (questo perché l esone anomalo è più corto di un nucleotide). Per questo motivo la previsione della proteina relativa a tale sequenza è più corta. Nel procedere a caratterizzare la proteina derivante dalla sequenza AK019543 si è analizzata la stessa parallelamente alla proteina Q9ERD6 tradotta dalla sequenza AF312924, proprio perché caratterizzate entrambe da un simile pattern di splicing e a partire dal medesimo tessuto. La ricerca di motivi in prosite porta agli stessi risultati per entrambe le proteine. In una estesa regione centrale è presente un PH-domain (pleckstrin homology) (ID: PS50003), dominio diffuso in proteine coinvolte nella trasduzione del segnale entro le cellule come anche in proteine facenti parte del citoscheletro. La funzione di questo dominio non è chiara. E stato suggerito che possa servire per il legame con le subunià β/γ di proteine G eterotrimeriche, oppure possa legare lipidi, residui Ser/Thr fosforilati o infine possa servire per ancorare la proteina alla membrana. La ricerca di motivi di Q9ERD6 all interno della banca dati SMART ha dato i seguenti risultati: name begin end E-value low complexity 18 37 - RasGEF 45 288 1.30e-92 low complexity 394 417 - PH 465 578 1.00e-09 Il dominio RasGEF indica che siamo in presenza di un fattore di scambio di guaninnucleotide per le GTP-asi Ras-like. Le proteine Ras sono interruttori cellulari che legano GTP (stato attivo) e lo idrolizzano a GDP (stato inattivo). Lo stato di attività delle proteine Ras dipende dall attività di proteine che favoriscono l attività GTPasica e di proteine che permettono il rilascio di GDP e l uptake di GTP. Queste ultime sono i fattori di scambio di guanin-nucleotide. Proteine che agiscono in questo modo sono classificate, sulla base della

similarità di sequenza, come CDC24 o CDC25. Il dominio RasGEF è necessario per l attività di queste proteine. Il dominio PH individuato in SMART è il medesimo individuato da Prosite. SMART non è in grado di analizzare la sequenza proposta per AK019543 dal momento che la relativa proteina non è presente in banca dati. In ogni caso la proteina per AK019543 manca di 59 aa all estremità N-terminale rispetto a Q9ERD6 e tra essi 14 fanno parte del dominio RasGEF il che potrebbe comportare una perdita di funzionalità di tale proteina. Tale differenza di sequenza proteica è imputabile prima di tutto ad una differenza nella sequenza nucleotidica che introduce un codone di stop prematuro in AK019543: AF312914: 121 tccgagaagagtagcagctctgagtcactaagcgagaagggct 163 AK019543: 172 tccgagaagagtagcagctctggcaccctaagcgagaagggct 214 Se consideriamo invece la proteina deducibile dall altro mrna estratto da testicolo (ID AK029993) possiamo supporre, in prima istanza, che la mancanza di più di 130 aa all estremità N-terminale rispetto a Q9ERD6 comporti la perdita della funzione di scambio GDP GTP. In questo caso la differenza di sequenza è imputabile al diverso pattern di splicing evidenziato in precedenza. La proteina Q9ERD6 è un piccolo scambiatore GDP GTP (RalGPS2) identificato in topo, agisce come fattore di scambio per proteine Ral il cui meccanismo d azione è del tutto simile alle proteine Ras sopra descritte. Ripetendo la ricerca di omologhi con BLAST si trova che la nostra proteina da AK019543 mostra una certa similarità con alcune proteine CDC25, in particolare con un fattore CDC25 di topo (ID P27671). L omologia è tra la regione N-terminale della nostra proteina e la regione 1038-1262 di della CDC25: in questa regione, infatti, è presente il dominio RasGEF (che si estende nella regione tra 1025 e 1259). >sp!p27671!gnrp_mouse Guanine nucleotide releasing protein (GNRP) (Ras-specific nucleotide exchange factor CDC25) (CDC25Mm) [RASGRF1] [Mus musculus (Mouse)] Length = 1262 Score = 132 bits (333), Expect = 1e-30 Identities = 78/232 (33%), Positives = 129/232 (55%), Gaps = 8/232 (3%) Query: 1 MDVPVFKAIQPDELSSCGWNKKEKYSSAPNAVAFTRRFNHVSFWVVREILHAQTLKIRAE 60 +D VFK+I +E GW K EKY P + T+ FNHVS ++ EI+ + + RA Sbjct: 1038 LDHLVFKSIPYEEFFGQGWMKAEKYERTPYIMKTTKHFNHVSNFIASEIIRNEDISARAS 1097 Query: 61 VLSHYIKTAKKLYELNNLHALMAVVSGLQSAPIFRLTKTWALLSRKDKTTFEKLEYVMSK 120 + ++ A L+N +A++ + S + + IFRL KTW +S++ K+ +KL+ ++S Sbjct: 1098 AIEKWVAVADICRCLHNYNAVLEITSSINRSAIFRLKKTWLKVSKQTKSLLDKLQKLVSS 1157 Query: 121 EDNYKRLRDYISSLKMTPCIPYLGIYLSDLTYIDSAYPS-TGSILENEQRSNLMNNILRI 179 + +K LR+ + + PC+PYLG+YL+DL +I+ P+ T L N + ++++I+R Sbjct: 1158 DGRFKNLRESLRNCD-PPCVPYLGMYLTDLVFIEEGTPNYTEDGLVNFSKMRMISHIIRE 1216 Query: 180 ISDLQQSCEYDIPILPHVQKYLNSVQYIEELQKFVEDDNYKLSLKIEPGAST 231 I QQ+ Y I P V +YL ++E E+ Y+ SL IEP T Sbjct: 1217 IRQFQQT-TYKIDPQPKVIQYL-----LDESFMLDEESLYESSLLIEPKLPT 1262 La P27671 presenta un motivo di Prosite tipico delle CDC25, tale motivo è assai simile ad una sottosequenza della proteina in analisi:

Prosite ID PS00720: [GAP]-[CT]-V-P-[FY]-x(4)-[LIVMFY]-x-[DN]-[LIVM] P27671 AK019543 1174 PCVPYLGMYLTDL 138 PCiPYLGIYLSDL Come si può vedere la nostra proteina mostra un motivo (all interno del dominio RasGEF) che si distingue dal motivo delle CDC25 per una sostituzione V I. L allineamento di P27671 con la proteina Q9ERD6 risulta assolutamente simile, e Q9ERD6 presenta un motivo per le CDC25 uguale a quello di AK019543. Per fare ipotesi sulla funzionalità delle proteine derivate da AK019543 e AK029993 è stata fatta una ricerca in banca dati per proteine omologhe di cui è nota la struttura e/o le regioni funzionalmente importanti. L unica struttura nota del dominio RasGEF si può trovare nel complesso H-RAS/SOS-1 umano (ID: 1BKD). La proteina SOS-1 contiene un dominio RasGEF. Questa struttura è stata determinata dopo l espressione in E. coli e non è possibile risalire da essa alla regione catalitica della proteina. Nel tentativo di valutare se le delezioni nel dominio RasGEF sono importanti per la funzione della proteina si è tentato allora di effettuare un allineamento multiplo nella speranza che gli aminoacidi mancanti non fossero altamente conservati nel dominio. Questa via non è facilmente applicabile: i fattori GEF caratterizati in swiss-prot presentano il dominio RasGEF nella regione C-terminale (mentre si trova al N-terminale nella nostra proteina) e questo interferisce parecchio con il tentativo di Clustal-W di effettuare un allineamento multiplo. Per evitare di creare enormi gap alllineando correttamente i domini RasGEF, Clustal-W preferisce mettere la nostra query in registro con le altre non allineando correttamente i domini (come schematizzato di seguito). A B Per evitare di creare gaps alle estremità (A) Clustal-W opta per mettere la sequenza query (in blu) in registro con le rimanenti (B), rinunciando all allineamento del dominio RasGEF (in rosso) Di contro l allineamento con sequenze di piccoli fattori GEF, che presentano il dominio RasGEF nella regione N-terminale, non consente di discriminare le regioni importanti dal momento che le sequenze di tali fattori depositate in banca dati sono talmente simili tra di loro da risultare in un multiallineamento quasi perfetto. Tali sequenze, infatti, appartengono essenzialmente al topo, al ratto o all uomo. In più le sequenze di tali fattori sono depositate nella banca dati TrEMBL, e quindi probabilmente diverse dalle sequenze delle proteine mature all interno delle cellule. Per questi motivi si è scelto di recuperare il multiallineamento del dominio RasGEF dalla banca dati Pfam e confrontare la proteina putativa con esso. Dall allineamento multiplo è possibile vedere che la regione N-terminale del dominio RasGEF è piuttosto variabile tra le proteine riportate: vi sono inserzioni/delezioni di aminoacidi e solo pochi di essi sono conservati in tutti i domini. Inoltre sono evidenziate alcune proteine il cui dominio RasGEF è più corto nella regione N-terminale (es. Q9BWF0, Q9QYS6, O616059). Vista la variabilità della regione N-terminale del dominio RasGEF si può supporre che la proteina derivante dalla sequenza AK019543 possa essere funzionale pur mancando di 14 aminoacidi. Diverso è il caso della proteina derivante da AK029993 a cui manca una grossa regione del dominio RasGEF. In effetti nel multiallineamento presentato in Pfam ci sono proteine che presentano così grandi delezioni. Purtroppo tutte queste sequenze non sono associate a proteine di cui sia effetivamente nota la funzionalità e nulla si può dire quindi sulla funzionalità della nostra proteina. Emblematico, a questo proposito, il caso di Q8N858

(proteina umana) a cui mancano i medesimi aminoacidi di AK029993 all estremità N- terminale. Un allineamento pairwise tra queste due sequenze trova similarità solo nel dominio RasGEF e null altro. Di seguito è riportato il multiallineamento dei 161 domini RasGEF depositati in Pfam relativamente alla regione N-terminale del dominio stesso, in rosso è evidenziata la proteina relativa a AK019543, inserita ed allineata manualmente. Q9Z1C8 DLVS...AK...D.LAGQLTEHDWNLFNRIHQVELIH.-...-------YVLGPQ Q8R1R1 DLVS...AK...D.LAGQLTDHDWNLFNRIHQVELIH.-...-------YVLGPQ Q8VCC8 DLVS...AK...D.LAGQLTDHDWNLFNRIHQVQ---.-...-----------EH O95634 DLVS...AK...D.LAGQLTDHDWSLFNSIHQVELIH.-...-------YVLGPQ O95398 DLVS...AK...D.LAGQLTDHDWSLFNSIHQVELIH.-...-------YVLGPQ Q8WVN0 DLVS...AK...D.LAGQLTDHDWSLFNSIHQVELIH.-...-------YVLGPQ Q9Z1C7 ELMS...SK...D.LAYQMTTYDWELFNCVLELELIY.-...-------HTFGRH Q8VIP9 ELMS...SK...D.LAYQMTTYDWELFNCVHELELIY.-...-------HTFGRH Q9CW52 ELMS...SK...D.LAYQMTTYDWELFNCVHELELIY.-...-------HTFGRH Q9EQZ6 ELMS...SK...D.LAYQMTTYDWELFNCVHELELIY.-...-------HTFGRH Q9Z1P0 ELMS...SK...D.LAYQMTTYDWELFNCVHELELIY.-...-------HTFGRH O95636 ELMS...SK...D.LAYQMTIYDWELFNCVHELELIY.-...-------HTFGRH Q8TAA4 ELMS...SK...D.LAYQMTIYDWELFNCVHELELIY.-...-------HTFGRH Q8WZA2 ELMS...SK...D.LAYQMTIYDWELFNCVHELELIY.-...-------HTFGRH Q9V9A3 EILS...TK...E.LAYHITLFEWDLFWAVHEYELLY.-...-------HTFGRH Q92565 LGMN...TW...D.LALELMNFDWSLFNSIHEQELIY.-...-------FTFSRQ Q9UHV5 HRVE...PE...D.VANHLTAFHWELFRCVHELEFVD.-...-------YVFHGE YNX5_CAEEL HLID...SQ...E.LAHQLFLFHLQLLRSTDSNELLY.-...-------QVIGRE Q9Y4G8 LQLS...TV...E.VATQLSMRNFELFRNIEPTEYID.-...-------DLFKLR Q8NI21 LQLS...TI...E.VATQLSMRDFDLFRNIEPTE--Y.-...---------IDDL Q8TEU6 LQLS...TI...E.VATQLSMRDFDLFRNIEPTE--Y.-...---------IDDL Q8TEU7 LQLS...TI...E.VATQLSMRDFDLFRNIEPTE--Y.-...---------IDDL Q96PC1 LQLS...TI...E.VATQLSMRDFDLFRNIEPTE--Y.-...---------IDDL Q9UHV4 LQLS...TI...E.VATQLSMRDFDLFRNIEPTE--Y.-...---------IDDL Q8TEA3 LQLS...TI...E.VATQLSMRDFDLFRNIEPTE--Y.-...---------IDDL Q8R3E5 LQLS...TI...E.VATQLSMRDFDLFRNIEPTE--Y.-...---------IDDL Q9VMF3 LHLN...AY...E.LAIQLTLQDFANFRQIESTEYVD.-...-------ELFELR Q95V18 LHLN...AY...E.LAIQLTLQDFGTFRQIESTEYVD.-...-------ELFEL- Q21218 LSLN...AQ...V.VAAQLTLQDFSVFSAIEPTEFLD.-...-----------NL Q95NL8 LSLN...AQ...V.VAAQLTLQDFSVFSAIEPTEFLD.-...-----------NL Q95WR8 LSLN...AQ...V.VAAQLTLQDFSVFSAIEPTEFLD.-...-----------NL Q9D3B6 VCSD...PL...V.LAQQLTHIELERVNSIRPED-LM.-...-------QIISHM Q8TBF1 VCCD...PL...V.LAQQLTHIELDRVSSIYPEDLMQ.-...---------IVSH Q8N9B8 VCCD...PL...V.LAQQLTHIELDRVSSIYPEDLMQ.-...---------IVSH Q9D300 VCSD...PY...T.LAQQLTHVELERLRHIGPEEFVQ.Afvn----KDPLAGTKP Q95KH6 VCSD...PY...T.LAQQLTHVELERLRHIGPEEFVQ.Afvn----KDPLASTKP Q8NA49 VCSD...PY...T.LAQQLTHVELERLRHIGPEEFVQ.Afvn----KDPLASTKP Q8N431 VCSD...PY...T.LAQQLTHVELERLRHIGPEEFVQ.Afvn----KDPLASTKP Q96MY8 VCND...PY...T.LAQQLTHIELERLNYIGPEEFVQ.Afvq----KDPLDNDKS Q8JZL7 VCSD...PY...T.LAQQLTHIELERLNYIGPEEFVQ.Afvq----KDPLDNDKS Q8T9J6 MCPS...CA...H.LAHQLTAIELERLSHIGPEEFVQ.-...----AFAKDYQQQ Q8SYL9 MCPS...CA...H.LAHQLTAIELERLSHIGPEEFVQ.-...----AFAKDYQQQ Q9VNR5 MCPS...CA...H.LAHQLTAIELERLSHIGPEEFVQ.-...----AFAKDYQQQ O61605 ----...--...-.-----------------------.-...------------- Q8MLG3 ---S...AF...E.LAHQLYAIEYAYLSQIRLEEFVEiLekd----ELKTCISQT Q95S44 ---S...AF...E.LAHQLYAIEYAYLSQIRLEEFVEiLekd----ELKTCISQT Q9V830 ---S...AF...E.LAHQLYAIEYAYLSQIRLEEFVEiLekd----ELKTCISQT Q21758 LCND...AK...T.VAQQLTHIEMERFSMVGVDEIVQsla.s----DPLSEIGRH Q9USU1 YAYT...PE...E.FASQMTLLEFDYLKQIPSREWIF.-...-------RSWVSR CC25_SACKL LDID...SL...D.YAKQLTIKEHSLFYKISPFECLD.-...-------RTWGNK CC25_YEAST LDID...PY...T.YATQLTVLEHDLYLRITMFECLD.-...-------RAWGTK SC25_YEAST LAVD...PV...L.FATQLTILEHEIYCEITIFDCLQ.-...-------KIWKNK Q12037 LAVD...PV...L.FATQLTILEHEIYCEITIFDCLQ.-...-------KIWKNK CC25_CANAL MDID...YV...E.LARQLTLREFKLYCKITKFACLA.-...-------KVWGKK