POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 MATERIALE DIDATTICO



Documenti analoghi
Francia dalla contrazione delle parole INFORmazione e automatica. Elaborazione e trattamento automatico delle informazioni INFORMATICA

Le Biomolecole I parte. Lezioni d'autore di Giorgio Benedetti

All interno del computer si possono individuare 5 componenti principali: SCHEDA MADRE. MICROPROCESSORE che contiene la CPU MEMORIA RAM MEMORIA ROM

amminico è legato all atomo di carbonio immediatamente adiacente al gruppo carbonilico e hanno la seguente

Software relazione. Software di base Software applicativo. Hardware. Bios. Sistema operativo. Programmi applicativi

Architettura hardware

C. P. U. MEMORIA CENTRALE

Informatica - A.A. 2010/11

Il concetto di valore medio in generale

Informatica per la comunicazione" - lezione 8 -

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Lezione 8. La macchina universale

Dispensa di Informatica I.1

Introduzione alle tecnologie informatiche. Strumenti mentali per il futuro

Appunti sulla Macchina di Turing. Macchina di Turing

Esame di INFORMATICA

Uso di base delle funzioni in Microsoft Excel

Corso di. Dott.ssa Donatella Cocca

Tecnologia dell Informazione

GLI APPARATI PER L INTERCONNESSIONE DI RETI LOCALI 1. Il Repeater 2. L Hub 2. Il Bridge 4. Lo Switch 4. Router 6

Lo scenario: la definizione di Internet

Scuola Secondaria di Primo Grado Anna Frank Nome Cognome classe anno sc. 2008/09 INFORMATICA

In un modello a strati il SO si pone come un guscio (shell) tra la macchina reale (HW) e le applicazioni 1 :

REPLICAZIONE DEL DNA

Architettura di un calcolatore

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

4 3 4 = 4 x x x 10 0 aaa

Laboratorio di Informatica

SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI

Informatica 1 Lezione 1

PROTEINE. sono COMPOSTI ORGANICI QUATERNARI

Creare una Rete Locale Lezione n. 1

Slide Cerbara parte1 5. Le distribuzioni teoriche

MODELLO CLIENT/SERVER. Gianluca Daino Dipartimento di Ingegneria dell Informazione Università degli Studi di Siena

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca. Parte II Lezione 5

NOZIONI ELEMENTARI DI HARDWARE E SOFTWARE

Finalità delle Reti di calcolatori. Le Reti Informatiche. Una definizione di Rete di calcolatori. Hardware e Software nelle Reti

Il software impiegato su un computer si distingue in: Sistema Operativo Compilatori per produrre programmi

Elementi di informatica

Il SOFTWARE DI BASE (o SOFTWARE DI SISTEMA)

CONCETTI BASE dell'informatica Cose che non si possono non sapere!

Architettura del. Sintesi dei livelli di rete. Livelli di trasporto e inferiori (Livelli 1-4)

Topologia delle reti. Rete Multipoint: ogni nodo è connesso agli altri tramite nodi intermedi (rete gerarchica).

Laboratorio di Informatica

Il Software. Il software del PC. Il BIOS

23/02/2014. Dalla scorsa lezione. La Macchina di Von Neumann. Uomo come esecutore di algoritmi

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

Organizzazione della memoria

Il Sistema Operativo (1)

Reti di calcolatori ed indirizzi IP

Architettura del calcolatore

Introduzione all analisi dei segnali digitali.

Corso: Informatica+ Andrea Cremonini. Lezione del 20/10/2014

Architettura hardware

Informatica B a.a 2005/06 (Meccanici 4 squadra) PhD. Ing. Michele Folgheraiter

InterNet: rete di reti

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

INFORMATICA, IT e ICT

Reti e Internet: introduzione

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

Sistema Operativo. Fondamenti di Informatica 1. Il Sistema Operativo

Macromolecole Biologiche. I domini (I)

Codifiche a lunghezza variabile

Reti di Calcolatori. Il Livello delle Applicazioni

Concetti di base della Tecnologia dell Informazione Uso del computer e gestione dei file Elaborazione testi Fogli di Calcolo Reti informatiche

Introduzione. Classificazione di Flynn... 2 Macchine a pipeline... 3 Macchine vettoriali e Array Processor... 4 Macchine MIMD... 6

Capitolo 2 Distribuzioni di frequenza

ISTITUTO COMPRENSIVO MONTEGROTTO TERME SCUOLA PRIMARIA DISCIPLINA: MATEMATICA - CLASSE PRIMA OBIETTIVI DI APPRENDIMENTO

Cosa è un foglio elettronico

Informazione analogica e digitale

ALGEBRA DELLE PROPOSIZIONI

Nozioni di Informatica di base. dott. Andrea Mazzini

Architettura dei computer

INTRODUZIONE ALL' INFORMATICA

Il Sistema Operativo

Software di base. Corso di Fondamenti di Informatica

Corso di Informatica

Modulo 1 Test di verifica. Concetti teorici di base delle T.I.C.

Il Sistema Operativo. C. Marrocco. Università degli Studi di Cassino

Architettura dei calcolatori II parte Memorie

Informatica per le discipline umanistiche 2 lezione 14

SISTEMI OPERATIVI. Prof. Enrico Terrone A. S: 2008/09

CHE COS È L INFORMATICA

Dispensa di Fondamenti di Informatica. Architettura di un calcolatore

Software di sistema e software applicativo. I programmi che fanno funzionare il computer e quelli che gli permettono di svolgere attività specifiche

La gestione di un calcolatore. Sistemi Operativi primo modulo Introduzione. Sistema operativo (2) Sistema operativo (1)

Reti di Telecomunicazioni Mobile IP Mobile IP Internet Internet Protocol header IPv4 router host indirizzi IP, DNS URL indirizzo di rete

IL SISTEMA OPERATIVO IL SISTEMA OPERATIVO INTERFACCE TESTUALI INTERFACCE TESTUALI FUNZIONI DEL SISTEMA OPERATIVO INTERFACCE GRAFICHE

Macromolecole Biologiche. I domini (II)

TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA

Introduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico

ECDL MODULO 1 Concetti di base della tecnologia dell informazione. Prof. Michele Barcellona

Corso di Informatica

Reti di calcolatori. Reti di calcolatori

Corsi Speciali Abilitanti Indirizzo 2: Fisico-Matematico Modulo Didattico: Elementi di Informatica Classi: 48/A TEST D INGRESSO

Reti di Calcolatori. Vantaggi dell uso delle reti. Cosa è una rete? Punto di vista logico: sistema di dati ed utenti distribuito

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca.

Fogli Elettronici: MS Excel

Automazione Industriale (scheduling+mms) scheduling+mms.

Transcript:

MATERIALE DIDATTICO 1

Concetti di base di INFORMATICA 2

Definizione di Informatica ed Informazioni La parola INFORMATICA indica l insieme delle discipline e delle tecniche che permettono la trattazione automatica delle informazioni che sono alla base delle nostre conoscenze e delle loro comunicazioni. Il termine INFORMATICA è nato nel 1966 in Francia dalla contrazione delle parole INFORmazione e automatica Una Informazione è una Sequenza (o stringa) di simboli associata a un significato. I possibili supporti fisici per l informazione sono suono (conversazioni tra persone), onde radio (radio e televisione), correnti e tensioni elettriche (cavi telefonici), campi magnetici (audiocassette, floppy disk), segni su carta (libri, giornali). Sull informazione si possono effettuare numerose operazioni: creazione, trasmissione, immagazzinamento (archiviazione), recupero, copia, distruzione, elaborazione (trasformazione). I simboli che fanno parte della sequenza vengono scelti all interno di un insieme detto alfabeto. Esempi di alfabeti: - Alfabeto italiano, 21 simboli (lettere): {A, B,., V, Z} - Alfabeto numerico decimale, 10 simboli (cifre): {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} - Alfabeto telegrafico Morse, 2 simboli: {., -} - Alfabeto del Totocalcio, 3 simboli: {1, X, 2} Da questi esempi risulta evidente la necessità di regole che associno un significato a queste stringhe di simboli. Un siffatto insieme di regole prende il nome di codice. Nei sistemi per l elaborazione dell informazione viene adottato un alfabeto composto da soli 2 simboli, rappresentati dalle cifre 0 e 1. Tale alfabeto è detto alfabeto binario. 3

Una cifra binaria viene definita bit (da binary digit, cifra binaria ). Una stringa di 8 bit è definita byte (28=256 valori diversi) Ci sono vari tipi di informazioni: 1. Informazione di tipo numerico è indicata da una quantità numerica. 2. Informazione di tipo alfanumerico è rappresentata da un carattere {A,, Z, a,, z, 0,, 9, ;, :,., @, $,... } 3. Informazione di tipo logico è rappresentata da grandezze logiche, cioè grandezze che possono avere soltanto due valori: vero o falso. Questo tipo di informazione è associato al valore di verità di un determinato enunciato: vero se l enunciato è vero, falso se l enunciato è falso. Le informazioni di tipo logico si possono manipolare in maniera simile ai numeri; la differenza è che invece delle operazioni aritmetiche (+, -, etc) si utilizzano delle operazioni logiche (AND, OR, NOT). L operazione AND agisce su due operandi. Il valore dell AND di due operandi è vero soltanto quando entrambi gli operandi hanno valore vero. falso AND falso = falso falso AND vero = falso vero AND falso = falso vero AND vero = vero L operazione OR agisce su due operandi. Il valore dell OR è vero se almeno uno dei due operandi è vero. falso OR falso = falso falso OR vero = vero vero OR falso = vero vero OR vero = vero L operatore NOT agisce su un solo operando e ha come valore il contrario del valore dell operando. 4

NOT falso = vero NOT vero = falso 4. Informazione di tipo istruzione è un operazione da eseguire. Il codice che associa ad ogni stringa binaria l azione da eseguire viene detto linguaggio macchina, che è interpretabile dalla CPU. 5. Altri tipi di informazioni sono suoni, immagini, filmati, oggetti tridimensionali 5

Caratteristiche generali di un Computer Il Computer è definito come il sistema per l elaborazione dell informazione. Questo sistema è costituito da due componenti: Hardware e Software. L hardware è l insieme di tutti i circuiti delle macchine e dei componenti elettronici, elettrici e meccanici di un sistema di elaborazione. Il software è l insieme dei programmi operanti su di esso. Un Computer è definito digitale poichè tutti i suoi principi di funzionamento sono fondati su basi logiche e matematiche; automatico dal momento che evolve da uno stato iniziale a uno stato finale eseguendo automaticamente, senza interventi esterni, un numero finito di operazioni; elettronico poiché sono elettronici i circuiti preposti all esecuzione delle istruzioni, così come gli elementi bistabili che costuiscono le memorie del sistema; a programma registrabile poiché la sequenza di istruzioni costituenti il programma è immagazzinata nella stessa memoria dell elaboratore. Ciò conferisce ampia flessibilità al sistema, poiché cambiando il programma registrato si può cambiare l elaborazione che viene compiuta. 6

Le varie Componenti del computer Le unità che compongono un computer sono indicate nel Modello di Von Newman: Il Processore (CPU) comprende l unità di controllo, l unità aritmetico-logica ed i registri interni. L Unità di Controllo (CU, Control Unit) presiede a tutte le operazioni eseguite dall elaboratore, interpretando le istruzioni prelevate in sequenza dalla memoria centrale e inviando alle specifiche unità i segnali abilitanti. L Unità logico-aritmetica (ALU, Arithmetical Logical Unit) esegue le operazioni aritmetiche e logiche richieste dall unità di controllo. I registri interni servono per memorizzare i dati sui quali il processore sta operando, come ad esempio i risultati intermedi dei calcoli. La Memoria comprende la memoria centrale, la memoria ROM e le memorie ausiliarie. Le funzioni di memoria di un elaboratore sono distribuite in una gerarchia con il principio di allocare negli strati più bassi le informazioni che vengono richiamate più spesso e gestire il loro trasferimento fra i diversi strati. La Memoria centrale (RAM, Random Access Memory) è un insieme ordinato locazioni (anche dette celle) numerate in successione. Ogni locazione è identificata dal suo numero d ordine, che 7

prende il nome di indirizzo della locazione. LA RAM è una memoria ad accesso casuale. L operazione di scrittura in una locazione consiste nell alterare lo stato dei singoli bit che la costituiscono in modo da registrare la sequenza di 0 e 1 da memorizzare. Tale operazione è distruttiva. L operazione di lettura di una locazione consiste nel riprodurre (copiare) lo stato dei singoli bit che la costituiscono nei bit corrispondenti di un altra locazione o registro. Tale operazione è non distruttiva perché l informazione letta viene preservata e può essere letta di nuovo. La ROM (Read Only Memory) è elettronica e ad accesso casuale come la RAM. Inoltre, è permanente e a sola lettura: una volta che le informazioni vi sono state memorizzate non è più possibile modificarle. I chip di ROM vengono inizializzati in fabbrica all atto della produzione e contengono software specializzato (gestione di periferiche, set aggiuntivi di caratteri per stampanti, programma di avvio del sistema (boot loader)) Le memorie di massa sono dischi rigidi, floppy disk, CD-ROM, nastri ed etc. L Unità di Ingresso(Input devices) sono impiegate per immettere il programma in fase di caricamento e i dati in fase di esecuzione. Sono indicate come unità di ingresso: tastiera, mouse, penna ottica, floppy disk drive (unità a floppy), hard disk drive (unità a disco rigido), CD-ROM (lettore di CD-ROM), scanner, modem, telecamera, scheda per la connessione in rete locale (Ethernet), microfono. L Unità di Uscita (Output devices) sono impiegate per presentare i risultati dell elaborazione. Sono indicate come unità di uscita: monitor, stampante, plotter, floppy disk drive e hard disk drive, masterizzatore di CD-ROM, modem, interfacce varie, scheda per la connessione in rete locale, dispositivi audio. 8

Hardware e Software Un sistema per l elaborazione dell informazione consiste di due componenti : l hardware ed il software Una macchina reale è costituita solo dall hardware mentre una macchina virtuale è costituita dalla macchina reale + software. La macchina reale esplica le funzioni fondamentali del sistema di elaborazione ed è in grado di effettuare un grande numero di operazioni elementari in tempi molto ridotti rispetto a quelli umani La macchina reale è programmabile esclusivamente in linguaggio macchina ed è, pertanto, molto scomoda da utilizzare direttamente: infatti, la programmazione in linguaggio macchina è ardua e poco efficace. E difficile adattare la logica sintetica del pensiero umano a quella analitica ed elementare della macchina reale. Per superare queste difficoltà si realizzano degli strati di software che vanno a ricoprire la macchina reale. Si possono distinguere due tipi di software: software di base e software applicativi.: Il Software di base è l insieme di programmi necessari per lo stesso funzionamento del sistema che costituiscono macchine virtuali di basso livello. Il Software applicativo è costituito da tutti i programmi orientati alla risoluzione di problemi specifici utilizzati direttamente dall utente finale. 9

Sistema operativo Il sistema operativo è una collezione di moduli software che gestiscono le risorse hardware e software e controllano lo svolgimento delle diverse procedure di elaborazione. Le macchine virtuali di livello più basso sono tutte realizzate da moduli di sistema operativo. Fra i vari moduli c è un supervisore o kernel che risiede stabilmente in memoria centrale,ossia viene caricato una tantum all atto dell accensione del sistema. Gli altri moduli, residenti in memoria di massa, vengono richiamati dal supervisore e caricati in memoria centrale quando devono svolgere i compiti specifici di loro competenza (ad esempio loader, shell, driver) Il sistema operativo gestisce le risorse disponibili e le periferiche, controlla l esecuzione dei programmi ed interagisce con l utente. In dettaglio, il sistema operativo deve fare in modo che le richieste per accedere a tali risorse vengano servite in maniera ottimale (come l esecuzione di vari programmi, le code di stampa, l accesso ai file su disco..). Per ogni periferica il sistema operativo ha un modulo chiamato driver. I driver di periferica sono programmi specializzati nel tradurre richieste formulate dall utente in una forma comprensibile dalla periferica (Es. Driver per una stampante). Quando si ci propone di eseguire un programma, che risiede in memoria di massa, il sistema operativo deve copiarlo in memoria centrale. In questo caso, viene avviato un modulo del sistema operativo chiamato loader, che si occupa di copiare il programma dalla memoria di massa nella RAM. Inoltre, un altro modulo all interno del sistema operativo è l interprete di comandi, anche detto shell. Esso è un interprete che risponde i comandi forniti dall utente tramite la tastiera o il mouse e 10

li traduce uno ad uno in comandi di livello più basso che portino a termine le azioni specificate dall utente. I sistemi operativi più diffusi sono MS-DOS, Windows e Unix/Linux. MS-DOS non risiede nella memoria ROM ma viene caricato da disco. Esso implementa la monoprogrammazione per singolo utente, con delle limitatissime capacità di multiprogrammazione. Windows non è nato come un sistema operativo ma come un programma applicativo che aggiungeva una interfaccia grafica al sistema operativo MS-DOS. Oggi è il più diffuso sistema operativo che implementa la multiprogrammazione in monoutenza e permette la condivisione di risorse fra elaboratori connessi in rete. Unix/Linux permettono la multiprogrammazione e multiutente; l accesso a questo sistema è possibile anche attraverso terminali remoti. 11

Collegamenti fra sistemi elaborativi Un sistema per l elaborazione dei dati può essere dislocato in un impianto singolo o può essere distribuito su vari laboratori. In quest ultimo caso le varie unità sono interconnesse tramite una rete di trasmissione dati (rete). Possiamo distinguere 3 tipi di rete: LAN, MAN e WAN. Una Rete locale (LAN) è una rete di interconnessione di estensione limitata tipicamente all ambito di un solo edificio, e che non attraverso suolo pubblico. Una Rete geografica è una rete di interconnessione di estensione maggiore, che può coprire un area cittadina (MAN, Metropolitan Area Network) o anche un territorio più vasto (Widea Area Network) Reti locali I vari componenti sono connessi mediante un cavo coassiale. Sia i sistemi sia le periferiche possono essere di natura e marca diversa, creando una rete eterogenea (ethernet), in cui tutte le risorse presenti sono utilizzabili da ciascuno dei punti di accesso alla rete. Un apposito insieme di programmi (software di rete) implementa una serie di macchine virtuali, che si occupano di gestire lo scambio di informazioni secondo un preciso protocollo. Con il termine protocollo si intende un insieme di regole che governano i dettagli tecnici dello scambio di informazioni. Il software di rete risolve anche gli eventuali conflitti (collisioni) dovuti alla richiesta contemporanea di accesso alla stessa risorsa da parte di due o più utenti della rete. Reti geografiche Una rete geografica può essere privata (banca, industria) o pubblica (università, enti di ricerca). Più reti separate possono essere collegate mediante gateway. Poiché ciascuna delle reti collegate 12

può avere un protocollo diverso, il gateway provvede all opportuna conversione di protocollo al fine di garantire una corretta trasmissione delle informazioni. Tutte le reti create da organizzazioni tecnico-scientifiche sono collegate tra loro, pervenendo così alla costituzione di una rete unica internazionale che tocca quasi tutti i paesi del mondo: Internet, Inter-network, cioè reti fra reti. Ogni sistema connesso in rete è definito nodo. 13

Servizi di rete I principali sono: 1) Posta elettronica o E-mail consente lo scambio di messaggi personali tra utenti dei nodi della rete. È possibile spedire messaggi a più persone contemporaneamente (mailing list). 2) FTP (File Transfer Protocol) èservizio di rete che consente di trasferire file da un nodo ad un altro. 3) Telnet (Teletype Network) è possibile effettuare procedure di elaborazione su un sistema remoto. 4) World Wide Web o WWW è definito ragnatela diffusa in tutto il mondo. In questa modalità di fruizione della rete, l utente sfoglia un ipertesto suddiviso in pagine. All interno di ciascuna pagina esistono degli oggetti chiamati link (parole o icone) che, se attivati, richiamano suoni, animazioni o altre pagine (scritte in HTML). Indirizzi Internet Possiamo distinguere due tipi di indirizzi internet (Domain name e IP). Domain name è una stringa di caratteri, intervallata da punti, che individua un nodo della rete Ad esempio l indirizzo: sirio.acme.it Indica che il nodo si trova in Italia (it) il nodo sta in un sub-network che si chiama acme (rete privata di un aziena o di un università) il nodo che ci interessa nel sub-network acme.it si chiama sirio. 14

Indirizzi IP è costituito da 4 numeri separati da punti. Esempio: 192.9.18.1 La traduzione da indirizzo IP a FQDN si chiama name serving e richiede la consultazione di un enorme database che, a causa delle proprie dimensioni, è distribuito su tutta Internet invece di risiedere su un solo elaboratore. Indirizzi di posta elettronica Questo tipo di indirizzo oltre a specificare un nodo, deve anche specificare un utente di quel nodo. Il formato è utente @ host, dove host è il domain name del sistema utilizzato dal destinatario, mentre utente è il nome con cui il destinatario è conosciuto presso il suo sistema remoto. Negli indirizzi di posta elettronica non si usano l indirizzo IP al posto del FQDN. Indirizzi www Gli indirizzi www sono indirizzi di pagine Web e si dicono URL (Uniform Resource Locator). Il formato usato è prot://host/pathname dove - prot indica il protocollo da utilizzare (tipo http o ftp) - host è il domain name o l indirizzo IP su cui risiede la pagina (tipo www) - pathname è il pathname del file che contiene la pagina. 15

Varie topologie di rete a b c d e Possiamo distinguere 5 tipologie di rete. Nella topologia di rete ad albero (a) il traffico va dai terminali dei livelli più bassi verso i sistemi intermedi o il sistema del livello più alto. Il sistema del livello più alto è il più potente dell intera struttura, infatti provvede alle richieste di tutta la rete. Tale livello è responsabile della gestione completa dell intera rete, ma può anche esistere una cooperazione, per la gestione il controllo della rete, fra il nodo principale ed alcuni o tutti i sistemi di livello inferiore (a cui vengono assegnati compiti gestionali specifici o limitati ad una specifica sottorete. In questo caso l inconveniente è che il sovraccarico del sistema principale provoca il rallentamento dei servizi per tutti gli utenti. 16

La topologia di rete a stella (b) è simile alla rete ad albero, da cui differisce per il fatto che non c è alcuna distribuzione funzionale: tutte le funzioni riguardanti gli utenti periferici sono realizzate nel nodo centrale. La Topologia di rete a maglia (c) collega le varie stazioni con diversi circuiti. Ciò assicura buone prestazioni perché il traffico viene ripartito sui vari percorsi ed aumenta l affidabilità dell intera struttura, grazie ai percorsi multipli. Nella topologia di rete dorsale (d) un unico cavo collega tutte le stazioni: la trasmissione di una stazione viene ricevuta da tutte le altre. L inconveniente è che l eventuale interruzione del cavo mette fuori uso l intera rete e la mancanza di punti di concentrazione rende difficoltosa l individuazione di eventuali punti di malfunzionamento. Nella topologia di rete ad anello (e) la trasmissione è unidirezionale ma, essendo l anello un circuito chiuso su se stesso, è possibile inviare un messaggio da qualsiasi stazione verso qualsiasi altra anche trasmettendo sempre nello stesso senso. 17

Concetti di base di BIOCHIMICA 18

Concetti fondamentali riguardo le proteine Le proteine sono le macromolecole più abbondanti delle cellule e sono presenti in tutte le cellule ed in tutti i compartimenti cellulari. Una singola cellula può contenere migliaia di proteine diverse, con svariate funzioni diverse. Tutte le proteine sia che derivino dal batterio più vecchio che dalla forma di vita più complessa, sono costituite dallo stesso numero gruppo di 20 amminoacidi, legati tra loro in modo covalente in caratteristiche sequenze lineari. Poiché ognuno dei 20 amminoacidi ha una sua caratteristica catena laterale da cui dipendono le proprietà chimiche, questo gruppo di precursori chimici può essere considerato come l alfabeto con cui viene scritto il linguaggio delle proteine. Le proteine sono catene di amminoacidi, uniti tra loro da uno specifico legame covalente. È importante il fatto che le cellule possano produrre proteine con proprietà diverse solo legando tra loro gli stessi 20 amminoacidi, ma in combinazioni ed in sequenze diverse. Da questi blocchi di costruzione, organismi diversi ottengono una varietà di prodotti diversi, come enzimi, ormoni, anticorpi ed una miriade di altre sostanze con attività biologiche diverse. Gli amminoacidi Tutti i 20 amminoacidi presenti nelle proteine hanno un gruppo carbossilico ed un gruppo amminico legati allo stesso atomo di carbonio. Essi differiscono l uno dall altro per la catena laterale o gruppo R, che ha struttura, dimensioni e carica diversa ed influenza la solubilità dell amminoacido in acqua. Questa è la struttura generale di un amminoacido: 19

Questa è la struttura dell amminoacido in acqua (zwitterione): Il carbonio in è asimmetrico, perché è legato a 4 sostituenti diversi: un gruppo carbossilico, un gruppo amminico, un idrogeno ed un gruppo R. Poiché la disposizione degli orbitali di legame intorno al carbonio a è di tipo tetraedrico, i quattro sostituenti possono disporsi nello spazio in due modi nello spazio, che sono immagini speculari non sovrapponibili l uno dell altro. Queste due forme sono dette enantiomeri o diastereoisomeri. I due diastereoisomeri dell alanina: L-alanina D-alanina 20

Proprietà delle catene laterali degli ammino-acidi La catena laterale (gruppo R) degli amminoacidi gioca un ruolo importante per la determinazione delle proprietà delle proteine. Possiamo distinguere 6 tipi di catena laterale: Alifatica: Glicina, alanina, valina, leucina, isoleucina Contenente idrossile o solfuro: Serina, cisteina, treonina, metionina Aromatica: Fenilalanina, tiroxina, triptofano Basica: Istidina, lisina, arginina Acida e la forma ammidica: Acido aspartico,acido glutammico, asparagina, glutammica Ciclica: prolina (che ha proprietà in comune con i gruppi alifatici). Possibili reazioni delle catene laterali La cisteina ha un gruppo R (un gruppo tiolico) che si comporta come un acido, come l ossidrile della tirosina. La cisteina richiede una particolare attenzione in quanto è facilmente ossidabile trasformandosi mediante la formazione di un legame covalente con un altra molecola di cisteina, nel dimero cistina, in cui i due monomeri sono uniti da un ponte disolfuro. 21

I ponti disolfuro sono spesso presenti in proteine quali l insulina. Catene laterali e punto isoelettrico Di seguito sono riportati i valori di pka relativi alle catene laterali dei vari amminoacidi: Catena laterale Campo di pk a -Carboxyl 1.8-2.6 Asp, Glu 4.0-4.8 His 6.5-7.4 Cys (SH) 8.5-9.0 Tyr (OH) 9.5-10.5 -Amino 8.0-9.0 Lys 9.8-10.4 Arg 12.0-12.5 Gli ammino-acidi aromatici (triptofano, tirosina e fenilalanina) assorbono luce nella regione ultravioletta dello spettro (250-300 nm). Il triptofano ha la più alta assorbanza molare, seguito dalla tirosina e dalla fenilalanina con un piccolo contributo. Alcune catene laterali degli amminoacidi nelle proteine sono modificate come le seguenti: 22

O-fosfoserina 4-Idrossiprolina Il legame Peptidico Nelle proteine gli amminoacidi sono legati insieme per mezzo del legame peptidico che si forma da una reazione del gruppo carbossilico di un amminoacido con il gruppo amminico di un altro amminoacido. Di seguito è riportato in celeste il legame peptidico che si forma tra una Glicina ed una Alanina. Se questo processo si ripete con più amminoacidi, si produce una lunga catena che prende il nome di peptide e polipeptide. 23

La sequenza del polipeptide si scrive iniziando con il residuo che contiene il gruppo amminico libero (N- terminale) e finendo con il residuo che contiene il gruppo carbossilico terminale. I quattro atomi impegnati nel legame peptidico (O, C, N e H) si trovano quasi su uno stesso piano. Infatti, a causa del parziale carattere di doppio legame del legame peptidico non c è libera rotazione attorno al legame peptidico. Generalmente la configurazione del legame peptidico è di tipo trans per rendere minime le interazioni steriche. Cis Trans Esempi di reazioni chimiche degli Amminoacidi Tutti gli amminoacidi hanno almeno due gruppi reattivi, l ammino gruppo e il gruppo carbossilico, e possono reagire con una serie svariata di reagenti. 24

Ecco due esempi: 25

Struttura delle proteine La struttura di una proteina è formata da Struttura primaria, cioè la sequenza di amminoacidi delle sue catene peptidiche. Struttura secondaria, l arrangiamento spaziale dello scheletro peptidico. Struttura terziaria, la forma che l intero peptide assume nello spazio. Struttura quaternaria, la struttura nello spazio di proteine composte di due o più catene polipeptidiche denominate subunità. 26

La struttura primaria delle proteine La composizione degli amminoacidi La composizione in amminoacidi è una caratteristica fondamentale di ogni proteina. Infatti, l idrolisi in ambiente acido libera gli amminoacidi che analizzati mediante cromatografia a scambio ionico in un analizzatore automatico. I picchi relativi agli amminoacidi sono determinati usando la Ninidrina che reagendo con i gruppi NH 2 liberi produce un color porpora secondo la reazione che segue. La determinazione della sequenza degli amminoacidi viene fatta per deduzione usando il sequenziamento dei geni Si usano processi automatici basati sulla degradazione di Edman. Però anche se la reazione procede con rese del 90% dopo circa 25 cicli è difficile determinare il nuovo prodotto rilasciato. Perciò una degradazione di Edman singola non basta. Di seguito è riportato uno schema relativo alla degradazione di Edman: 27

Precisamente la proteina viene degradata con un enzima, come la tripsina, che genera vari polipetidi che vengono separati e sequenziati. In particolare, la tripsina taglia il legame peptidico sui carbonili di Lys o Arg, come illustrato in seguito, mentre la chimotripsina sui carbonili della Phe, Trp o Tyr. Negli ultimi anni viene spesso utilizzata la spettrometria di massa associata a vari strumenti bioinformatici che permettono di verificare la somiglianza della sequenza caratterizzata con altre sequenze depositate nelle banche dati. 28

Di seguito è riportato un esempio: #1 MKRTYQPNRRKRSKVHGFRARMSTKNGRKVLARRRRKGRKVLSA #2 MKRTWQPSKLKHARVHGFRARMATKNGRKVIKARRAKGRVRLSA #3 MKRTYQPSRVKRNRKFGFRARMKTKGGRLILSRRRAKGRMKLTV #4 MKRTFQPSILKRNRSHGFRTRMATKNGRYILSRRRAKLRTRLTV #5 MKRTYQPSKQKRNRTHGFRARMATKNGRQVLNRRRAKGRKRLTV #6 TKRTFQPNNRRRARKHGFRARMRTRAGRAILSARRGKNRAELSA #7 SKRTFQPNNRRRAKTHGFRLRMRTRAGRAILANRRAKGRASLSA #8 GKRTFQPNNRRRARVHGFRLRMRTRAGRSIVSDRRRKGRRTLTA Il grado di identità tra le sequenze può essere usato per costruire una matrice di distanza che ci indica la correlazione tra sequenze differenti. Basandosi su questa matrice si può costruire un albero filogenetico. Di seguito è riportato un esempio di matrice di distanze e di albero filogenetico. 29

Esempio della sequenza (struttura primaria) di una proteina Questa è la struttura primaria dell insulina bovina, composta da due catene polipeptidiche (A e B). In verde è riportata la catena A ed in rosso la catena B. Le due catene sono unite da due ponti disolfuro. La catena A contiene a sua volta un ponte disolfuro interno. 30

La struttura secondaria delle proteine Il legame peptidico ha un parziale carattere di doppio legame che induce gli atomi O-C-N-H dello scheletro peptidico a trovarsi su di un piano. Quindi gli unici gradi di libertà per la rotazione nello scheletro peptidico sono i legami attorno al C, phi ( ) e psi ( ). Comunque ci sono significative limitazioni ai valori degli angoli e a causa degli ingombri sterici tra gli atomi. Di seguito è riportato un esempio del grafico di Ramachandran che mostra le zone permesse per gli angoli e 31

Tipi struttura secondaria Le proteine hanno le catene laterali idrofobiche rivolte verso l interno e quelle idrofile sulla superficie. Si conoscono vari tipi di struttura secondaria ( -elica, -foglietti e ripiegamenti). Conformazione -elica In questa conformazione lo scheletro del polipeptide è strettamente arrotolato intorno all asse longitudinale della molecola e le catene laterali dei residui sporgono verso l esterno dello scheletro. I residui amminoacidici in una a-elica hanno conformazioni con angoli psi variabili tra -45 e -50 e phi di circa -60. Ogni giro dell elica contiene 3,6 residui amminoacidici ed è stabilizzata da legami ad idrogeno che si formano tra il gruppo CO di un residuo n ed il gruppo NH del residuo n+4. L -elica possiede un momento dipolare. Infatti, i legami ad idrogeno in una -elica sono orientati lungo l asse, tutte le unità del legame peptidico sono allineati nella stessa direzione. A causa del 32

dipolo presente nei legami NH e C=O, anche l elica avrà un suo momento di dipolo che attraversa l elica con una parziale carica positiva sul N terminale e parziale carica negativa sul C terminale. Conformazione Questa conformazione, al contrario dell -elica, che è costituita da un unica regione continua, risulta dalla combinazione di più regioni della catena polipeptidica. Queste regioni, dette filamenti beta, hanno lunghezza di 5-10 residui ed una conformazione quasi completamente distesa, con coppie di angoli phi e psi che ricadono nell ampia regione presente nel quadrante superiore sinistro del grafico di Ramachandran. Se i filamenti sono orientati in modo tale che l estremità N terminale e C terminale vanno nella stessa direzione, si parla di struttura a pieghe parallela. Nel disegno i C sono in rosso, in azzurro i legami ad idrogeno. 33

Se i filamenti sono orientati nel senso che l estremità N terminale e C terminale si trovano in direzioni opposte, allora si parla di strutture a pieghe antiparallele. 34

Loop e turn La maggior parte delle proteine contengono una combinazione delle due strutture interconnesse per mezzo di anse (loop). Queste strutture hanno lunghezza e forma irregolari e sono localizzate sulla superficie della proteina. Di solito i loop formano legami idrogeno con l acqua. Di seguito sono elencati vari motivi che si ripetono nelle proteine: Elica-loop-elica: motivo utile per legare il Calcio. Forcina ( -turn): che sarebbe un beta-loop-beta. Esso consiste di due filamenti adiacenti uniti da una regione loop che può contenere da 2 a 5 residui. Questo motivo si ha quando i filamenti sono antiparalleli. Beta-elica-beta: motivo che si ha quando i filamenti sono paralleli. 35

Struttura terziaria La maggior parte delle proteine hanno una forma globulare organizzandosi a formare una struttura terziaria compatta. È stata determinata mediante metodi sperimentali la struttura tridimensionale di molte proteine mediante Risonanza Magnetica Nucleare (NMR) e diffrazione ai raggi X (RX). La combinazione di elementi di sruttura secondaria porta alla definizione di motivi. Alcuni di questi motivi hanno un significato funzionale, come il motivo elica-loop-elica che lega il DNA o il Calcio, altri, invece, hanno solo un ruolo strutturale. Una catena con più di 200 amminoacidi si organizza in due o più gruppi compatti che possono essere definiti come domini. Ci sono tre tipi principali di domini: domini alfa, composti solo di alfa eliche (ad es. mioglobina). domini beta, con tutta struttura beta. (ad es. superossido dismutasi (SOD)) domini alfa beta, contenenti struttura beta e alfa-eliche. (ad es. ubiquitina). Domini adiacenti sono connessi da uno o due segmenti di catena peptidica. Ad esempio la proteina SEB (Enterotoxin type B) ha un dominio alpha-beta ed uno beta. Esaminando la struttura delle proteine, si sono raggiunte alcune considerazioni generali circa il ripiegamento della catena polipeptidica a raggiungere la struttura terziaria: 1. Tutte le proteine globulari hanno le catene idrofobiche rivolte verso l interno e quelle idrofile verso l Esterno. 2. Le proteine globulari sono compatte. 36

3. Loop e turn si trovano di solito all'esterno. 4. Mutazioni amminoacidiche delle sequenze che portano catene laterali idrofobicheverso l esterno (sulla superficie) causano cambiamenti significativi nel foding (ripiegamento) della proteina. La stabilizzazione della struttura terziaria Il modo per dimostrare l importanza di una specifica struttura di una proteina per la sua funzione biologica è quello di alterare la struttura e stabilirne l effetto sulla funzione. Un tipo di alterazione estrema è la perdita totale dell organizzazione tridimensionale, con l assunzione di strutture casuali; questo processo va sotto il nome di denaturazione. Le proteine possono denaturarsi non soltanto con il calore ma anche con ph estremi, con certe miscele di solventi organicicome l alcol e l acetone, con alcuni tipi di soluti come l urea oppure con determinati detergenti. Per esempio bollendo una proteina si rompono molte interazioni deboli. I solventi organici, l urea ed i detergenti agiscono disturbando le interazioni idrofobiche che rendono stabile il nucleo delle proteine; i ph estremi modificano la carica netta della proteina determinando repulsioni elettrostatiche e la rottura di legami idrogeno. In realtà, è bene ricordare che la struttura nativa di una proteina è solo marginalmente stabile; non è quindi necessario rompere tutte le interazioni deboli per ridurre la stabilità termodinamica ad un livello insufficiente per mantenere la conformazione proteica nativa. Comunque un processo di denaturazione di una proteina è un processo reversibile. Infatti, alcune proteine globulari denaturate con il calore o a ph estremi possono riacquistare la loro struttura 37

nativa e la loro attività biologica (rinaturazione) se vengono portate nelle condizioni in cui la conformazione nativa è stabile. 38

La Struttura Quaternaria delle proteine Molte proteine contengono due o più catene polipeptidiche denominate Subunità. La disposizione delle proteine e delle subunità proteiche in complessi tridimensionali costituisce la struttura quaternaria della proteina. Le forze che tengono insieme le varie subunità sono le forze di Van der Waals, ponti salini e legami idrogeno. L esempio classico per questo tipo di struttura è l Emoglobina (Vedi capitolo sull Emoglobina). Il folding (ripiegamento) delle proteine La sequenza di amminoacidi di una proteina contiene tutte le informazioni necessarie alla proteina per ripiegare in una struttura tridimensionale corretta e biologicamente attiva. Uno degli importanti problemi insoluti in biochimica il problema del folding cioè di come si ripiegano le proteine? 39

Il processo più probabile comincia con la formazione di elementi della struttura secondaria che servono come centri di enucleazione attorno ai quali la struttura nativa della proteina si può formare. Questi nuclei con appropriata struttura secondaria interagiscono tra loro finché non formano una superstruttura (dominio). Poi questi domini strutturali e secondari si avvicinano a formare una struttura secondaria estesa ma a struttura terziaria disordinata. Questo stadio è definito globulo fuso. Infine, un piccolo riordinamento del globulo fuso genera la conformazione nativa (come si vede dall animazione che segue). È una Cold Shock Protein (CspA) da Escherichia Coli e sono mostrati anche gli ipotetici stadi del processo. In realtà, è ormai chiaro che ci sono delle proteine accessorie che partecipano al processo del ripiegamento. Fra queste ci sono le Chaperones che, costituite da molte subunità, utilizzano ATP per "guidare" le proteine nel processo corretto di ripiegamento. 40

La determinazione sperimentale della struttura delle proteine La struttura tridimensionale di una proteina può essere determinata sperimentalmente mediante due tecniche principali: la diffrattometria ai raggi X di cristalli proteici o la risonanza magnetica nucleare (NMR). L utilizzo di questi metodi richiede attrezzature molto sofisticate e costose ed inoltre la disponibilità della proteina in forma estremamente pura. Nel caso dell NMR la proteina viene analizzata in soluzione, ma si richiedono concentrazioni elevate, con il rischio che la proteina precipiti; nel caso della cristallografia è necessario disporre di un cristallo proteico di adeguata qualità, il che può richiedere tempi lunghi o addirittura non essere possibile. La complessità dell'interpretazione dei dati cresce con il numero di amminoacidi, soprattutto nel caso dell NMR, per cui questa tecnica è risultata finora applicabile solo per piccole proteine (non più di 250-300 amminoacidi), mentre nel caso della cristallografia a raggi X si possono ottenere risultati anche con proteine molto grandi, ma a risoluzioni relativamente basse (2-3 Å) che non consentono un interpretazione esatta delle posizioni degli atomi nello spazio. Tali difficoltà spiegano la differenza esistente tra il numero di strutture tridimensionali note (dell ordine di 10 4 ) e il numero di sequenze note (dell ordine di 10 6 ), recentemente incrementato esponenzialmente grazie anche ai progressi e all automazione dei metodi di sequenziamento. Perciò, in alternativa ai metodi sperimentali, ma anche sulla base dei loro risultati, si sono sviluppati dei metodi computazionali aventi come scopo la predizione della struttura secondaria e terziaria di una proteina, partendo dalla sola conoscenza della sua sequenza di amminoacidi. Anche se possono esserci difficoltà, che impediscono il raggiungimento di una predizione affidabile, questi metodi costituiscono un alternativa promettente alla cristallografia e all'nmr, ed inoltre, sono in continua evoluzione. I miglioramenti sono possibili grazie sia alle sempre maggiori conoscenze sulla struttura proteica, che consentono di sviluppare metodi più accurati, sia al potenziamento degli strumenti di calcolo, che permettono l utilizzo di algoritmi sempre più complessi. 41

Concetti di base sull algebra delle matrici e sull analisi statistica 42

Vettori Definizione 1. Si definisce vettore numerico di ordine n un insieme ordinato di n numeri che vengono detti scalari non necessariamente distinti. Definizione 2. Si definiscono componenti di un vettore v elementi del vettore. Definizione 3. Un vettore si dice di dimensione o di ordine n se è rappresentato da una n-pla ordinata di numeri. Esempio 1. Ad esempio un vettore v di dimensione 4 e di componenti a 1, a 2, a 3 e a 4 sarà rappresentato dalla seguente quaterna ordinata: v =( a 2, a 2, a 3, a 4 ) Operazioni sui vettori Dati due vettori: a = (a 1, a 2,,a n ), b = (b 1, b 2,,b n ) dimensione n, valgono le seguenti definizioni: Definizione 4. Due vettori numerici si dicono uguali se hanno uguali le componenti omonime, distinti in caso contrario a = b a 1 = b 1, a 2 = b 2,, a n = b n Definizione 5. Si definisce somma di due o più vettori numerici dello stesso ordine il vettore numerico che ha come componenti le somme delle componenti omonime 43

c = a + b = (c 1 = a 1 + b 1, c 2 = a 2 + b 2,, c n = a n + b n ) = (c 1, c 2,, c n ) Definizione 6. Si definisce prodotto di uno scalare per un vettore numerico, il vettore le cui componenti sono uguali ai prodotti delle componenti del vettore dato per lo scalare. c = a * b = (a 1, a 2,,a n ) * b == (c 1 = a 1 * b, c 2 = a 2 * b,, c n = a n * b) = (c 1, c 2,, c n ) Definizione 7. Si definisce prodotto scalare fra due vettori numerici, lo scalare: c = a * b = (c 1 = a 1 * b 1, c 2 = a 2 * b 2,, c n = a n * b n ) = (c 1, c 2,, c n ) 44

Matrici Definizione 8. Si definisce matrice una tabella di numeri detti coefficienti disposti secondo righe e colonne. Definizione 9. Si definisce ordine o dimensione di una matrice, la coppia ordinata (n, m) che rappresentano rispettivamente il numero di righe ed il numero di colonne della matrice considerata. Definizione 10. Si dice che una matrice A è quadrata, se presenta un numero delle righe uguale al numero di colonne: A (m m). In tal caso la matrice si dirà di ordine m. Un esempio di matrice di ordine 3 (m = 3) è mostrata di seguito: a a a a a a a a a 11 12 13 21 22 23 31 32 33 Definizione 10. Si dice che una matrice A è rettangolare, se presenta un numero delle righe diverso dal numero di colonne: A (n m) con n m. 4 14 1 3 6 6 2 1 74 3 67 32 1 3 99 Definizione 11. Si definisce diagonale principale di una matrice A(m,m), l insieme dei coefficienti con indice ( i, i ) con 1 i m. 45

Definizione 12. Si definisce diagonale secondaria di una matrice A(m,m), l insieme dei coefficienti con indice (i, m i +1) con 1 i m. Definizione 13. Si definiscono matrici diagonali quelle matrici che sono quadrate e cui coefficienti NON diagonali sono uguali a 0. 1 0 0 2 Definizione 14. Si definiscono matrici scalari quelle matrici diagonali in cui tutti i coefficienti sono tra loro uguali: 5 0 0 0 0 5 0 0 0 0 5 0 0 0 0 5 46

Operazioni su Matrici Date due matrici A e B, valgono le seguenti definizioni: Definizione 15. Si definisce prodotto di uno scalare per una matrice, la matrice le cui componenti sono uguali ai prodotti delle componenti della matrice data per lo scalare. Dati: 2 4 2 A 2 6 5 3 8 4 8,, risulta: 2*3 4*3 2*3 A 2*3 6*3 5*3 8*3 4*3 8*3 Definizione 16. Data una matrice A si definisce opposta di A la matrice A, ottenuta moltiplicando ogni elemento di A per lo scalare -1. Definizione 17. Date due matrici A e B delle medesime dimensioni, si definisce somma di A e B, la matrice A + B tale che: + = Definizione 18. Date due matrici A e B delle medesime dimensioni, si definisce come loro prodotto per componenti la matrice C tale che: * = 47

Siano A e B due matrici tali che il numero di colonne di A sia uguale al numero di righe di B. Definizione 19. Si definisce prodotto di A e B righe per colonne, la matrice C ottenuta eseguendo il prodotto di vettore riga per vettore colonna tra tutte le righe di A e tutte le colonne di B. La matrice C avrà lo stesso numero di righe di A e lo stesso numero di colonne di B. 48

Introduzione alla Statistica Definizione 20. Si definisce Statistica quella scienza che si occupa di raccogliere, analizzare e interpretare i dati numerici raccolti da una o più osservazioni fatte su di un fenomeno. Nell ambito della metodologia statistica si distinguono, due filoni fondamentali: 1. la Statistica descrittiva 2. la Statistica inferenziale. La Statistica descrittiva è volta alla rappresentazione, attraverso mezzi matematici, di uno o più fenomeni reali, conducendo lo studio sull intera popolazione in cui si manifesta il fenomeno o i fenomeni oggetto di studio. La Statistica inferenziale è volta all'induzione probabilistica circa la struttura incognita di una popolazione. Questo filone della Statistica si occupa di risolvere il cosiddetto problema inverso, ossia, sulla base di osservazioni su un campione (problema della scelta del campione) di unità selezionate con date procedure dalla popolazione, perviene a soluzioni valide, entro dati livelli di probabilità, anche per la popolazione stessa. Definizione 21. Si definisce carattere o caratteristica, l elemento che consente di descrivere una popolazione o un campione. Definizione 22. Si definisce modalità i valori che può assumere un carattere su una unità statistica. 49

Un carattere può essere: 1. Qualitativo 2. Quantitativo Un carattere qualitativo si manifesta nell unità statistica mediante modalità, dette attributi e può essere indicato solo con espressioni verbali (aggettivi, sostantivi etc.). Un carattere quantitativo o variabile è indicato mediante espressioni numeriche, in altre parole, per esso è realizzabile una misurazione espressa in cifre, come il reddito delle persone, il loro peso, la loro età, ecc. Il carattere quantitativo può essere di due tipi: 1. Continuo 2. Discreto 1. Un carattere quantitativo è continuo, quando può assumere come modalità un numero reale qualsiasi, come la temperatura, la statura, l età, il peso di un individuo ecc.; 2. Un carattere quantitativo è discreto, quando può assumere come modalità solo numeri interi, come il numero dei componenti di una famiglia, il numero di studenti di un corso universitario, ecc. Definizione 23. Si definisce frequenza assoluta di una data modalità i di un carattere, il numero di volte che la modalità si presenta nel collettivo. Essa verrà indicata con fi 50

Definizione 24. Si definisce frequenza relativa di una data modalità i di un carattere, e sarà indicata con fi, il rapporto tra la frequenza assoluta della modalità i e il numero totale di unità statistiche del collettivo. Definizione 25. Si definisce frequenza percentuale di una data modalità i di un carattere e sarà indica con f i, il prodotto della frequenza relativa per 100. Definizione 26. Si definisce frequenza cumulata assoluta di una data modalità i di un carattere e i f C a sarà indica con, la somma delle frequenze assolute delle prime i modalità, ordinate in senso non decrescente. Definizione 27. Si definisce frequenza cumulata relativa di una data modalità i di un carattere e i f C r sarà indica con, la somma delle frequenze assolute delle prime i modalità, ordinate in senso non decrescente diviso n, cioè il numero totale di unità statistiche del collettivo. Definizione 28. Si definisce classe, o classe di modalità, ciascuno degli intervalli di prefissata ampiezza in cui risulta suddiviso l insieme delle modalità di un carattere quantitativo X. Definizione 29. Si definiscono limiti di una classe, gli estremi dell intervallo rappresentante la classe. Definizione 30. Si definisce valore centrale di una classe i, la semisomma dei limiti superiore e inferiore della classe. 51

Nel caso di caratteri qualitativi continui, invece di limiti di una classe si parla di confini della classe, i quali rappresentano gli estremi reali della classe: Definizione 31. Si definisce confine superiore di una classe, l estremo superiore della classe e si ottiene dalla semisomma del limite superiore della classe data col limite inferiore della classe immediatamente successiva; Definizione 32. Si definisce confine inferiore di una classe l estremo inferiore di una classe che si ottiene dalla semisomma del limite inferiore della classe data col limite superiore della classe immediatamente precedente. Definizione 33. Si definisce ampiezza di una classe [x i, x i+1 ], la differenza fra il suo confine superiore ed il suo confine inferiore: A (Ampiezza) = confine superiore confine inferiore 52

I dati possono essere rappresentati in: Organizzazione dei dati forma tabellare forma grafica La più importante rappresentazione statistica dei dati in forma tabellare è la distribuzione di frequenza: Definizione 34. Si definisce distribuzione di frequenza secondo il carattere di un campione di unità statistiche, una tabella in cui sono rappresentate le frequenze con le rispettive classi o valori di modalità di quel carattere. Definizione 35. Si definiscono distribuzioni di frequenze relative (distribuzioni di frequenza percentuali) secondo un carattere di un campione di unità statistiche, una tabella in cui sono rappresentate le frequenze relative (percentuali) con le rispettive classi o valori di modalità di quel carattere. E possibile convertire una distribuzione di frequenza semplice, in una distribuzione di frequenze raggruppate riunendo le modalità di un carattere in gruppi o intervalli. In questo caso ogni gruppo della distribuzione di frequenze raggruppate si chiama classe e il modo usato per rappresentare la classe (esempio: 59-61) è detto intervallo della classe 53

Organizzazione dei dati in forma grafica Un grafico è un diagramma che visualizza le relazioni tra le variabili, mostrando come le variazione di una variabile siano correlate a quelle di un altra, ossia il modo in cui una variabile (la variabile dipendente) è funzione di un altra (la variabile indipendente). Si useranno grafici di tre tipi: 1. grafici a barre, 2. grafici lineari, 3. grafici circolari. Definizione 36. Si definisce grafico a barre un grafico costituito da un insieme di rettangoli o barre che visualizzano la relazione tra le variabili. Esso si rappresenta in un sistema di assi cartesiani ortogonali Oxy, dove per convenzione sull asse delle x viene rappresentata la variabile indipendente e sull asse delle y, quella dipendente. I grafici a barre che noi analizzeremo sono: 1. Diagrammi a barre 2. Istogrammi. Definizione 37. Un diagramma a barre è un grafico a barre usato per dati numerici di tipo discreto o per dati non numerici (mesi, colori, ecc) che mostra le frequenze assolute, le frequenze relative o quelle percentuali, mediante l altezza dei rettangoli e non mediante le loro aree (come avviene per 54

gli istogrammi), ed evidenzia l indeterminatezza o la discontinuità delle misure separando i rettangoli con degli spazi vuoti. Definizione 38. Si definisce istogramma un grafico a barre per dati numerici continui. Un istogramma è diverso da un diagramma a barre in quanto esso mostra le frequenze, le frequenze relative o le percentuali, tramite l area dei rettangoli, la quale è proporzionale alle frequenze delle classi Definizione 39. Un grafico lineare mostra le relazioni tra le variabili per mezzo di punti uniti da segmenti o da linee continue ed è rappresentato in un sistema di assi cartesiani ortogonali Oxy, dove per convenzione sull asse delle x viene rappresentata la variabile indipendente e sull asse delle y, quella dipendente. I grafici lineari che noi analizzeremo sono: 1. Poligoni di frequenza 2. Ogive. Definizione 40. Un poligono di frequenza è un grafico lineare di distribuzioni di frequenze assolute, di frequenze relative o di frequenze percentuali delle classi, passante per i valori centrali delle classi stesse. 55

Definizione 41. Un ogiva è un grafico lineare, usato per la rappresentazione grafica di una distribuzione di frequenze assolute cumulate, frequenze relative cumulate o di frequenze percentuali cumulate. I grafici circolari, mostrano la relazione tra variabili dividendo un cerchio in settori di dimensioni appropriate. Diversamente dai grafici a barre e lineari, non si rappresentano in un sistema di coordinate cartesiane ortogonali Oxy. Noi li useremo per mostrare le distribuzioni di frequenze relative e percentuali. Definizione 42. Si definiscono grafici circolari (o diagrammi circolari o diagrammi a torta) una rappresentazione grafica delle distribuzioni di frequenza relative o percentuali, che avviene utilizzando cerchi divisi in settori circolari le cui aree sono proporzionali ai valori delle frequenze relative o a quelli delle frequenze percentuali. Se le categorie (o le classi) della distribuzione sono disposte secondo un ordine, di solito l ordine si conserva procedendo in senso orario a partire dalle ore 12. 56

Indici Statistici Gli indici statistici sono fondamentalmente di tre tipi: 1. Indici di tendenza centrale o di posizione a) indici di posizione di tipo analitico: media aritmetica ecc. b) indici di posizione di tipo posizionale: moda mediana ecc. 2. Indici di dispersione o di variabilità a) Campo di variazione b) Scarto quadratico medio c) ecc 3. Indici di forma (che non saranno trattati) a) Simmetria b) Curtosi 57

Indici di tendenza centrale o di posizione Definizione 43. Considerato un insieme di dati X, ordinato secondo l ordine di grandezza, si definiscono indici di posizione o di tendenza centrale, quei valori che tendono a cadere centralmente all interno dell insieme di dati X. Definizione 44. Si definisce media aritmetica o media di un insieme di N numeri X 1, X 2, X N e X viene indicata con il valore definito dalla seguente relazione: X X X... X N 1 2 N i 1 N N X i Più in generale se i numeri X 1, X 2, X N, compaiono rispettivamente con frequenza f 1, f 2, f N la media aritmetica è data dalla relazione: X f X f X f X... f X i i i i 1 1 2 2 N N i 1 i 1 N f1 f2... fn N fi i 1 N N f X 58

Media aritmetica di dati raggruppati Quando i dati vengono presentati in una distribuzione di frequenze raggruppate, è possibile considerare come valore rappresentativo, di tutti i valori che cadono nella classe, il valore centrale della classe stessa. Definizione 45. Considerato un insieme di N dati X1 X 1, X 2, X N ordinato secondo l ordine di grandezza, si definisce mediana il valore corrispondente alla posizione centrale, se il numero N di elementi è dispari, oppure la media aritmetica dei due valori corrispondenti alle due posizioni centrali, se il numero N di elementi è pari. La relazione che individua la posizione della mediana in un insieme di dati è data da: mediana N 1 2 La mediana per dati raggruppati. Per dati raggruppati la mediana è definita dalla relazione: ft fi mediana L 2 i c fmediana In cui Li f T = confine inferiore della classe contenente la mediana (classe mediana), = frequenza totale, 59