Vecchie prove d esame Statistica e Calcolo delle Probabilità Esercizio 1 (Esame 11 Gennaio 2005): Alla fine di una giornata di lavoro un intervistatore si accorge di aver perso i dati raccolti su un certo numero di famiglie relativamente al numero X di televisori posseduti e al numero Y di componenti della famiglia. Ricostruendo a memoria le interviste fatte, arriva alla seguente tabella: no. componenti Y no. televisori X 1 2 3 Totale 0 0 3 1 1 3 7 16 2 1 Totale 13 11 a) Si completi la tabella. b) Si costruisca la distribuzione che contiene le frequenze relative del numero di televisori per le famiglie con 2 componenti: c) Si determinino la mediana e la moda del carattere numero di componenti la famiglia d) Presenta una maggiore variabilità il carattere X o il carattere Y? Si risponda utilizzando un opportuno indicatore: Esercizio 2 (Esame 4 Novembre 2004 - Prova A): Si considerino le distribuzioni per classi di età della popolazione residente (espressa in migliaia) in Piemonte e Campania nel 1979: Classi di età Piemonte Campania 0-6 322 603 6-14 507 827 14-21 477 808 21-25 218 351 25-45 1.282 1.366 45-65 1.087 1.038 65 e oltre 703 531 a) Quante sono le unità statistiche osservate? b) La classe di età 25-45 è più frequente in Piemonte o in Campania? (motivare la risposta): c) Fra coloro che hanno un età compresa fra 21 e 25 anni qual è la percentuale di coloro che risiedono in Piemonte? d) Indicare la classe di età modale in Piemonte: e) Calcolare l età media in Piemonte e Campania: f) Calcolare l età media nell insieme delle 2 regioni: g) Calcolare la varianza dell età nelle due regioni: h) Calcolare la varianza dell età nell insieme delle due regioni: i) In quale delle due regioni l età presenta la maggiore variabilità? Rispondere utilizzando un opportuno indicatore: Esercizio 3: Rispondere alle seguenti domande: 1) La varianza di una variabile statistica può diventare negativa: a) solo se la variabile è costante b) per variabili che assumono valori negativi c) mai 2) La varianza di 3X è pari: a) alla varianza di X b) a 3 volte la varianza di X c) a 9 volte la varianza di X 8) Se la media aritmetica di X è 10 e la varianza di X è 100 allora il coefficiente di variazione è uguale a: a) 10 b) 1 c) 100 1
Esercizio 4: L Università di Bologna decide di aumentare di 65 euro le tasse di iscrizione all università. Come cambierebbe il valore medio delle tasse se questa decisione fosse realizzata? E lo scarto quadratico medio? Se invece l università decidesse di aumentare le tasse del 5% come cambierebbero media e scarto quadratico medio? Esercizio 5: In un esperimento 250 soggetti vengono assegnati al gruppo di trattamento e 249 al gruppo di controllo. Il risultato dell esperimento viene valutato attraverso un punteggio che va da 0 a 100. Alla fine dell esperimento il punteggio medio del gruppo di trattamento è risultato 66 con uno scarto quadratico medio di 21, mentre nel gruppo di controllo il punteggio medio è 59 con uno scarto quadratico medio di 20. Qual è il punteggio medio del gruppo dei 499 soggetti che hanno partecipato all esperimento? E qual e la varianza? Esercizio 6 (Esame 10 Novembre 2006 - Prova A) Nella tabella è riportata la distribuzione percentuale della popolazione della Gran Bretagna secondo gli anni di scolarizzazione: a) Si determini il livello medio di scolarizzazione nei due anni:_ b) E più variabile il livello di istruzione nel 1960 o nel 1991? Si indichi l indicatore utilizzato utile per il confronto e lo si calcoli: c) Il 50% delle persone meno istruite nel 1991 aveva un livello di istruzione inferiore o uguale a Anni di istruzione 1960 1991 0-5 18 15 5-8 28 20 8-11 10 12 11-13 24 25 13-19 20 28 Esercizio 7: Nella seguente tabella sono riportati i dati relativi alla mortalità alla nascita (rapporto fra numero di nati morti sul totale dei nati) e al reddito pro capite rilevati in alcuni Paesi. Natimortalità (x 100) 24 17 14 10 9 8 7 6.8 6.7 6.4 Reddito p.c. in migliaia dollari 4 5 6 7 10 12 14 17 18 20 a) Sapendo che il reddito di un undicesimo Paese è pari a 15 e che i parametri del modello di regressione lineare stimato su tutti i Paesi sono b 0 =20,1717 e b 1 = 0,8280, determinare il tasso di mortalità osservato dell undicesimo Paese. Esercizio 8: Nella seguente tabella sono riportati le ore di studio e il voto all'esame di statistica: Ore di studio 30 33 35 40 45 52 58 Voto 18 21 23 25 27 28 29 a) Di quanto varia in media il voto all'aumentare di un'ora di studio? b) Quante ore devo studiare in più se voglio migliorare in media di due punti il mio voto? c) Quanto vale la correlazione fra ore di studio e voto? d) Come cambierebbe la misura di correlazione se anziché misurare il tempo in ore misurassi il tempo in minuti? 2
Esercizio 9: Trovare l'equazione della retta di regressione per prevedere il punteggio all'esame finale, sulla base di quello ottenuto in un esame parziale. I dati sono: parziale: punteggio medio=70, scarto quadratico medio=10 finale: punteggio medio=55, scarto quadratico medio=20 Coefficiente di correlazione lineare r=0.6 Quale voto si aspetta di prendere all'esame finale uno che abbia conseguito 80 all'esame parziale? Quanto vale la devianza di dispersione per il modello considerato? Se i voti anziché essere espressi in centesimi fossero espressi in 30 come varierebbe il coefficiente di regressione? Alcuni ricercatori hanno studiato i dati relativi alle immatricolazioni presso una certa facoltà: ogni studente deve riempire un questionario con i suoi dati anagrafici e quelli della sua famiglia. Il coefficiente di correlazione tra l'età dello studente e il suo anno di nascita è: -1 circa -1 un valore negativo 0 un valore positivo circa 1 1 Il coefficiente di correlazione tra l'età dello studente e quello della madre è: -1 circa -1 un valore negativo 0 un valore positivo circa 1 1 Esercizio 10: E' stato effettuato un sondaggio per esplorare l'atteggiamento dei residenti in una città nei confronti della chiusura totale al traffico di alcune vie del centro storico. La tabella seguente riporta la classificazione dei 654 rispondenti secondo i due caratteri 'fascia d'età' e 'tipo di atteggiamento': Contrario Incerto Favorevole 16-25 20 24 180 25-40 26 36 123 40-65 80 30 15 65-85 90 20 10 a) Qual è la percentuale di persone che si sono dichiarate favorevoli e hanno più di 65 anni? Qual è la percentuale di contrari fra i giovani (16-25 anni)? b) Il tipo di atteggiamento è indipendente in distribuzione dall'età? Rispondere utilizzando l'indicatore più adeguato e commentare il risultato Esercizio 11: Si consideri la distribuzione percentuale, secondo il voto riportato all'esame di maturità e il sesso per gli studenti iscritti ai corsi di laurea in Matematica nell'a.a. 2004-05: Sesso/Voto 60-69 70-79 80-89 90-100 F 16.9 17.9 55.7 100 M 22.5 19.6 39.4 100 15.8 18.2 18.0 48.0 100 a) Si completi la distribuzione b) Sapendo che le femmine sono 866 e i maschi 799 si calcoli l'indicatore χ 2 : c) Si calcoli il voto medio dei maschi : Esercizio 12: Uno studio condotto su 1000 famiglie ha dato luogo ai seguenti risultati: Statura media del marito=173 cm scarto quadratico medio=7cm Statura media della moglie=160 cm scarto quadratico medio=6cm Coefficiente di correlazione lineare r=0.45 a) Si determinino l'intercetta e il coefficiente di regressione della retta di regressione riferita alle variabili in oggetto in cui la statura del marito è assunta quale variabile indipendente b) Si preveda la statura della moglie il cui marito è alto 183cm 3
Esercizio 13: Il proprietario di una ditta di consegna di nafta per riscaldamento effettua un'indagine circa la rapidità con la quale vengono saldate le fatture in tre diverse zone periferiche. Estrae a tal fine da ognuna delle tre zone un campione di 100 conti, registrando il numero di giorni intercorrenti tra la consegna della nafta e il saldo della fattura. I risultati sono riportati nella tabella che segue: Zona I Zona II Zona III Da 1 a 15 giorni 34 42 40 Da 16 a 30 giorni 48 50 46 Più di 30 giorni 18 8 14 100 100 100 Valutare, con un opportuno indicatore, se il numero di giorni necessari per saldare le fatture dipende in distribuzione dalla zona periferica. Esercizio 14: Fra due variabili X e Y esiste la relazione lineare calcolata con il metodo dei minimi quadrati: Y=13.5-0.80X. Conoscendo solo le seguenti informazioni X 5 3 6 4 4 Residui 2.9 0.3-1.3-1.9 a) Inserire il valore mancante nella tabella b) Calcolare i valori osservati della variabile Y Esercizio 15: Un virus informatico ha cancellato alcuni dati relativi ad un analisi di regressione lineare semplice effettuata su un campione di 24 osservazioni. I dati ancora leggibili sono i seguenti: media di X = 5, media di Y= 10, varianze di X = 100 e di Y = 49, intercetta = 11.7 ottenuta con il metodo dei minimi quadrati. a) si ricavi il coefficiente di regressione lineare: b) si ricavi R 2, l indice di determinazione lineare del modello: c) se una unità statistica presenta un valore della variabile indipendente X pari a 5 quale sarà il corrispondente valore y* sulla retta di regressione: Esercizio 16: In uno studio volto a studiare la relazione tra la distanza tra due città e la corrispondente tariffa aerea si sono rilevate le distanze tra Baltimora e 12 diverse città americane (in miglia) e il costo dei relativi biglietti aerei per viaggi di sola andata (in dollari). Si sono ottenuti i seguenti valori Distanza media = 712,7 Costo medio del biglietto = 166,9 Scarto quadratico medio della distanza = 402,7 Scarto quadratico medio del costo del biglietto=59,5 Coefficiente di correlazione lineare = 0,795 a) si ricavi il coefficiente di regressione lineare del modello di regressione che assume il costo del biglietto come variabile dipendente e la distanza come variabile indipendente: b) si ricavi la devianza di regressione: c) se una unità città dista da Baltimora 576 miglia quale sarà il corrispondente costo del biglietto y*? Esercizio 17: Si vuole studiare la relazione tra la durata di un messaggio pubblicitario televisivo e il tempo di ricordo dello stesso. Durante un programma televisivo di 1 ora vengono mostrati a 60 individui messaggi pubblicitari di durata diversa relativi allo stesso dentifricio. Ogni individuo viene poi sottoposto a un test volto a misurare la quantità di caratteristiche del prodotto che ricorda. Si ottengono i seguenti risultati: 4
Durata media del messaggio pubblicitario = 38 secondi Punteggio medio nel test di memoria = 13,8 Codevianza fra durata e punteggio = 3060 Devianza del punteggio = 28296 Coefficiente di correlazione lineare = 0,538 a) si ricavi la devianza della variabile durata del messaggio pubblicitario: b) si ricavi il coefficiente di regressione lineare del modello di regressione che assume il punteggio del test di memoria come variabile dipendente e la durata del messaggio come variabile indipendente: c) Se la somma dei residui y-y* relativi ai primi 59 individui è 3, quanto vale il residuo relativo all ultima unità statistica? Esercizio 18 (Esame 8 Febbraio 2006 - Prova A): La seguente tabella riporta il tempo di percorrenza di un tratto autostradale per 70 automobilisti: Tempo di percorrenza N. automobili Meno di 1h 8 1h - 1h 20 min 18 1h 20 min - 1h 40 min 23 1h 40 min -2h 14 2h - 4h 7 Totale 70 a) Calcolare il tempo medio di percorrenza in minuti: b) Individuare lo scarto quadratico medio: c) Sapendo che il tratto autostradale, di lunghezza 155 km, è sottoposto all accertamento della velocità e che il limite di velocità autostradale è di 130 km/h, qual è la percentuale di automobilisti che verranno sanzionati? 5