Prima lezione Esempio di dati Indagine medica Id Sesso Età Razza Fumatore Pressione Sanguigna Presenza di calcio nel sangue 1 M 46 altro sì 90 10.04 2 M 45 asiatico sì 102 9.66 3 F 45 nero sì 91 9.94 4 F 43 nero sì 96 9.95 5 M 43 asiatico sì 107 10.39 6 M 49 altro sì 110 10.69 7 M 41 nero sì 103 10.32 8 M 49 bianco sì 109 10.37 9 M 46 nero sì 104 9.04 10 F 46 nero sì 101 10.49 11 F 50 nero sì 106 10.77 12 M 45 bianco no 84 9.59 13 F 40 nero no 95 10.63 14 M 49 altro no 93 10.08 15 F 45 bianco no 86 9.87 16 F 48 nero no 92 10.89 17 F 42 altro no 120 10.70 18 M 44 nero no 81 10.74 19 M 48 nero no 91 10.19 20 M 50 bianco no 80 10.48 Si rappresentino nel miglior modo possibile: 1- il genere dei pazienti tabella di frequenza + grafico a torta 2- età frequenze tabella di frequenza con anche cumulate + diagrammi a bastoncini 3- razza con excel tabella pivot e grafico pivot 4- pressione creazione classi (diversa ampiezza), tabella di frequenza e istogramma 5- calcio con excel tabella pivot (classi) e anche rappresentazione grafica della funzione di ripartizione. 6- genere condizionato allo stato di fumatori tabella di frequenza (contingenza) + rappresentazione grafica poi con excel.
Seconda lezione In una classe Id Genere Altezza (in cm) Peso (in Kg) Cittadinanza Voto in italiano (il lettere) Voto in matematica (in decimi) Luca M 194 105.3 Italiana A 9 Paolo M 182 75.2 Francese B 7 Chiara F 157 50.7 Tedesca C 6 Lucia F 168 53.5 Svizzera D 4 Serena F 163 55.3 Francese A 10 Elisa F 170 60.1 Svizzera A 9 Piero M 178 80.1 Italiana B 8 Matteo M 184 85.9 Francese B 7 Matilde F 165 57.5 Francese B 8 Alessandra F 154 45.9 Francese C 6 Filippo M 169 65.8 Tedesca D 5 Michele M 189 93.4 Tedesca B 9 Michela F 155 52.5 Tedesca B 10 Cristina F 172 69.3 Svizzera B 5 Loris M 173 100.2 Svizzera C 7 Anna F 181 85.2 Svizzera C 5 Franco M 187 79.4 Tedesca A 9 Andrea M 172 63.8 Italiana D 6 Ruggero M 185 85.5 Svizzera D 5 Si rappresentino nel miglior modo possibile (si usi il dataset delle caratteristiche della classe delle superiori): 1- moda di un carattere qualitativo sconnesso (razza) 2- mediana e moda di un carattere qualitativo ordinale (voto in lettere) 3- moda, mediana, quartili e media di un carattere quantitativo discreto (voto in decimi) 4- moda (?), quartili e media di un carattere quantitativo continuo il peso (o meglio discreto con molte modalità diverse) 5- studio degli indici di posizione per il carattere altezza e condizionati al genere. 6- quartili delle altezze e rappresentazione Box & Whisker plot
Terza lezione Un dataset reale cons ncil cilin CV peso acc anno orig nome 18 8 307 130 3504 12 70 1 chevrolet chevelle malibu 27 4 97 88 2130 14.5 71 3 datsun pl510 24 4 113 95 2278 15.5 72 3 toyota corona hardtop 13 8 350 175 4100 13 73 1 buick century 350 20 6 198 95 3102 16.5 74 1 plymouth duster 19 6 225 95 3264 16 75 1 plymouth valiant custom 28 4 107 86 2464 15.5 76 2 fiat 131 31.5 4 98 68 2045 18.5 77 3 honda accord cvcc 43.1 4 90 48 1985 21.5 78 2 volkswagen rabbit custom diesel 21.5 6 231 115 3245 15.4 79 1 pontiac lemans v6 41.5 4 98 76 2144 14.7 80 2 vw rabbit 27.2 4 135 84 2490 15.7 81 1 plymouth reliant 28 4 112 88 2605 19.6 82 1 chevrolet cavalier Analizziamo la variabilità dei fenomemi quantitativi (vedi anche file auto-mpg.xls) Analisi univariata: 1- differenza interquartile e range (consumi - cons) 2- varianza (confrontare la variabilità della potenza CV e del peso ) Momenti di ordine superiore al secondo: 3- asimmetria (cilin) 4- curtosi (cilin rappresentane la distribuzione per far capire il senso degli indici calcolati) density.default(x = x) Density 0.000 0.001 0.002 0.003 0.004 0.005 0 100 200 300 400 500 N = 13 Bandwidth = 47.62
Analisi bivariata: 5- covarianza (tra consumo cons e accelerazione acc e poi tra peso e cilindrata - cilin) 6- correlazione (tra consumo cons e accelerazione acc e poi tra peso e cilindrata - cilin) 7- rappresentazione grafica della relazione tra due variabili (diagramma a dispersione tra peso e cilindrata - cilin) 8- rappresentazione grafica dell'andamento di un fenomeno nel tempo (peso delle auto) Anche con excel su un dataset più ampio (auto-mpg.xls Machine Learning Repository).
Quarta lezione Esercizi sulla probabilità 1- qual è la probabilità di indovinare un 6 al lotto giocando 6 numeri secchi? 2- qual è la probabilità di fare un sette lanciando due dadi e sommando il risultato delle facce? 3- qual è la probabilità di fare due sette di seguito lanciando due dadi alla volta? E di fare un sette subito dopo aver ottenuto lo stesso risultato? 4- Ad un torneo partecipano 5 squadre. Ogni squadra ha una probabilità di vincere il torneo fissata a priori considerando le capacità dei propri giocatori. Squadra Provincia di provenienza Autogestione Probabilità di vincere A UD No 0.35 B UD Sì 0.05 C UD No 0.20 D TS No 0.25 E TS Sì 0.15 Qual è la probabilità che vinca una squadra di TS? Qual è la probabilità che vinca la squadra A sapendo che il torneo è stato vinto da una squadra di UD? Qual è la probabilità che vinca una squadra autogestita della provincia di UD? Qual è la probabilità che vinca una squadra non autogestita o della provincia di TS? 5- sincerità alla valutazione di un corso... step 1 randomizzazione: lancio di una moneta non truccata (evento A) step 2 - se il risultato del lancio è testa rispondi alla domanda con risposta dicotomica ti piace il corso? - se se il risultato del lancio è croce rispondi alla domanda il tuo genere è femminile? Qual è la proporzione di persone a cui piace il corso? (il dato che conosciamo è che la percentuale di studenti di genere femminile è... ) Esercizi sul teorema di Bayes. 6- Uno studente deve sostenere un esame. Se studia passa con probabilità 95 %, ma se va in vacanza il mese prima la sua probabilità di promozione si riduce al 50 %. Deciderà di andare in vacanza se esce testa lanciando una moneta equa. Se egli supera l'esame qual è la probabilità che sia andato in vacanza? å 7- In una data città risulta che il 35% degli abitanti vota il partito A, il 30% il partito B, il 25% il partito C ed il rimanente 10% ha votato altri partiti minori. In una data elezione hanno votato rispettivamente il 65%, l'82%, il 90 ed il 50% degli aventi diritto, se si sceglie a caso una persona che non ha votato nella stessa città, qual è la probabilità che sia in favore del partito B?