CORSO EDAMI LE UNIVERSITÀ AMERICANE
|
|
- Bonaventura Forte
- 6 anni fa
- Visualizzazioni
Transcript
1 ORSO EMI LE UNIVERSITÀ MERINE Mario Romanazzi dicembre 06 Introduzione I dati di questo studio provengono dalla libreria del testo di riferimento del corso ata Mining for usiness Intelligence di G. Shmueli, N. R. Patel e P.. ruce. Essi permettono di confrontare e ordinare le università e i colleges statunitensi che offrono corsi undergraduate. Il problema che vogliamo affrontare riguarda la scelta di una buona università da parte di uno studente o di una studentessa che ha appena concluso la scuola secondaria. La fase iniziale del caricamento dei dati è illustrata di seguito. La Tabella fornisce la descrizione delle variabili. > uni <- read.csv( + na.strings=, skip=) > n <- dim(uni)[] > names(uni) <- c( name, state, pub, satm, satv, act, recap, accap, + enrol, p0, p5, ft, pt, intui, outtui, room, board, fee, + book, inc, phd, sfratio, grate ) Variabile escrizione name enominazione del college o università state Stato (sigla) pub Stato giuridico (pubblico:, privato: ) satm, satv Test ST (matematica, satm; verbale, satv) act Test T recap, accap omande di ammissione pervenute (recap) e accolte (accap) enrol Immatricolazioni p0, pv5 % di immatricolazioni nel decile (p0) o nel quartile (p5) più alto ft, pt Studenti a tempo pieno (ft) e a tempo parziale (pt) intui, outtui Retta per studenti residenti (intui) o non residenti (outtui) nello Stato 3 room, board, fee, book Spesa per alloggio (room), vitto (board), libri (book) e altre tasse (fee) inc Stima del reddito personale medio (dollari) degli studenti phd % dei docenti in possesso di PH sfratio Rapporto % tra numero studenti e numero docenti grate % degli immatricolati che completa gli studi entro il termine prestabilito 4 Tabella : escrizione delle variabili. > str(uni)
2 INTROUZIONE data.frame : 30 obs. of 3 variables: $ name : Factor w/ 74 levels "bilene hristian University",..: $ state : Factor w/ 5 levels "K","L","R",..:... $ pub : int... $ satm : int N 459 N N N N $ satv : int N 4 N N N N $ act : int 0 N N $ recap : int $ accap : int $ enrol : int $ p0 : int 6 N 4 N N N 8 N $ p5 : int 44 N 4 N N 7 78 N $ ft : int $ pt : int $ intui : int $ outtui : int $ room : int N 960 N $ board : int N N N $ fee : int N 0... $ book : int $ inc : int N 600 N $ phd : int $ sfratio: num $ grate : int 5 N 39 N > table(uni$pub) > table(uni$state) K L R Z O T E FL G HI I I IL IN KS KY L M M ME MI MN MO MS MT N N NE NH NJ NM NV NY OH OK OR P RI S S TN TX UT V VT W WI WV WY Il campione comprende 30 istituzioni universitarie, 36% delle quali pubbliche, distribuite sul territorio in modo molto ineguale (lo stato di New York ne conta 0, rkansas 4, Wyoming ). Le variabili descrivono aspetti diversi delle istituzioni universitarie. Schematicamente qualità all ingresso degli studenti satm, satv, act, p0, p5 qualità del corpo docente phd risorse di docenza sfratio modalità di frequenza e docenza ft, pt qualità all uscita del processo formativo grate dimensione recap, accap, enrol, ft, pt costo intui, outtui, room, board, fee, book
3 INTROUZIONE 3 inc classe sociale prevalente tra gli studenti La sintesi univariata mediante summary rivela una forte variabilità all interno del campione, indicativo di molteplici modelli organizzativi e gestionali. > summary(uni[, -(:3)]) satm satv act recap Min. :30.0 Min. :80.0 Min. :.00 Min. : 35.0 st Qu.:460.0 st Qu.:4.0 st Qu.:0.5 st Qu.: Median :500.0 Median :457.0 Median :.00 Median : Mean :506.8 Mean :46. Mean :. Mean : 75. 3rd Qu.: rd Qu.:49.0 3rd Qu.:4.00 3rd Qu.: 334. Max. :750.0 Max. :665.0 Max. :3.00 Max. : N s :55 N s :55 N s :588 N s :0 accap enrol p0 p5 Min. : 35.0 Min. : 8.0 Min. :.00 Min. : 6.00 st Qu.: st Qu.: 36.0 st Qu.:3.00 st Qu.: Median : Median : Median :.00 Median : Mean : Mean : Mean :5.67 Mean : rd Qu.: rd Qu.: rd Qu.:3.00 3rd Qu.: Max. : Max. :745.0 Max. :98.00 Max. :00.00 N s : N s :5 N s :35 N s :0 ft pt intui outtui Min. : 59 Min. :.0 Min. : 480 Min. : 044 st Qu.: 966 st Qu.: 3. st Qu.: 580 st Qu.: 6 Median : 8 Median : 47.0 Median : 8050 Median : 8670 Mean : 3693 Mean : 08.5 Mean : 7897 Mean : 977 3rd Qu.: rd Qu.: rd Qu.:600 3rd Qu.:659 Max. :3643 Max. :836.0 Max. :5750 Max. :5750 N s :3 N s :3 N s :30 N s :0 room board fee book inc Min. : 500 Min. : 53 Min. : 9.0 Min. : 90 Min. : 75 st Qu.:70 st Qu.:69 st Qu.: 30.0 st Qu.: 480 st Qu.: 900 Median :00 Median :980 Median : 64.5 Median : 50 Median :50 Mean :55 Mean :06 Mean : 39.0 Mean : 550 Mean :389 3rd Qu.:3040 3rd Qu.:40 3rd Qu.: rd Qu.: 600 3rd Qu.:794 Max. :7400 Max. :650 Max. : Max. :340 Max. :6900 N s :3 N s :498 N s :74 N s :48 N s :8 phd sfratio grate Min. : 8.00 Min. :.30 Min. : 8.00 st Qu.: st Qu.:.80 st Qu.: Median : 7.00 Median :4.30 Median : Mean : Mean :4.86 Mean : rd Qu.: rd Qu.:7.60 3rd Qu.: Max. :00.00 Max. :9.80 Max. :00.00 N s :34 N s : N s :99 bbiamo scelto di trattare la dimensione come variabile di stratificazione assieme a pub, e di valutarne l impatto (eventuale) sulla qualità. tale scopo abbiamo diviso enrol in quattro classi utilizzando i quartili. Inoltre, abbiamo sostituito recap e accap col rapporto accap/recap, di ovvia interpretazione. Similmente, abbiamo sostituito ft e pt col rapporto ft/(ft + pt) di altrettanto ovvia interpretazione. Infine, per misurare il valore delle iscrizioni effettive in rapporto al numero delle domande pervenute, abbiamo formato il rapporto enrol/recap.
4 INTROUZIONE 4 > # lasse dimensionale > size <- cut(uni$enrol, breaks=quantile(uni$enrol, na.rm=true), + include.lowest=true, labels=c(,,, )) > table(uni$pub, size) size > # Frazione domande di iscrizione accettate (grado di selettivit\ {a}) > appratio <- 00*uni$accap/uni$recap > summary(appratio) Min. st Qu. Median Mean 3rd Qu. Max. N s > # Rapporto tempo pieno/tempo parziale > fratio <- 00*uni$ft/(uni$ft+uni$pt) > summary(fratio) Min. st Qu. Median Mean 3rd Qu. Max. N s > # Rapporto iscrizioni/domande pervenute > eratio <- 00*uni$enrol/uni$recap > summary(eratio) Min. st Qu. Median Mean 3rd Qu. Max. N s > # Ruolo di pub e size > boxplot(uni$enrol ~ uni$pub, notch=true) > boxplot(appratio ~ uni$pub, notch=true) > boxplot(appratio ~ size, notch=true) > boxplot(fratio ~ uni$pub, notch=true) > boxplot(fratio ~ size, notch=true) > boxplot(eratio ~ uni$pub, notch=true) > boxplot(eratio ~ size, notch=true) Primi risultati. Le università pubbliche sono generalmente più grandi di quelle private (nel senso qui impiegato, numero di immatricolazioni). La selettività nell accettazione delle domande di iscrizione (valore mediano attorno a 78%, alta variabilità) e la % del tempo pieno (valore mediano attorno a 83%) non sembrano dipendere nè dalla dimensione nè dalla natura pubblica o privata. Un problema importante è rappresentato dai moltissimi dati mancanti, specie per i punteggi ST e T. Per proseguire nell analisi, definiamo un nuovo data frame comprendente le nuove variabili sopra descritte. > y <- data.frame(uni[, :3], size, uni[, 4:6], appratio, eratio, uni[, 0:], fratio, uni[,4:3]) > # Eliminazione di tutte le righe con dati mancanti > y <- na.omit(y) > # Fortissima riduzione della numerosit<e0> > n <- dim(y)[]
5 STUIO ELL ORRELZIONE 5 Studio della correlazione La matrice di correlazione delle variabili (non mostrata qui) suggerisce importanti relazioni tra le variabili. ommentiamo i risultati più interessanti.. I test ST e T e le variabili p0, p5 hanno correlazioni lineari elevate (sempre maggiori di 0.8), senza apprezzabili variazioni se si considera la natura pubblica o privata e la dimensione.. ltre variabili, come graduation rate (grate) o phd sono correlate positivamente ai test ST e T e a p0, p5 ma il valore delle correlazioni non è particolarmente elevato (attorno a 0.5). 3. La selettività del reclutamento (appratio, eratio) è appare maggiore per le istituzioni posizionate su valori alti dei test ST e T, ma il valore assoluto della correlazione è attorno a L analisi delle relazioni tra l ammontare delle rette (intui, outtui), i test ST e T e p0, p5, come pure il rapporto tra studenti e docenti (sfratio) e il graduation rate suggerisce una tendenza a chiedere rette maggiori da parte delle università con miglior posizionamento nei test e migliori risultati. Tuttavia anche in questo caso i valori delle correlazioni non sono particolarmente elevati. titolo di esempio mostriamo il diagramma di dispersione di intui e satm, per le università con dati completi sulle due variabili uni$intui uni$satm Figura : iagramma di dispersione di intui e satm (nero/rosso: università pubbliche/private;,,, : classi dimensionali). La forte correlazione dei punteggi ST e T suggerisce una soluzione del problema dei dati mancanti. d esempio, i dati mancanti di T possono essere stimati come previsioni ricavate da modelli di regressione lineare aventi i punteggi ST (satm, satv), e magari anche p0, p5, come variabili esplicative.
6 3 OMPONENTI PRINIPLI 6 > act_pre <- lm(y$act ~ y$satm + y$satv) > summary(act_pre) all: lm(formula = y$act ~ y$satm + y$satv) Residuals: Min Q Median 3Q Max oefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-06 *** y$satm e- *** y$satv e-08 *** --- Signif. codes: 0 *** 0.00 ** 0.0 * Residual standard error: on 0 degrees of freedom Multiple R-squared: , djusted R-squared: F-statistic: 65 on and 0 F, p-value: <.e-6 Le stime di T per la Princeton e la olumbia University ricavate dal modello di regressione lineare sono rispettivamente uguali a 30.4 e 9.3, valori altissimi ma coerenti col posizionamento di queste università. 3 omponenti principali L analisi delle componenti principali ci consente di visualizzare il posizionamento delle università nello spazio multivariato e di valutare il ruolo delle variabili di stratificazione pub, size. > pc <- princomp(y[, -(:4)], cor=true) > summary(pc) Importance of components: omp. omp. omp.3 omp.4 omp.5 Standard deviation Proportion of Variance umulative Proportion omp.6 omp.7 omp.8 omp.9 omp.0 Standard deviation Proportion of Variance umulative Proportion omp. omp. omp.3 omp.4 omp.5 Standard deviation Proportion of Variance umulative Proportion omp.6 omp.7 omp.8 Standard deviation Proportion of Variance umulative Proportion > round(cor(y[, -(:4)], pc$scores[, :4]), )
7 4 NLISI I RGGRUPPMENTO 7 omp. omp. omp.3 omp.4 satm satv act appratio eratio p p fratio intui outtui room board fee book inc phd sfratio grate Riassumiamo di seguito i risultati più importanti, anche con riferimento al diagramma di dispersione delle prime due componenti della Figura. Questa figura andrebbe confrontata con la Figura.. L analisi è eseguita sui dati pre-standardizzati, scelta obbligata vista l eterogeneità delle scale di misura. Inoltre si considera il sottoinsieme delle università con dati completi su tutte le variabili.. La percentuale della varianza totale spiegata dalle prime due componenti è di poco superiore a 50%, un valore certamente non elevato. Occorre considerare le prime quattro componenti per avere autovalori maggiori di uno o le prime cinque per superare il 70% della varianza spiegata. 3. Sulla base delle correlazioni con le variabili osservate, la prima componente ordina le università tra due poli contrapposti. Sul polo negativo troviamo università ben posizionate nei test, selettive nel reclutamento e costose. Sul polo positivo, al contrario, troviamo università con posizionamento basso nei testo, meno selettive nel reclutamento e relativamente meno costose. 4. La seconda componente è correlata positivamente con le variabili che misurano il costo (intui, outtui, room, board). 5. La natura pubblica/privata ha implicazioni importanti. Le università pubbliche sono concentrate nel quarto quadrante e quindi mediamente hanno posizionamento non ottimale nei test e sono relativamente meno costose. l contrario, sul polo negativo della prima componente troviamo quasi esclusivamente università private. 6. Meno definito il ruolo della dimensione anche se si può notare che la maggior parte delle università di classe dimensionale o si trovano nel primo quadrante, quindi tendenzialmente avranno punteggio nei test meno buono, saranno meno selettive e più costose. 4 nalisi di raggruppamento ttraverso questa analisi cerchiamo conferme agli spunti emersi dall P. ominciamo con i metodi di raggruppamento gerarchico.
8 4 NLISI I RGGRUPPMENTO omp. omp. Figura : iagramma di dispersione delle prime due componenti principali (simboli e colori come in Figura ). > d <- dist(scale(y[, -(:4)]), method= euclidean ) > hc_ave <- hclust(d, method= average ) > hc_w <- hclust(d, method= ward. ) > cor(d, cophenetic(hc_ave)) [] > cor(d, cophenetic(hc_w)) [] In base alla correlazione cofenetica appare migliore la struttura di gruppo stimata col metodo del legame medio rispetto a quella stimata col metodo di Ward. Tuttavia i dendrogrammi che descrivono le due strutture non sono di immediata interpretazione e pertanto non vengono qui considerati. È la partizione stimata col metodo delle k medie che appare interessante. Sulla base della statistica di alinski-harabasz, il valore ottimale di k è pari a due. La composizione dei due gruppi viene determinata col ben noto algoritmo delle k medie. > kopt <- > km <- kmeans(scale(y[, -(:4)]), centers=kopt, nstart=50) > # oordinate dei centri > km$centers
9 4 NLISI I RGGRUPPMENTO 9 satm satv act appratio eratio p0 p fratio intui outtui room board fee book inc phd sfratio grate > # onfronto con le variabili di stratificazione > table(km$cluster, y$pub) > table(km$cluster, y$size) Presentiamo di seguito i punti principali.. ome nell P, consideriamo dati standardizzati. La partizione stimata con k medie è di facile interpretazione. Il primo gruppo (vedi coordinate dei centri) comprende le università con ottimo posizionamento nei test, selettive nel reclutamento, con alti valori di graduation rate e relativamente più costose. 3. Il confronto con la natura pubblica o privata mostra che nel gruppo ci sono quasi esclusivamente universit à private. 4. Il confronto con la classe dimensionale mostra che nel gruppo sono ben rappresentate tutte le classi, eccetto la prima, comprendente il 5% delle universit à più piccole in termini di numero di iscritti. 5. è un rapporto stretto, e dunque una conferma dei risultati dell P. Il gruppo occupa quasi completamente il secondo ed il terzo quadrante del diagramma di dispersione delle prime due componenti (vedi Figura 3).
10 4 NLISI I RGGRUPPMENTO omp. omp. Figura 3: iagramma di dispersione delle prime due componenti principali e gruppi stimati col metodo delle k medie (simboli e colori come in Figura ; : gruppo, : gruppo ).
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
LABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 6 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI REGRESSIONE LINEARE: SPORT - COLESTEROLO ESERCIZIO 8: La tabella seguente
LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE
LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE 5.1 ESEMPIO DI ANOVA AD UNA VIA In un esperimento un gruppo di bambini è stato assegnato a caso a 3 trattamenti, allo scopo di determinare
0.1 Percorrenza e Cilindrata
0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,
Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura
Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono
Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR
Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR Materiale ad uso dei ricercatori che hanno seguito il corso di formazione interna in Statistica, edizione
Validazione dei modelli Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test
Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare
Variabili presenti nella base dati
Analisi della partecipazione delle donne sposate nella forza lavoro negli Stati Uniti nel 1975 Si consideri la seguente base di dati (file: ww.xls) costituita da 753 osservazioni su donne statunitensi
Esercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate
Esercizio 1 Osservare il grafico 1 riportato in figura che mette in relazione una variabile dipendente Y ed una variabile indipendente X e rispondere alle seguenti domande. 400 300 200 GRAFICO 1 100 0
VARIETÀ. zona geografica A B C D
Anova a 2 vie con repliche (( chiarire che non devono essere esattamente nello stesso numero per ogni cella ovvero per le ripetizioni dei de fattori ma che excel li legge così) Esercizio-esempio 1 Il valore
Livello di esposizione. animale Basso Moderato Alto
Esercizio -Esempio 1 (anova 2 vie con blocchi) I tassi respiratori (ispirazioni al minuto) sono stati misurati in otto animali usati per un esperimento, con tre livelli di esposizione al monossido di carbonio.
Modelli con predittori qualitativi e modelli con interazioni
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari
Stima dei parametri di modelli lineari
Stima dei parametri di modelli lineari Indice Introduzione................................ 1 Il caso studio................................ 2 Stima dei parametri............................ 3 Bontà delle
3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
Teoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
Statistica di base per l analisi socio-economica
Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme
La matrice delle correlazioni è la seguente:
Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA
STATISTICA 1 ESERCITAZIONE 6
STATISTICA 1 ESERCITAZIONE 6 Dott. Giuseppe Pandolfo 5 Novembre 013 CONCENTRAZIONE Osservando l ammontare di un carattere quantitativo trasferibile su un collettivo statistico può essere interessante sapere
Esame di Statistica A-Di Prof. M. Romanazzi
1 Università di Venezia Esame di Statistica A-Di Prof. M. Romanazzi 25 Maggio 2015 Cognome e Nome..................................... N. Matricola.......... Valutazione Il punteggio massimo teorico di
ESERCITAZIONE C. Analisi di dati sperimentali PARTE 3: REGRESIONE
Università degli Studi di Padova Facoltà di Scienze MM.FF.NN. Corso di Laurea Magistrale: Biologia Sanitaria/Biologia Molecolare Insegnamento: Statistica Applicata Docente: Prof.ssa Alessandra R. Brazzale
Esempi di confronti grafici
Esempi di confronti grafici Esempi di confronti grafici 7/3 Capitolo 3 LE MEDIE La media aritmetica La media geometrica La trimmed mean La mediana La moda I percentili Statistica - Metodologie per
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Misura dell associazione tra due caratteri Uno store manager è interessato a studiare la relazione
La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali
Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Contents 1 Inferenza sulla regressione semplice 1 1.1 Test sulla pendenza della retta................................... 1 1.2 Test sull
Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento
Capitolo Suggerimenti agli esercizi a cura di Elena Siletti Esercizio.: Suggerimento Per verificare se due fenomeni sono dipendenti in media sarebbe necessario confrontare le medie condizionate, in questo
Ringraziamenti dell Editore
Indice Elenco dei simboli e delle abbreviazioni in ordine di apparizione Ringraziamenti dell Editore XI XVII 1 Introduzione FAQ e qualcos altro, da leggere prima 1 1.1 QuestoèunlibrodiStatistica....................
Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii
Sommario Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii xv Parte I Statistica descrittiva 1 Capitolo 1 Introduzione 3 Perché studiare statistica? 4
Corso di laurea in Statistica Statistica I Esercizi sulla regressione lineare semplice
Corso di laurea in Statistica Statistica I Esercizi sulla regressione lineare semplice Esercizio 1 Efficacia di un disinfettante I dati della Tabella 1 mostrano i conteggi relativi alla presenza o meno
Relazione tra variabili (cont.) In questo parte del corso analizziamo la relazione tra una variabile continua e un altra qualitativa o discreta.
Relazione tra variabili (cont.) In questo parte del corso analizziamo la relazione tra una variabile continua e un altra qualitativa o discreta. María Eugenia Castellanos Nueda (DEIO) Estadística Aplicada
Analisi in Componenti Principali
Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca un ruolo ausiliario rispetto ad altre tecniche (es. analisi fattoriale,
Nozioni di statistica
Nozioni di statistica Distribuzione di Frequenza Una distribuzione di frequenza è un insieme di dati raccolti in un campione (Es. occorrenze di errori in seconda elementare). Una distribuzione può essere
Esercitazioni di Metodi Statistici per la Biologia
Esercitazioni di Metodi Statistici per la Biologia Francesco Caravenna E-mail: francesco.caravenna@math.unipd.it Web: http://www.math.unipd.it/ fcaraven/didattica Indirizzo: Dipartimento di Matematica,
Regressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
TEST NON PARAMETRICO DI MANN-WHITNEY
TEST NON PARAMETRICO DI MANN-WHITNEY Questo test viene può essere utilizzato come test di confronto tra due campioni in maniera analoga ai test ipotesi parametrici di confronto medie (test Z se la varianza
LABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi Corso di laurea in Informatica e Bioinformatica 4 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI 1 - STATISTICA DESCRITTIVA
Fac-simile prova di esame
UNIVERSITÀ CA FOSCARI DI VENEZIA FACOLTÀ DI ECONOMIA Statistica Computazionale I Prof. Stefano Tonellato COGNOME.................................... NOME.................................... MATRICOLA....................................
STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:
esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia luca.monno@unipv.it http://www.lucamonno.it
Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
STATISTICHE DESCRITTIVE Parte II
STATISTICHE DESCRITTIVE Parte II INDICI DI DISPERSIONE Introduzione agli Indici di Dispersione Gamma Differenza Interquartilica Varianza Deviazione Standard Coefficiente di Variazione introduzione Una
Esercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo
UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE
Introduzione alla Regressione Logistica
Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti
Premio per la qualità della didattica nella Facoltà di Economia
Università Ca' Foscari di Venezia Facoltà di Economia Premio per la qualità della didattica nella Facoltà di Economia Anno Accademico 2005-2006 a cura di: Stefano Magrini, Marzia Polles, Dino Rizzi 26
ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.
ESERCIZIO. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con fattori tra i soggetti. Variabile dipendente: PERF Sorgente Modello corretto Intercept SEX_96
le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:
DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it si basano su tre elementi: le scale di misura sistema empirico: un insieme di entità non numeriche (es. insieme di persone; insieme
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA
Multicollinearità. Strumenti quantitativi per la gestione
Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità
REGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
Lezione 4 a - Misure di dispersione o di variabilità
Lezione 4 a - Misure di dispersione o di variabilità Abbiamo visto che la media è una misura della localizzazione centrale della distribuzione (il centro di gravità). Popolazioni con la stessa media possono
Metodi di regressione multivariata
Metodi di regressione multivariata Modellamento dei dati per risposte quantitative I metodi di regressione multivariata sono strumenti utilizzati per ricercare relazioni funzionali quantitative tra un
Esplorazione grafica di dati multivariati. N. Del Buono
Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)
Valutare per Migliorare Programma di valutazione
Valutare per Migliorare Programma di valutazione Analisi aggregate sul Questionario di Ateneo a.a. 2006-2007 Commissione per la Valutazione della Didattica della Facoltà di Scienze Politiche Università
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51
Sommario 1 I dati...15 1.1 Classificazione delle rilevazioni...17 1.1.1 Esperimenti ripetibili (controllabili)...17 1.1.2 Rilevazioni su fenomeni non ripetibili...18 1.1.3 Censimenti...19 1.1.4 Campioni...19
ANALISI DELLA VARIANZA
ANALISI DELLA VARIANZA Il data set coagulation contenuto nella libreria faraway contiene i tempi di coagulazione del sangue (misurato in secondi) di 24 animali sottoposti casualmente a quattro tipi di
Esercizio 2: voto e ore dedicate allo studio
La seguente tabella riporta il voto riportato da 10 studenti all esame di Statistica Sociale e il numero di ore di lezione non seguite dallo studente (il corso prevede 30 ore di lezione). Ci si chiede
Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio
Corso di Laurea: Diritto per le Imprese e le istituzioni a.a. 2016-17 Statistica Statistica Descrittiva 3 Esercizi: 5, 6 Docente: Alessandra Durio 1 Contenuti I quantili nel caso dei dati raccolti in classi
LABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 4 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI 1 - STATISTICA DESCRITTIVA VENDITE PC ESERCIZIO 1: La seguente tabella
Introduzione. Eduardo Rossi 2. Marzo Università di Pavia (Italy) Rossi Introduzione Econometria / 11
Eduardo Rossi 2 2 Università di Pavia (Italy) Marzo 2014 Rossi Introduzione Econometria - 2014 1 / 11 Econometria significa misurazione economica. Lo scopo dell econometria è molto più ampio. Definizione
Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset
Capitolo 1 Analisi Discriminante 1.1 Introduzione L analisi discriminante viene condotta per definire una modalità di assegnazione dei casi a differenti gruppi, in funzione di una serie di variabili fra
REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori
REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE
Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
Esercitazioni di statistica
Esercitazioni di statistica Gli indici statistici di sintesi: Gli indici di centralità Stefania Spina Universitá di Napoli Federico II stefania.spina@unina.it 7 Ottobre 2014 Stefania Spina Esercitazioni
Sperimentazioni di Fisica I mod. A Statistica - Lezione 2
Sperimentazioni di Fisica I mod. A Statistica - Lezione 2 A. Garfagnini M. Mazzocco C. Sada Dipartimento di Fisica G. Galilei, Università di Padova AA 2014/2015 Elementi di Statistica Lezione 2: 1. Istogrammi
Esame di Statistica TEMA A Corso di Laurea in Economia Prof.ssa S. Giordano 21 Gennaio 2013
Esame di Statistica TEMA A Corso di Laurea in Economia Prof.ssa S. Giordano Gennaio 0 Cognome Nome Matr. TEORIA: dimostrare la proprietà di linearità della media e della varianza. Esercizio Nel seguente
Esercizio 8. Ne segue, ovviamente che le aree geografiche di riferimento sono Africa e America del Sud.
Esercizio 8 La Swiss Economic Research della Union Bank of Switzerland conduce un controllo periodico dei livelli dei prezzi e dei salari nella principali città del mondo. Una delle variabili rilevate
STATISTICA 1 ESERCITAZIONE 2
Frequenze STATISTICA 1 ESERCITAZIONE 2 Dott. Giuseppe Pandolfo 7 Ottobre 2013 RAPPRESENTAZIONE GRAFICA DEI DATI Le rappresentazioni grafiche dei dati consentono di cogliere la struttura e gli aspetti caratterizzanti
Esercitazione II Statistica e Calcolo delle Probabilità (con soluzioni)
Esercitazione II Statistica e Calcolo delle Probabilità (con soluzioni) Esercizio 1: Alla fine di una giornata di lavoro un intervistatore si accorge di aver perso i dati raccolti su un certo numero di
Misure di dispersione (o di variabilità)
08/04/014 Misure di dispersione (o di variabilità) Range Distanza interquartile Deviazione standard Coefficiente di variazione Misure di dispersione 7 8 9 30 31 9 18 3 45 50 x 9 range31-74 x 9 range50-941
Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura
INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI
FACOLTÀ DI SCIENZE POLITICHE
Università degli Studi di Milano FACOLTÀ DI SCIENZE POLITICHE Programma di valutazione dell attività didattica (Legge 370/1999) RIEPILOGO DELLE VALUTAZIONI FORNITE DAGLI STUDENTI Anno Accademico 00-009
FACOLTÀ DI SCIENZE POLITICHE
Università degli Studi di Milano FACOLTÀ DI SCIENZE POLITICHE Programma di valutazione dell attività didattica (Legge 370/1999) RIEPILOGO DELLE VALUTAZIONI FORNITE DAGLI STUDENTI Anno Accademico 00-009
Scale di Misurazione Lezione 2
Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile
Statistica Sociale - modulo A
Statistica Sociale - modulo A e-mail: stella.iezzi@uniroma2.it i quartili IL TERZO QUARTILE per un carattere diviso in classi ESEMPIO: il boxplot I QUARTILI I quartili sono tre indici che dividono la distribuzione
STATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
Statistica multivariata Donata Rodi 08/11/2016
Statistica multivariata Donata Rodi 08/11/2016 MANOVA: Multivariate Analysis of Variance Due o più variabili dipendenti quantitative Una o più variabili indipendenti categoriali (con più livelli) Residui
Gli indici di variabilità
Le misure della variabilità 4/5 ottobre 2011 Statistica sociale 1 Gli indici di variabilità In tutti gli esempi visti nell ultima lezione, abbiamo visto che le grandezze considerate - pur nelle diverse
x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni
FACOLTÀ DI SCIENZE POLITICHE
Università degli Studi di Milano FACOLTÀ DI SCIENZE POLITICHE Programma di valutazione dell attività didattica (Legge 370/1999) RIEPILOGO DELLE VALUTAZIONI FORNITE DAGLI STUDENTI Anno Accademico 00-009
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,
LA CLUSTER ANALYSIS IN R
LA CLUSTER ANALYSIS IN R 1 Cluster gerarchica 1.1 Cluster delle unità sperimentali > sanita= read.table(file.choose(), header =TRUE, row.names=2) > str(sanita) 'data.frame': 20 obs. of 6 variables: $ n
Statistica multivariata Donata Rodi 17/10/2016
Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
Esercitazione 1.3. Indici di variabilità ed eterogeneità. Prof.ssa T. Laureti a.a
Corso di Statistica Esercitazione.3 Indici di variabilità ed eterogeneità Concentrazione Asimmetria Prof.ssa T. Laureti a.a. 202-203 Esercizio Si considerino i seguenti dati relativi al numero di addetti
Inferenza statistica Donata Rodi 04/10/2016
Inferenza statistica Donata Rodi 04/10/2016 Popolazione Campionamento Campione Parametri Inferenza Statistiche µ, ϭ 2 descrittive Stima X, s 2 Quale test? Parametrico o no Scala di misura 1 gruppo 2 gruppi
Il modello lineare misto
Il modello lineare misto (capitolo 9) A M D Marcello Gallucci Univerisità Milano-Bicocca Lezione: 15 GLM Modello Lineare Generale vantaggi Consente di stimare le relazioni fra due o più variabili Si applica
Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE
Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova
Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione
Consentono di descrivere la variabilità all interno della distribuzione di requenza tramite un unico valore che ne sintetizza le caratteristiche CAMPO DI VARIAZIONE DIFFERENZA INTERQUARTILE SCOSTAMENTO
> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2.
A questo punto vale la pena di soffermarci di più sull alimentazione. Intanto cerchiamo di indagare se l alimentazione è davvero un fattore significativo per la percorrenza come è luogo comune pensare.
Elementi di Statistica
Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica ed Elementi di Statistica 3 c.f.u. Anno Accademico 2010/2011 Docente: ing. Salvatore Sorce Elementi di Statistica Statistica
RELAZIONE SULLA RESTITUZIONE DEI DATI INVALSI ANNO SCOLASTICO 2015/2016
ISTITUTO COMPRENSIVO STATALE N. 2 SANT AGATA de GOTI Viale Vittorio Emanuele III - 82019 Sant Agata de Goti (BN) Tel./Fax 0823/953048 e-mail: bnic827002@istruzione.it - pec: bnic827002@pec.istruzione.it
La sintesi delle distribuzioni
Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Outline 1 Introduzione 2 3 4 Outline 1 Introduzione 2 3 4 Introduzione Analisi descrittiva monovariata: segue la raccolta dei dati e il calcolo
Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi
ISTITUZIONI DI STATISTICA A A 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona
Regressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati
ISTITUZIONI DI STATISTICA A. A. 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona
Tabelle punteggi generali di italiano
Tabelle punteggi generali di italiano (rispetto all istituzione scolastica nel complesso) Tabelle punteggi generali di matematica (rispetto all istituzione scolastica nel complesso) La percentuale di risposte
Regressione lineare semplice
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice
Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza
Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette
La gestione dei risultati della valutazione. Claudio Mantovani
La gestione dei risultati della valutazione Claudio Mantovani L obiettivo di questo intervento Descrivere alcune tecniche di analisi di dati dalle più semplici alle più complesse Dare suggerimenti pratici