CORSO EDAMI LE UNIVERSITÀ AMERICANE

Transcript

1 ORSO EMI LE UNIVERSITÀ MERINE Mario Romanazzi dicembre 06 Introduzione I dati di questo studio provengono dalla libreria del testo di riferimento del corso ata Mining for usiness Intelligence di G. Shmueli, N. R. Patel e P.. ruce. Essi permettono di confrontare e ordinare le università e i colleges statunitensi che offrono corsi undergraduate. Il problema che vogliamo affrontare riguarda la scelta di una buona università da parte di uno studente o di una studentessa che ha appena concluso la scuola secondaria. La fase iniziale del caricamento dei dati è illustrata di seguito. La Tabella fornisce la descrizione delle variabili. > uni <- read.csv( + na.strings=, skip=) > n <- dim(uni)[] > names(uni) <- c( name, state, pub, satm, satv, act, recap, accap, + enrol, p0, p5, ft, pt, intui, outtui, room, board, fee, + book, inc, phd, sfratio, grate ) Variabile escrizione name enominazione del college o università state Stato (sigla) pub Stato giuridico (pubblico:, privato: ) satm, satv Test ST (matematica, satm; verbale, satv) act Test T recap, accap omande di ammissione pervenute (recap) e accolte (accap) enrol Immatricolazioni p0, pv5 % di immatricolazioni nel decile (p0) o nel quartile (p5) più alto ft, pt Studenti a tempo pieno (ft) e a tempo parziale (pt) intui, outtui Retta per studenti residenti (intui) o non residenti (outtui) nello Stato 3 room, board, fee, book Spesa per alloggio (room), vitto (board), libri (book) e altre tasse (fee) inc Stima del reddito personale medio (dollari) degli studenti phd % dei docenti in possesso di PH sfratio Rapporto % tra numero studenti e numero docenti grate % degli immatricolati che completa gli studi entro il termine prestabilito 4 Tabella : escrizione delle variabili. > str(uni)

2 INTROUZIONE data.frame : 30 obs. of 3 variables: $ name : Factor w/ 74 levels "bilene hristian University",..: $ state : Factor w/ 5 levels "K","L","R",..:... $ pub : int... $ satm : int N 459 N N N N $ satv : int N 4 N N N N $ act : int 0 N N $ recap : int $ accap : int $ enrol : int $ p0 : int 6 N 4 N N N 8 N $ p5 : int 44 N 4 N N 7 78 N $ ft : int $ pt : int $ intui : int $ outtui : int $ room : int N 960 N $ board : int N N N $ fee : int N 0... $ book : int $ inc : int N 600 N $ phd : int $ sfratio: num $ grate : int 5 N 39 N > table(uni$pub) > table(uni$state) K L R Z O T E FL G HI I I IL IN KS KY L M M ME MI MN MO MS MT N N NE NH NJ NM NV NY OH OK OR P RI S S TN TX UT V VT W WI WV WY Il campione comprende 30 istituzioni universitarie, 36% delle quali pubbliche, distribuite sul territorio in modo molto ineguale (lo stato di New York ne conta 0, rkansas 4, Wyoming ). Le variabili descrivono aspetti diversi delle istituzioni universitarie. Schematicamente qualità all ingresso degli studenti satm, satv, act, p0, p5 qualità del corpo docente phd risorse di docenza sfratio modalità di frequenza e docenza ft, pt qualità all uscita del processo formativo grate dimensione recap, accap, enrol, ft, pt costo intui, outtui, room, board, fee, book

3 INTROUZIONE 3 inc classe sociale prevalente tra gli studenti La sintesi univariata mediante summary rivela una forte variabilità all interno del campione, indicativo di molteplici modelli organizzativi e gestionali. > summary(uni[, -(:3)]) satm satv act recap Min. :30.0 Min. :80.0 Min. :.00 Min. : 35.0 st Qu.:460.0 st Qu.:4.0 st Qu.:0.5 st Qu.: Median :500.0 Median :457.0 Median :.00 Median : Mean :506.8 Mean :46. Mean :. Mean : 75. 3rd Qu.: rd Qu.:49.0 3rd Qu.:4.00 3rd Qu.: 334. Max. :750.0 Max. :665.0 Max. :3.00 Max. : N s :55 N s :55 N s :588 N s :0 accap enrol p0 p5 Min. : 35.0 Min. : 8.0 Min. :.00 Min. : 6.00 st Qu.: st Qu.: 36.0 st Qu.:3.00 st Qu.: Median : Median : Median :.00 Median : Mean : Mean : Mean :5.67 Mean : rd Qu.: rd Qu.: rd Qu.:3.00 3rd Qu.: Max. : Max. :745.0 Max. :98.00 Max. :00.00 N s : N s :5 N s :35 N s :0 ft pt intui outtui Min. : 59 Min. :.0 Min. : 480 Min. : 044 st Qu.: 966 st Qu.: 3. st Qu.: 580 st Qu.: 6 Median : 8 Median : 47.0 Median : 8050 Median : 8670 Mean : 3693 Mean : 08.5 Mean : 7897 Mean : 977 3rd Qu.: rd Qu.: rd Qu.:600 3rd Qu.:659 Max. :3643 Max. :836.0 Max. :5750 Max. :5750 N s :3 N s :3 N s :30 N s :0 room board fee book inc Min. : 500 Min. : 53 Min. : 9.0 Min. : 90 Min. : 75 st Qu.:70 st Qu.:69 st Qu.: 30.0 st Qu.: 480 st Qu.: 900 Median :00 Median :980 Median : 64.5 Median : 50 Median :50 Mean :55 Mean :06 Mean : 39.0 Mean : 550 Mean :389 3rd Qu.:3040 3rd Qu.:40 3rd Qu.: rd Qu.: 600 3rd Qu.:794 Max. :7400 Max. :650 Max. : Max. :340 Max. :6900 N s :3 N s :498 N s :74 N s :48 N s :8 phd sfratio grate Min. : 8.00 Min. :.30 Min. : 8.00 st Qu.: st Qu.:.80 st Qu.: Median : 7.00 Median :4.30 Median : Mean : Mean :4.86 Mean : rd Qu.: rd Qu.:7.60 3rd Qu.: Max. :00.00 Max. :9.80 Max. :00.00 N s :34 N s : N s :99 bbiamo scelto di trattare la dimensione come variabile di stratificazione assieme a pub, e di valutarne l impatto (eventuale) sulla qualità. tale scopo abbiamo diviso enrol in quattro classi utilizzando i quartili. Inoltre, abbiamo sostituito recap e accap col rapporto accap/recap, di ovvia interpretazione. Similmente, abbiamo sostituito ft e pt col rapporto ft/(ft + pt) di altrettanto ovvia interpretazione. Infine, per misurare il valore delle iscrizioni effettive in rapporto al numero delle domande pervenute, abbiamo formato il rapporto enrol/recap.

4 INTROUZIONE 4 > # lasse dimensionale > size <- cut(uni$enrol, breaks=quantile(uni$enrol, na.rm=true), + include.lowest=true, labels=c(,,, )) > table(uni$pub, size) size > # Frazione domande di iscrizione accettate (grado di selettivit\ {a}) > appratio <- 00*uni$accap/uni$recap > summary(appratio) Min. st Qu. Median Mean 3rd Qu. Max. N s > # Rapporto tempo pieno/tempo parziale > fratio <- 00*uni$ft/(uni$ft+uni$pt) > summary(fratio) Min. st Qu. Median Mean 3rd Qu. Max. N s > # Rapporto iscrizioni/domande pervenute > eratio <- 00*uni$enrol/uni$recap > summary(eratio) Min. st Qu. Median Mean 3rd Qu. Max. N s > # Ruolo di pub e size > boxplot(uni$enrol ~ uni$pub, notch=true) > boxplot(appratio ~ uni$pub, notch=true) > boxplot(appratio ~ size, notch=true) > boxplot(fratio ~ uni$pub, notch=true) > boxplot(fratio ~ size, notch=true) > boxplot(eratio ~ uni$pub, notch=true) > boxplot(eratio ~ size, notch=true) Primi risultati. Le università pubbliche sono generalmente più grandi di quelle private (nel senso qui impiegato, numero di immatricolazioni). La selettività nell accettazione delle domande di iscrizione (valore mediano attorno a 78%, alta variabilità) e la % del tempo pieno (valore mediano attorno a 83%) non sembrano dipendere nè dalla dimensione nè dalla natura pubblica o privata. Un problema importante è rappresentato dai moltissimi dati mancanti, specie per i punteggi ST e T. Per proseguire nell analisi, definiamo un nuovo data frame comprendente le nuove variabili sopra descritte. > y <- data.frame(uni[, :3], size, uni[, 4:6], appratio, eratio, uni[, 0:], fratio, uni[,4:3]) > # Eliminazione di tutte le righe con dati mancanti > y <- na.omit(y) > # Fortissima riduzione della numerosit<e0> > n <- dim(y)[]

5 STUIO ELL ORRELZIONE 5 Studio della correlazione La matrice di correlazione delle variabili (non mostrata qui) suggerisce importanti relazioni tra le variabili. ommentiamo i risultati più interessanti.. I test ST e T e le variabili p0, p5 hanno correlazioni lineari elevate (sempre maggiori di 0.8), senza apprezzabili variazioni se si considera la natura pubblica o privata e la dimensione.. ltre variabili, come graduation rate (grate) o phd sono correlate positivamente ai test ST e T e a p0, p5 ma il valore delle correlazioni non è particolarmente elevato (attorno a 0.5). 3. La selettività del reclutamento (appratio, eratio) è appare maggiore per le istituzioni posizionate su valori alti dei test ST e T, ma il valore assoluto della correlazione è attorno a L analisi delle relazioni tra l ammontare delle rette (intui, outtui), i test ST e T e p0, p5, come pure il rapporto tra studenti e docenti (sfratio) e il graduation rate suggerisce una tendenza a chiedere rette maggiori da parte delle università con miglior posizionamento nei test e migliori risultati. Tuttavia anche in questo caso i valori delle correlazioni non sono particolarmente elevati. titolo di esempio mostriamo il diagramma di dispersione di intui e satm, per le università con dati completi sulle due variabili uni$intui uni$satm Figura : iagramma di dispersione di intui e satm (nero/rosso: università pubbliche/private;,,, : classi dimensionali). La forte correlazione dei punteggi ST e T suggerisce una soluzione del problema dei dati mancanti. d esempio, i dati mancanti di T possono essere stimati come previsioni ricavate da modelli di regressione lineare aventi i punteggi ST (satm, satv), e magari anche p0, p5, come variabili esplicative.

6 3 OMPONENTI PRINIPLI 6 > act_pre <- lm(y$act ~ y$satm + y$satv) > summary(act_pre) all: lm(formula = y$act ~ y$satm + y$satv) Residuals: Min Q Median 3Q Max oefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-06 *** y$satm e- *** y$satv e-08 *** --- Signif. codes: 0 *** 0.00 ** 0.0 * Residual standard error: on 0 degrees of freedom Multiple R-squared: , djusted R-squared: F-statistic: 65 on and 0 F, p-value: <.e-6 Le stime di T per la Princeton e la olumbia University ricavate dal modello di regressione lineare sono rispettivamente uguali a 30.4 e 9.3, valori altissimi ma coerenti col posizionamento di queste università. 3 omponenti principali L analisi delle componenti principali ci consente di visualizzare il posizionamento delle università nello spazio multivariato e di valutare il ruolo delle variabili di stratificazione pub, size. > pc <- princomp(y[, -(:4)], cor=true) > summary(pc) Importance of components: omp. omp. omp.3 omp.4 omp.5 Standard deviation Proportion of Variance umulative Proportion omp.6 omp.7 omp.8 omp.9 omp.0 Standard deviation Proportion of Variance umulative Proportion omp. omp. omp.3 omp.4 omp.5 Standard deviation Proportion of Variance umulative Proportion omp.6 omp.7 omp.8 Standard deviation Proportion of Variance umulative Proportion > round(cor(y[, -(:4)], pc$scores[, :4]), )

7 4 NLISI I RGGRUPPMENTO 7 omp. omp. omp.3 omp.4 satm satv act appratio eratio p p fratio intui outtui room board fee book inc phd sfratio grate Riassumiamo di seguito i risultati più importanti, anche con riferimento al diagramma di dispersione delle prime due componenti della Figura. Questa figura andrebbe confrontata con la Figura.. L analisi è eseguita sui dati pre-standardizzati, scelta obbligata vista l eterogeneità delle scale di misura. Inoltre si considera il sottoinsieme delle università con dati completi su tutte le variabili.. La percentuale della varianza totale spiegata dalle prime due componenti è di poco superiore a 50%, un valore certamente non elevato. Occorre considerare le prime quattro componenti per avere autovalori maggiori di uno o le prime cinque per superare il 70% della varianza spiegata. 3. Sulla base delle correlazioni con le variabili osservate, la prima componente ordina le università tra due poli contrapposti. Sul polo negativo troviamo università ben posizionate nei test, selettive nel reclutamento e costose. Sul polo positivo, al contrario, troviamo università con posizionamento basso nei testo, meno selettive nel reclutamento e relativamente meno costose. 4. La seconda componente è correlata positivamente con le variabili che misurano il costo (intui, outtui, room, board). 5. La natura pubblica/privata ha implicazioni importanti. Le università pubbliche sono concentrate nel quarto quadrante e quindi mediamente hanno posizionamento non ottimale nei test e sono relativamente meno costose. l contrario, sul polo negativo della prima componente troviamo quasi esclusivamente università private. 6. Meno definito il ruolo della dimensione anche se si può notare che la maggior parte delle università di classe dimensionale o si trovano nel primo quadrante, quindi tendenzialmente avranno punteggio nei test meno buono, saranno meno selettive e più costose. 4 nalisi di raggruppamento ttraverso questa analisi cerchiamo conferme agli spunti emersi dall P. ominciamo con i metodi di raggruppamento gerarchico.

8 4 NLISI I RGGRUPPMENTO omp. omp. Figura : iagramma di dispersione delle prime due componenti principali (simboli e colori come in Figura ). > d <- dist(scale(y[, -(:4)]), method= euclidean ) > hc_ave <- hclust(d, method= average ) > hc_w <- hclust(d, method= ward. ) > cor(d, cophenetic(hc_ave)) [] > cor(d, cophenetic(hc_w)) [] In base alla correlazione cofenetica appare migliore la struttura di gruppo stimata col metodo del legame medio rispetto a quella stimata col metodo di Ward. Tuttavia i dendrogrammi che descrivono le due strutture non sono di immediata interpretazione e pertanto non vengono qui considerati. È la partizione stimata col metodo delle k medie che appare interessante. Sulla base della statistica di alinski-harabasz, il valore ottimale di k è pari a due. La composizione dei due gruppi viene determinata col ben noto algoritmo delle k medie. > kopt <- > km <- kmeans(scale(y[, -(:4)]), centers=kopt, nstart=50) > # oordinate dei centri > km$centers

9 4 NLISI I RGGRUPPMENTO 9 satm satv act appratio eratio p0 p fratio intui outtui room board fee book inc phd sfratio grate > # onfronto con le variabili di stratificazione > table(km$cluster, y$pub) > table(km$cluster, y$size) Presentiamo di seguito i punti principali.. ome nell P, consideriamo dati standardizzati. La partizione stimata con k medie è di facile interpretazione. Il primo gruppo (vedi coordinate dei centri) comprende le università con ottimo posizionamento nei test, selettive nel reclutamento, con alti valori di graduation rate e relativamente più costose. 3. Il confronto con la natura pubblica o privata mostra che nel gruppo ci sono quasi esclusivamente universit à private. 4. Il confronto con la classe dimensionale mostra che nel gruppo sono ben rappresentate tutte le classi, eccetto la prima, comprendente il 5% delle universit à più piccole in termini di numero di iscritti. 5. è un rapporto stretto, e dunque una conferma dei risultati dell P. Il gruppo occupa quasi completamente il secondo ed il terzo quadrante del diagramma di dispersione delle prime due componenti (vedi Figura 3).

10 4 NLISI I RGGRUPPMENTO omp. omp. Figura 3: iagramma di dispersione delle prime due componenti principali e gruppi stimati col metodo delle k medie (simboli e colori come in Figura ; : gruppo, : gruppo ).