Introduzione a STATA. Silvia Sartorelli. Dipartimento di Scienze Statistiche Università di Padova



Documenti analoghi
EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

On-line Corsi d Informatica sul web

. A primi passi con microsoft a.ccepss SommarIo: i S 1. aprire e chiudere microsoft access Start (o avvio) l i b tutti i pro- grammi

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

A destra è delimitata dalla barra di scorrimento verticale, mentre in basso troviamo una riga complessa.

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard

CREAZIONE DI UN DATABASE E DI TABELLE IN ACCESS

Strumenti informatici Realizzare grafici e tabelle con Excel e SPSS

Le query. Lezione 6 a cura di Maria Novella Mosciatti

STAMPA UNIONE DI WORD

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

Uso di base delle funzioni in Microsoft Excel

MODULO 4: FOGLIO ELETTRONICO (EXCEL)

APRIRE UN PROGRAMMA DI FOGLIO ELETTRONICO

Gestione Rapporti (Calcolo Aree)

WORD per WINDOWS95. Un word processor e` come una macchina da scrivere ma. con molte più funzioni. Il testo viene battuto sulla tastiera

IMPORTAZIONE DI GRAFICI E TABELLE DA EXCEL A WORD

Microsoft Excel. Il foglio elettronico Microsoft Excel Cartelle, Fogli di lavoro e celle Contenuto delle celle. Numeri, date, formule, testo, funzioni

Il sofware è inoltre completato da una funzione di calendario che consente di impostare in modo semplice ed intuitivo i vari appuntamenti.

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

NUOVA PROCEDURA COPIA ED INCOLLA PER L INSERIMENTO DELLE CLASSIFICHE NEL SISTEMA INFORMATICO KSPORT.

per immagini guida avanzata Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel

Manuale di istruzioni sulle maschere per il calcolo del punteggio e del voto (unico) degli studenti che sostengono la Prova nazionale 2011

Aprire, preparare un documento da utilizzare come documento principale per una stampa unione.

On-line Corsi d Informatica sul Web

USO DI EXCEL CLASSE PRIMAI

Figura 1 Le Icone dei file di Excel con e senza macro.

CERTIFICATI DIGITALI. Manuale Utente

Cosa è un foglio elettronico

Prof.ssa Paola Vicard

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

MANUALE PARCELLA FACILE PLUS INDICE

per immagini guida avanzata Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel

lo PERSONALIZZARE LA FINESTRA DI WORD 2000

5-1 FILE: CREAZIONE NUOVO DOCUMENTO

Database 1 biblioteca universitaria. Testo del quesito

Come costruire una distribuzione di frequenze per caratteri quantitativi continui

Capitolo 7 Guida operativa del programma TQ Controlla

Access. Microsoft Access. Aprire Access. Aprire Access. Aprire un database. Creare un nuovo database

Istruzioni per installare EpiData e i files dati ad uso di NetAudit

Guida all uso di Java Diagrammi ER

LUdeS Informatica 2 EXCEL. Seconda parte AA 2013/2014

Capitolo 3. L applicazione Java Diagrammi ER. 3.1 La finestra iniziale, il menu e la barra pulsanti

Per effettuare la stampa di una cartella di lavoro si accede al comando. Stampa dal menu File o si utilizza il pulsante omonimo sulla barra

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Esame di Informatica CHE COS È UN FOGLIO ELETTRONICO CHE COS È UN FOGLIO ELETTRONICO CHE COS È UN FOGLIO ELETTRONICO. Facoltà di Scienze Motorie

Modulo. Programmiamo in Pascal. Unità didattiche COSA IMPAREREMO...

Appunti di: MICROSOFT EXCEL

Volume GESTFLORA. Gestione aziende agricole e floricole. Guidaall uso del software

L ACQUISIZIONE E LA GESTIONE DEI DOCUMENTI ELETTRONICI

Monitor Orientamento. Manuale Utente

Fogli Elettronici: MS Excel

Istruzioni per l installazione del software per gli esami ICoNExam (Aggiornate al 15/01/2014)

GESGOLF SMS ONLINE. Manuale per l utente

MANUALE UTENTE Fiscali Free

CONTROLLO ORTOGRAFICO E GRAMMATICALE

Assegnazione dei centri di costo ai numeri di riferimento delle fatture e ai numeri di licenza di affrancatura Guida al servizio online «Gestore di

EXCEL ESERCIZIO DELLE SETTIMANE

UTILIZZO DEL MODULO DATA ENTRY PER L IMPORTAZIONE DEI DOCUMENTI (CICLO PASSIVO)

Word è un elaboratore di testi in grado di combinare il testo con immagini, fogli di lavoro e

Introduzione. Macro macro istruzione. Sequenza di comandi memorizzati programma

Esercizio data base "Biblioteca"

MANUALE PER CONSULTARE LA RASSEGNA STAMPA VIA WEB

L analisi dei dati. Capitolo Il foglio elettronico

Database Manager Guida utente DMAN-IT-01/09/10

Potenzialità statistiche Excel

Automatizzare i compiti ripetitivi. I file batch. File batch (1) File batch (2) Visualizzazione (2) Visualizzazione

Introduzione. Installare EMAS Logo Generator

L archiviazione della posta elettronica può aiutarci a recuperare spazio senza costringerci a cestinare documenti importanti

Che cos'è un modulo? pulsanti di opzione caselle di controllo caselle di riepilogo

1. Le macro in Access 2000/2003

Identificare le diverse parti di una finestra: barra del titolo, barra dei menu, barra degli strumenti, barra di stato, barra di scorrimento.

Veneto Lavoro via Ca' Marcello 67/b, Venezia-Mestre tel.: 041/

Cos è ACCESS? E un programma di gestione di database (DBMS) Access offre: un ambiente user frendly da usare (ambiente grafico)

Progetto PON C1-FSE : APPRENDERE DIGITANDO SECONDARIA VERIFICA INTERMEDIA CORSISTA NOME E COGNOME:

Questa guida è realizzata per spiegarvi e semplificarvi l utilizzo del nostro nuovo sito E Commerce dedicato ad Alternatori e Motorini di avviamento.

5.3 TABELLE RECORD Inserire, eliminare record in una tabella Aggiungere record Eliminare record

Stampa Unione per lettere tipo

ACCESSO AL SISTEMA HELIOS...

COLLI. Gestione dei Colli di Spedizione. Release 5.20 Manuale Operativo

Introduzione al Foglio Elettronico

Capitolo 9. Figura 104. Tabella grafico. Si evidenzia l intera tabella A1-D4 e dal menù Inserisci si seleziona Grafico. Si apre la seguente finestra:

5.2 UTILIZZO DELL APPLICAZIONE

Modulo 3 - Elaborazione Testi 3.6 Preparazione stampa

CREAZIONE DI UN AZIENDA

per immagini guida avanzata Stampare i fogli di lavoro di Excel Geometra Luigi Amato Guida Avanzata per immagini excel

ATOLLO BACKUP GUIDA INSTALLAZIONE E CONFIGURAZIONE

Guida Software GestioneSpiaggia.it

Come costruire una presentazione. PowerPoint 1. ! PowerPoint permette la realizzazione di presentazioni video ipertestuali, animate e multimediali

MANUALE PER L UTILIZZO DELLA FUNZIONE EVENTI Rel.1.2 del 29 gennaio 2004

SW Legge 28/98 Sommario

Gestione delle informazioni necessarie all attività di validazione degli studi di settore. Trasmissione degli esempi da valutare.

Inserimento dei dati

ISTRUZIONI SULLE OPERAZIONI DI CAMBIO ANNO CONTABILE 2005/2006 LIQUIDAZIONE IVA - STAMPA REGISTRI - CHIUSURA/APERTURA CONTI

MS Word per la TESI. Barra degli strumenti. Rientri. Formattare un paragrafo. Cos è? Barra degli strumenti

WORD (livello avanzato): Struttura di un Documento Complesso. Struttura di un Documento Complesso

GUIDA UTENTE PRIMA NOTA SEMPLICE

I file di dati. Unità didattica D1 1

Transcript:

Introduzione a STATA Silvia Sartorelli Dipartimento di Scienze Statistiche Università di Padova Indice 1 Struttura e sintassi 3 1.1 Introduzione.............................. 3 1.2 Indicazioni tipografiche........................ 3 1.3 Alcuni elementi fondamentali.................... 3 1.4 Il linguaggio.............................. 5 1.5 File di do e di log.......................... 6 2 Acquisizione dei dati 8 2.1 use................................... 8 2.2 insheet................................ 8 2.3 infile................................. 9 2.4 infix................................. 10 2.5 save.................................. 10 2.6 Utili comandi di controllo...................... 10 3 Manipolazione dei dati 12 3.1 encode e decode........................... 12 3.2 generate............................... 12 3.3 recode................................. 14 3.4 Variabili di tipo data......................... 14 3.5 keep, drop e rename......................... 15 3.6 sort.................................. 16 3.7 append e merge............................ 16 4 I grafici 18 4.1 Esportazione dei grafici........................ 19 5 Alcuni comandi di base 21 5.1 Indicatori univariati.......................... 21 5.2 Tabelle................................. 21

5.3 Matrici di correlazione........................ 22 5.4 Regressione lineare.......................... 22 6 L interfaccia grafica 24 7 Breve sommario di comandi 27 7.1 Operatori logici ed aritmetici..................... 27 7.2 Tabelle riassuntive.......................... 28 7.2.1 acquisizione e salvataggio di dataset............. 28 7.2.2 manipolazione dei dati.................... 29 7.2.3 procedure descrittive..................... 30 7.2.4 help.............................. 31 Prefazione Lo scopo di questo quaderno è quello di avviare studenti e tesisti all uso del pacchetto statistico STATA. Si tratta di un testo introduttivo che non pretende di sostituire manuali o altri testi più articolati, ma nasce con lo scopo di mettere l utente in grado di cogliere le caratteristiche fondamentali del programma per proseguire autonomamente l approfondimento delle procedure che gli saranno necessarie per lo svolgimento del proprio lavoro. Spunto ed aiuto per il presente lavoro è stata l analoga Introduction to Stata di Jeroen Weesie dell Università di Utrecht. Ringrazio tutti quelli che mi hanno già aiutato e quelli che lo faranno in futuro con utili suggerimenti. Padova, lì 15 novembre 2006 Silvia Sartorelli Questa opera viene rilasciata sotto la licenza Creative Commons: Attribuzione - Non commerciale - Condividi allo stesso modo 2.5 Italia. Il fruitore è libero di riprodurre, distribuire, comunicare al pubblico, esporre in pubblico, rappresentare, eseguire e recitare quest opera e di modificare quest opera. Alle seguenti condizioni: deve attribuire la paternità dell opera nei modi indicati dall autore o da chi ha dato l opera in licenza; non si può usare quest opera per fini commerciali; se si altera o trasforma quest opera, o se la si usa per crearne un altra, si può distribuire l opera risultante solo con una licenza identica a questa. Ogni volta che si usa o si distribuisce quest opera, si deve farlo secondo i termini di questa licenza, che va comunicata con chiarezza. In ogni caso, si può concordare col titolare dei diritti d autore utilizzi di quest opera non consentiti da questa licenza. Nothing in this license impairs or restricts the author s moral rights. 2

1 Struttura e sintassi 1.1 Introduzione STATA è un moderno e ricco programma per un amplissimo panorama di analisi statistiche, la creazione di grafici e la manipolazione di dati. Nasce per l utilizzo a linea comando ma le ultime versioni offrono anche la possibilità di eseguire un analisi completa, dall acquisizione dei dati all esportazione dei risultati, attraverso menù e finestre di dialogo. In questa dispensa si descriveranno brevemente le principali funzioni via linea comando, quindi si presenteranno anche le caratteristiche dell interfaccia grafica. La versione di riferimento è STATA/SE 9.2. 1.2 Indicazioni tipografiche I comandi, gli operatori e le variabili di sistema saranno scritti con carattere tipografico; i nomi generici di file e variabili e in generale laddove un espressione sostituisce qualcosa che andrà inserito dall utente sarà scritto in italico. Infine, le linee di comando negli esempi di sintassi saranno isolate dal testo e precedute da un punto 1. Ad esempio:. comando file / variabile 1.3 Alcuni elementi fondamentali Interfaccia All avvio STATA apre 4 finestre principali: Command, Results, Review e Variables (come si vede nella figura 1). I comandi vengono inseriti tramite tastiera nella finestra denominata Command e mandati in esecuzione con il tasto Invio ; tutti i comandi vengono memorizzati in un buffer di memoria, visibile nella finestra denominata Review e da cui possono essere richiamati (cliccando col mouse direttamente sul singolo comando oppure dalla finestra Command uno alla volta in ordine inverso con PagUp e PagDown ) per essere mandati in esecuzione di nuovo. Informazioni sulla sessione di lavoro, i risultati dei comandi, compresa la segnalazione di eventuali errori, vengono visualizzati nella finestra denominata Results. Nella finestra Variables comparirà la lista delle variabili contenute nel dataset attivo. Interruzioni Si possono interrompere processi avviati (liste troppo lunghe, elaborazioni che richiedono troppo tempo) con la combinazione di tasti Ctrl + Break 2. 1 Il punto non fa parte della sintassi ma è in analogia a quanto compare nella finestra Results man mano che si procede con una sessione di lavoro 2 Ctrl + Pausa/Interr sulle tastiere italiane 3

Figura 1: Interfaccia di STATA all avvio Se invece si vuole semplicemente omettere la visualizzazione di un output, basta premettere quietly al comando in questione. Chiudere STATA Per chiudere una sessione di lavoro il comando è exit ma STATA non permette di chiudere se prima non si sono salvati i dati che presumibilmente sono stati modificati. Per uscire senza essere costretti a salvare, il comando è:. exit, clear Identificatori Un identificatore, ossia il nome di un comando o di una variabile, può essere al massimo di 32 caratteri (caratteri, numeri e l underscore) in cui il primo elemento è preferibilmente un carattere. STATA è case-sensitive, ossia distingue tra maiuscole e minuscole (var1 è diverso da Var1). Quasi tutti i comandi di STATA sono in minuscolo. Abbreviazioni In generale, in STATA si possono usare abbreviazioni di comandi e variabili fintanto che non si creino ambiguità su ciò a cui ci si riferisce. Log-files È possibile memorizzare tutti i comandi inviati ed il relativo output in un file di testo esterno. 4

Do-files È possibile predisporre dei file che contengono una sequenza di comandi e mandarli in esecuzione in modo da risparmiarsene la digitazione. Questo è utile quando è necessario usare ripetutamente la stessa sequenza di comandi. Dataset attivo In STATA si lavora con un dataset alla volta; quello attivo è quello che viene esplicitamente caricato o acquisito e le cui variabili compaiono nella finestra Variables. Se si deve lavorare con altri file è necessario prima ripulire la memoria con il comando clear (eventualmente dopo aver salvato). Working directory STATA considera come propria directory di lavoro predefinita quella che viene riportata sulla barra di stato (l ultima barra ai piedi della finestra). Si può scegliere la propria working directory inserendone il percorso completo nelle proprietà del collegamento con cui si lancia il programma, in modo che si apra automaticamente dove si desidera e si può comunque modificarla in qualunque momento successivo della sessione di lavoro con il comando cd. 1.4 Il linguaggio Con poche eccezioni, la sintassi base del linguaggio di STATA è:. [by varlist:]command [varlist][=exp][if exp][in range][weight][,options] dove le parentesi quadre denotano componenti opzionali. In questo schema, varlist indica una lista di nomi di variabili, command indica un comando, exp indica un espressione algebrica, range indica un intervallo di osservazioni, weight indica un espressione per attribuire un peso alle osservazioni e options indica una lista di opzioni. varlist : la maggior parte dei comandi che accettano una lista di variabili non necessitano che questa sia esplicitmante indicata. Se non appare alcuna lista, tali comandi assumono che la lista sia all, che è un abbreviazione per indicare tutte le variabili del dataset caricato. Per i comandi che alterano o distruggono dati, STATA richiede che la lista di variabili sia esplicitamente indicata by varlist: : questo prefisso fa in modo che STATA ripeta il comando specificato per ogni sottoinsieme individuato dalle modalità della/e variabile/i indicata/e. I dati devono essere già ordinati secondo tale/i variabile/i if exp : si restringe l esecuzione di un comando a quelle osservazioni per le quali il valore dell espressione specificata è vera in range : si restringe l esecuzione del comando ad uno specifico intervallo di osservazioni. La specificazione dell intervallo ha la seguente forma: #1[/#2], dove #1 e #2 sono numeri che indicano la prima e l ultima osservazione coinvolte 5

=exp : specifica il valore che deve venir assegnato ad una variabile ed è usata principalmente con i comandi generate e replace weight : indica il peso da assegnare a ciascuna osservazione. La sintassi è: [weightword=exp], dove le parentesi quadre vanno scritte e con weightword si intende uno dei possibili tipi di peso specificabili options : molti comandi prevedono delle proprie specifiche opzioni, queste si indicano di seguito ad una virgola alla fine del comando 1.5 File di do e di log Quelli che vengono chiamati i file di do e di log sono molto utili nell utilizzo di STATA. I file di log mantengono traccia di ciò che si è richiesto ed i relativi risultati durante una sessione di lavoro. I file do sono utili quando si devono ripetere lunghe serie di comandi e/o si devono ripetere le stesse analisi su nuovi o modificati dataset. La sintassi per la creazione di un file di log è:. log using nomedelfiledilog dove con nomedelfiledilog si indica il nome che si è scelto per il file di log. È utile scegliere nomi che rievochino il contenuto della sessione di lavoro memorizzata; STATA vi associerà automaticamente l estensione.smcl. Se si indica un nome semplice questo verrà memorizzato nella working directory, se si desidera salvarlo altrove, bisognerà indicare un nome completo di percorso, racchiuso tra virgolette. Di default verrà memorizzato in tale file tutto ciò che compare nella finestra dei risultati; se si desidera quindi ricordare solo alcune cose possiamo interrompere e far riprendere la memorizzazione più tardi:. log close per poi riaprirlo e aggiungere informazioni o rimpiazzarle.. log using nomedelfiledilog, append. log using nomedelfiledilog, replace C è la possibilità di inserire commenti semplicemente facendo precedere qualsiasi cosa si scriva nella finestra Command dal segno *. Quello che invece viene chiamato un do-file è un insieme di comandi nella forma e nell ordine che si sarebbero usati in una sessione di lavoro, memorizzato in righe successive di un file di testo. Qualsiasi comando di STATA può far parte di un do-file. Trattandosi di un normale file di testo può essere scritto con un qualsiasi editor, l importante è che venga memorizzato con un comando per riga, in quanto 6

il tasto di Invio per STATA ha il significato di mandare in esecuzione il comando in oggetto. Se i comandi sono troppo lunghi e devono stare su più righe si può momentaneamente sostituire il delimitatore tra i comandi con un carattere a nostra scelta che va dichiarato prima di essere utilizzato; nel seguente esempio si immagina di sostituire l Invio con il punto e virgola:. #delimit ;. use filedidati ;. gen newvar;. save filedidatimodificati ;. #delimit cr. clear Si noti che il comando #delimit è valido solo nei do-file e che i punti non fanno parte della sintassi. 7

2 Acquisizione dei dati Ci sono tre comandi fondamentali per l acquisizione di dati in STATA. use : è per il caricamento di dati che sono già in formato STATA insheet : è per fogli elettronici salvati come.csv o tab-delimited da programmi come excel infile : è per i dati grezzi, detti in formato piatto, memorizzati in ASCII ma né.csv né tab-delimited 2.1 use Il comando use legge dati già memorizzati in formato STATA e quindi con estensione.dta. La sintassi è:. use nomecompletodelfile.dta Attenzione che è necessario utilizzare le virgolette e non singoli apici. Se invece il file si trova nella working directory allora è sufficiente richiamarlo col suo nome, senza estensione e senza usare le virgolette. 2.2 insheet Il comando insheet è molto utile per leggere dati salvati come.csv o tabdelimited da un foglio elettronico, ossia quando il delimitatore tra i campi è una virgola o una tabulazione. È necessario, però, rispettare alcuni accorgimenti: la prima riga del file deve essere costituita dai nomi delle variabili, che devono essere al massimo di 32 caratteri e non iniziare per numero o un carattere speciale; sulla seconda riga deve esserci la prima osservazione nel foglio elettronico i dati mancanti devono essere memorizzati come cella vuota, non sostituiti da spazi, punti o altri caratteri non numerici; 9 o 99 possono andare bene, a meno che non si confondano con possibili valori validi della variabile virgole nei numeri o nelle stringhe possono creare problemi perché STATA li confonde con delimitatori dei valori, oppure variabili numeriche possono essere considerate di tipo carattere; bisogna risolvere questo problema nel foglio elettronico, prima di procedere al salvataggio il file originale deve essere esplicitamente salvato (da excel, p.e.) come Tab-delimited o Comma separated values 8

il delimitatore tra i campi deve essere una virgola o una tabulazione e non lo spazio; da excel è possibile salvare i file con estensione.csv e scegliere un delimitatore diverso (p.e. il punto e virgola), in questi casi insheet non funzionerà correttamente a meno di non usare l opzione delimiter e indicare il carattere che effettivamente separa i campi non devono esserci celle vuote alla fine delle righe perché potrebbe essere memorizzato un numero sbagliato di valori La sintassi per l acquisizione di file.csv o tab-delimited è:. insheet using nomecompletodelfile Se il delimitatore è diverso da tabulazione e virgola, ed è, ad esempio, un punto e virgola bisogna aggiungere l opportuna opzione:. insheet using nomecompletodelfile, delimiter( ; ) 2.3 infile Con questo comando si acquisiscono dati memorizzati in file ASCII che soddisfano le seguenti caratteristiche: il file non deve avere i nomi delle variabili sulla prima riga i valori delle variabili di tipo carattere che contengono spazi al loro interno devono essere racchiusi tra virgolette i numeri possono presentare segni meno e virgole ma non i segni di dollaro e percentuale il comando suppone che i campi siano separati da spazi e che i dati mancanti siano sostituiti da qualche carattere (p.e. un punto) in fase di acquisizione si possono saltare alcune variabili (comando skip) e/o condizionare il caricamento a certi valori La sintassi è:. infile varlist using nomecompletodelfile dove con varlist si intende l elenco delle variabili con i nomi che saranno utilizzati all interno di STATA. Se una variabile è di tipo carattere bisogna far precedere il nome della variabile con str#, dove # è un numero che indica la dimensione della variabile carattere. Si utilizza infile anche quando le osservazioni sono memorizzate su più righe o, in via più generale, quando abbiamo bisogno di acquisire dati che sono 9

stati memorizzati in formati particolari ma allora è più facile, se non addirittura necessario, usare un dictionary file. Sostanzialmente un dictionary file è un file di testo con estensione.dct che contiene tutte le informazioni necessarie e le precise specificazioni su quale sia il file da acquisire, come sono collocate le variabili (tracciato record) e come andranno chiamate. La sintassi è 3 :. infile using dictionary-file 2.4 infix Con questo comando si acquisiscono dati che sono stati memorizzati in file ASCII in formato fisso. Oltre al nome del file è necessario specificarne la struttura, ossia scegliere i nomi delle variabili e indicarne la posizione sulla riga. La sintassi è:. infix specifiche using nomecompletodelfile 2.5 save Una volta acquisiti ed eventualmente modificati i dati è probabile che si desideri salvarli e nel formato di STATA, in modo da averli prontamente disponibili in sessioni di lavoro successive. La sintassi per salvare i dati in formato STATA è:. save nomecompletodelfile.dta, replace L opzione replace è necessaria per aggiornare (e sovrascrivere) una eventuale copia già esistente del file di dati in questione. Anche in questo caso, se si desidera salvare nella working directory sarà sufficiente specificare un nome dopo save senza virgolette e senza estensione. 2.6 Utili comandi di controllo Una volta acquisiti i dati possiamo vederli e controllare il formato delle variabili. Il comando:. describe che si può abbreviare semplicemente con la lettera d, fornisce tutte le informazioni basilari che riguardano il file e le variabili in esso contenute. Se si desidera conoscere le caratteristiche di un file che si è già memorizzato in formato.dta, ma non caricato, cosa che può essere utile nel caso si abbia a che fare con file molto grandi, allora la sintassi è: 3 Si rimanda al manuale per ulteriori dettagli 10

. describe using nomecompletodelfile.dta Nel caso si abbia bisogno di una maggiore quantità di memoria rispetto a quella allocata di default, è possibile modificarne i parametri per la corrente sessione di lavoro, in particolare se si riceve da STATA il seguente messaggio:. no room to add more observations Il comando, per allocare, ad esempio, 12 megabyte è:. set memory 12m Se invece si desidera semplicemente dare un occhiata ai dati appena acquisiti, senza modificarli, senza compiere alcuna analisi e senza ulteriori caratteristiche, il comando è:. list varlist in cui, omettendo varlist, si ottiene la lista dell intero dataset. Infine un comando molto utile è:. edit Con tale comando viene evocata una finestra grafica simile ad un foglio elettronico che conterrà i dati del dataset attivo. Le colonne rappresentano le variabili e le righe le unità statistiche. Ci si può spostare tra le celle utilizzando il mouse o le frecce. Si possono passare dati da un foglio elettronico all altro con le comuni funzionalità di selezione, copia ed incolla. Vi si possono immmettere e modificare dati. È possibile modificare le caratteristiche delle variabili evocando, con un doppio clic sulla colonna corrispondente, la finestra di dialogo Variable Proprieties. L editor ha sette bottoni: Preserve per memorizzare i cambiamenti se i dati sono stati modificati Restore STATA fa automaticamente un backup dei dati nel momento in cui si avvia l editor. Questa funzione recupera la copia di backup se si desidera cancellare le modifiche effettuate Sort ordina le osservazioni in modo crescente secondo la variabile selezionata << sposta la variabile selezionata in prima posizione >> sposta la variabile selezionata in ultima posizione Hide nasconde la variabile selezionata Delete evoca una finestra di dialogo che permette di scegliere se cancellare la variabile selezionata, l osservazione selezionata o tutte le osservazioni che presentano lo stesso valore di quell osservazione per la variabile selezionata 11

3 Manipolazione dei dati STATA può memorizzare i dati in formato carattere o numerico e permette di compiere la maggior parte delle analisi solo sulle variabili numeriche. Può succedere che acquisendo i dati con insheet o infile una variabile venga letta come carattere o stringa seppure sia un numero, per esempio se ci sono spazi o punti dove non dovrebbero essercene. Per utilizzarle nelle analisi è necessario riconvertirle in numeriche. In generale, comunque, è frequente che le variabili non siano già nel formato più utile all analisi e che quindi si renda necessario qualche manipolazione, aggiustamento o ricodifica. Per avere uno schema sintetico della natura e della distribuzione di una variabile, è utile il comando:. codebook listavariabili 3.1 encode e decode Il comando encode va usato quando la variabile originale è in effetti una variabile carattere (p.e. il sesso codificato m e f ) ma è necessaria una codifica numerica. Questo comando non produce variabili dummy ma assegna un numero a ciascun gruppo identificato dalla variabile carattere. Nell esempio che segue la variabile originale (supponiamo di nome gender), sarà ricodificata in una nuova variabile di tipo numerico di nome sex in cui al posto dei caratteri m e f si troveranno i numeri 1 e 2.. encode gender, generate(sex) L opzione generate(nuovavar1) è necessaria. Il comando decode, al contrario, crea una nuova variabile di tipo carattere (nuovavar2) basata sulla variabile numerica nomevar e sulle etichette attribuite ai suoi valori.. decode nomevar, generate(nuovavar2) 3.2 generate Il comando generate permette di creare una nuova variabile che sia il risultato di una funzione e/o una trasformazione algebrica di altre variabili; la sintassi è:. generate nuovavar=exp dove con exp si intende un espressione algebrica che può essere combinazione di variabili esistenti, operatori e funzioni. Se si vuole sostituire completamente una variabile esistente il comando è: 12

. replace vecchiavar=exp Si noti che: il nome scelto per la nuova variabile non deve essere il nome di una variabile già esistente (a meno che non si stia usando replace) le espressioni di trasformazione possono essere molto complesse, basta che siano combinazioni di variabili esistenti e di funzioni e operatori validi il calcolo che comprenda un dato mancante porta ad ottenere un dato mancante, come pure la divisione per 0 se vengono generati dati mancanti allora questa evenienza sarà riportata nell output; la mancanza di tale informazione implica che non sono stati generati dati mancanti se si sta creando una nuova variabile di tipo carattere, la stringa va racchiusa tra virgolette e la dimensione della nuova variabile sarà quella della stringa assegnata generate può essere abbreviato ma non replace, questo perché STATA cerca di evitare che i dati esistenti vengano alterati accidentalmente Spesso i nuovi valori che una variabile assume dipendono dai valori di altre variabili; per condizionare l assegnazione dei nuovi valori a quelli delle variabili esistenti si usa il comando if; la sintassi sarà la seguente:. generate nuovavar = exp if condizione dove la condizione è un espressione che deve essere verificata perché l assegnazione vada a buon fine. Le espressioni di condizionamento possono essere molto complicate, valgono gli operatori logici e if può essere usato in combinazione con in 4. In STATA è particolarmente agevole la creazione di variabili dummy:. tab variabile1, gen(vardummy) con questa sintassi verranno create tante variabili dummy quanti sono i livelli della variabile1 e i nomi saranno vardummy1, vardummy2, etc. Se si è interessati a creare un unica dummy che assuma valore 1 per un determinato livello e 0 per tutti gli altri allora la sintassi è diversa:. gen nuovadummy = (vecchiavar==livellodiinteresse) 4 in è il comando per la selezione di sottoinsiemi di osservazioni 13

3.3 recode Quando si ha necessità di ricodificare una variabile il comando è recode; la sintassi è:. recode nomevar regola1 [regola2]... dove con regola1, etc si intende il criterio di ricodifica dei valori. Ad esempio si supponga di voler ricodificare una variabile ordinale (varordinale) con 9 classi (numeri da 1 a 9) in una con sole tre classi (numeri da 1 a 3):. recode varordinale 1 2 3=1 4 5 6=2 *=3 in questo caso si otterrà che i valori della varordinale 1, 2 e 3 verranno ricodificati (e rimpiazzati!) con il numero 1, i valori 4, 5 e 6 con il numero 2 ed i restanti valori con il numero 3. Si noti che il range poteva anche essere scritto utilizzando la barra (p.e. 1/3 che in STATA significa da 1 a 3 ) e min e max per indicare gli estremi degli intervalli. Se non si intende perdere i valori della variabile originaria e memorizzare il risultato della ricodifica in una nuova variabile bisogna utilizzare l opzione generate(newvar). Si supponga di avere una variabile (punteggio) che assume i valori dall 1 al 150 e di volerli ricodificare in una variabile classe con tre livelli (da 1 a 50, da 51 a 100 e da 101 a 150):. recode punteggio min/50=1 51/100=2 101/max=3, gen(classe) 3.4 Variabili di tipo data Un discorso a parte meritano le variabili che contengono date. STATA memorizza le date come numero di giorni passati dal 1 gennaio 1960. Ci sono due modi per creare variabili di questo tipo a seconda di come sono memorizzate le variabili originali. Nel caso si abbiano variabili separate per giorno, mese e anno allora si può usare la funzione mdy() per creare la variabile data (nel senso di tempo trascorso dal 1 gennaio 1960); giorno, mese e anno devono essere numeriche e la sintassi è:. generate variabiledata1 = mdy(varmese,vargiorno,varanno) naturalmente i nomi delle variabili che contengono le informazioni su giorno, mese e anno non sono importanti mentre è fondamentale l ordine in cui vanno richiamate nella funzione; attenzione inoltre che l anno deve essere memorizzato con 4 cifre. Se invece il dataset originale contiene una data memorizzata come stringa, allora si usa la funzione date(). Si supponga di avere una variabile di tipo stringa di nome vecchiadata e di volere la corrispondente come tempo trascorso dal 1 gennaio 1960; la sintassi è: 14

. generate nuovadata = date(vecchiadata, mdy ) dove mdy indica il formato per leggere correttamente la data, quindi va rispettato l ordine in cui giorno (d), mese (m) e anno (y) si presentano nella variabile originale e le virgolette fanno parte della sintassi. Infine si può usare il comando format per far visualizzare come date di calendario le date memorizzate come tempo trascorso dal 1 gennaio 1960:. format variabiledata %formato un esempio di formato di data è %d, per cui la data 31 agosto 1976, che corrisponde al valore in una variabile di tipo data 6087 viene poi visualizzata come 31aug1976. Per tutti gli altri formati possibili si veda il manuale. Per lavorare con le date STATA propone anche altre utili funzioni; quindi avendo come argomento una variabile di tipo data: day() restituisce il numero del giorno del mese month() resituisce un numero da 1 a 12 year() restituisce l anno dow() restituisce un numero tra 0 (domenica) e 6 (sabato) 3.5 keep, drop e rename A volte capita di voler eliminare alcune variabili che non risultano utili ai fini della nostra analisi e/o rinominare quelle che restano. Possiamo scegliere se tenere le variabili di interesse:. keep varlist o eliminare quelle inutili:. drop varlist dove con varlist si intende la lista delle variabili da tenere (o eliminare), che può contenere quanti elementi si desidera; è chiaro che il risultato sarà lo stesso e si sceglierà un comando o l altro a seconda della comodità del momento. Si faccia attenzione, però, perché le variabili eliminate in questo modo non potranno essere recuperate a meno di ripulire il buffer di lavoro e ricaricare il dataset senza averlo sovrascritto. Questi stessi comandi possono essere utilizzati anche per la cancellazione di osservazioni:. drop if condizione 15

e analogamente. keep if condizione Verranno tenute (o eliminate) le osservazioni per le quali è vera la condizione specificata. Quando invece si desidera rinominare una variabile esistente il comando è:. rename nomevecchio nomenuovo e si può rinominare una sola variabile alla volta. 3.6 sort Alcune procedure richiedono che le osservazioni siano in un determinato ordine prima di procedere. Il comando sort pone le osservazioni del dataset attivo in ordine crescente, secondo la variabile specificata.. sort variabile Si può ordinare il dataset secondo più variabili nidificate. Se si pensa di aver bisogno di tornare all ordine originario, è buona norma creare una variabile di tipo identificativo, ad esempio memorizzando l ordine delle osservazioni all acquisizione, informazione ricavabile dalla variabile di sistema n:. gen identificatore= n 3.7 append e merge Talvolta i dati che sono necessari per le analisi sono dislocati su file diversi. I casi sono due: 1. si desidera aggiungere nuove osservazioni, su cui sono state rilevate le stesse variabili del dataset attivo 2. si desidera aggiungere informazioni (quindi nuove variabili), rilevate sulle stesse osservazioni già caricate Si sta parlando comunque di dati che sono già stati precedentemente acquisiti in STATA e salvati in formato.dta. Nel primo caso si usa il comando append. Si supponga di avere caricato un file di dati e di voler aggiungere delle nuove osservazioni:. append using nomefiledaaggiungere 16

le informazioni contenute nel nuovo dataset saranno memorizzate alla fine del dataset già caricato. Qualsiasi variabile con nome differente nei due dataset presenterà dei dati mancanti per le osservazioni provenienti dall altro dataset. Nel secondo caso, invece, in cui abbiamo le stesse osservazioni ma nuove variabili, il comando è merge. Se non utilizziamo alcuna chiave per far corrispondere le osservazioni del primo (quello caricato in memoria, detto master dataset ) con quelle del secondo (detto using dataset ), merge compirà un semplice accoppiamento riga per riga ma questo non ci garantisce che le informazioni di un dataset si riferiscano esattamente alla stessa osservazione dell altro. Per poter utilizzare una chiave è necessario che questa esista o si possa creare sulla base delle informazioni esistenti e che sia presente e dello stesso formato in entrambi i dataset. Prima di procedere, inoltre, è necessario controllare che magari non siano stati utilizzati gli stessi nomi di variabili per informazioni che invece sono addizionali, in tal caso, infatti, STATA preseverà quelle del dataset caricato e non aggiungerà quelle del nuovo; bisognerà quindi rinominare le variabili prima di compiere l unione. In generale la sintassi per compiere l unione di due dataset è:. use primofile. sort variabilechiave. merge variabilechiave using secondofile dove il secondo file deve essere già memorizzato e ordinato secondo la stessa chiave. STATA creerà automaticamente una variabile chiamata merge che indicherà il risultato dell unione osservazione per osservazione; di seguito il significato dei valori assumibili da merge: 1 indica le osservazioni del primo dataset che non hanno trovato la corrispettiva nel secondo 2 indica le osservazioni del secondo dataset che non hanno trovato la corrispettiva nel primo 3 indica le osservazioni che risultano appaiate 4 indica le osservazioni che risultano appaiate e per le quali valori mancanti del primo dataset sono stati sostituiti da valori validi trovati nel secondo 5 indica le osservazioni che risultano appaiate e per le quali valori del primo dataset sono in contraddizione con valori del secondo Le modalità 4 e 5 possono presentarsi solo nel caso si sia utilizzata l opzione update, tramite la quale si aggiornano i dati mancanti del master dataset con quelli provenienti dall using dataset. 17

4 I grafici STATA consente di creare numerosi tipi di grafici; offre una grande flessibilità non solo per l impaginazione dei grafici ma soprattutto per il loro contenuto. Integra nei grafici le curve di aggiustamento e di lissage, gli intervalli di confidenza e tutti gli altri elementi grafici associati ai dati. Si possono modificare i titoli, i colori o i simboli in tutta semplicità grazie alle finestre di dialogo. Infine, è possibile esportare i risultati in formati diversi compresi PostScript e PNG. Di seguito si cercherà di focalizzare l attenzione su alcuni aspetti fondamentali mentre si lascia all utente l esplorazione nella vasta scelta di opzioni e caratterizzazioni. I grafici sono memorizzati nella memoria centrale o sul disco fisso. Quando si disegna un grafico questo verrà conservato in memoria centrale con il nome Graph e verrà sostituito dal comando graph successivo. STATA permette però di avere più finestre grafiche contemporaneamente; l opzione name() crea un grafico dotato di un proprio nome e presentato in una propria finestra.. graph twoway scatter nomevar1 nomevar2, name(nomegrafico1) Se non è salvato esplicitamente, qualsiasi grafico sarà cancellato alla chiusura della sessione di lavoro ed è cancellato anche nel caso si usino i comandi clear o discard. È possibile salvare i propri grafici su disco fisso in vari modi. Si può salvare il contenuto corrente della finestra grafica con il comando:. graph save grafico1salvato.gph oppure direttamente dallo stesso comando con cui lo si crea:. graph twoway scatter nomevar1 nomevar2, saving(grafico2salvato.gph) Qualsiasi grafico salvato può essere aperto all interno di STATA con il comando:. graph use grafico1salvato.gph, name(grafico1) ma si noti che senza l opzionename verrebbe aperto ingraph e quindi soggetto a successive sovrascrizioni. STATA offre comandi per gestire i grafici, sia quelli in memoria centrale che memorizzati su disco: graph dir fornisce l elenco dei grafici conservati sia in memoria che su disco (nella working directory) 18

graph describe fornisce dettagli riguardanti un grafico specificato, senza specificazione viene descritto l ultimo creato graph drop nomegrafico cancella dalla memoria centrale il grafico indicato graph rename nomevecchiografico nomegrafico cambia il nome di un grafico in memoria centrale graph copy nomegrafico produce una copia del grafico indicato graph export esporta il grafico nella finestra corrente in un file graph combine permette di combinare in un unico grafico grafici presenti in memoria centrale o su disco Tutti i comandi appena descritti sono accessibili anche via menù e finestre di dialogo: Graphics >> Manage Graphs >>... Tutti i comandi riguardanti i grafici iniziano con la parola graph, ma in molti casi la parola graph è opzionale. Ad esempio il comando:. graph twoway scatter nomevar1 nomevar2 che crea un grafico di dispersione tra due variabili, può essere ottenuto omettendo graph ed addirittura omettendo twoway. Ci sono diversi tipi ( famiglie ) di grafici, ciascuno dei quali prevede poi ulteriori caratterizzazioni con propri comandi specifici: twoway per la rappresentazione di coppie di variabili quantitative bar per la creazione di istogrammi matrix per la creazione di grafici di dispersione box per la creazione di boxplot (diagrammi a scatole e baffi) pie per la creazione di grafici a torta 4.1 Esportazione dei grafici Il modo più semplice per esportare un grafico da STATA ad un altra applicazione è via clipboard. Dopo la creazione del grafico si deve selezionare la finestra grafica, quindi si evoca il menù con il tasto destro del mouse e si seleziona la voce Copy. STATA farà una copia del file come Enhanced Metafile (EMF); questo assicura che l applicazione che riceverà il grafico l avrà con la risoluzione più alta possibile. Se l applicazione destinataria non è in grado di interpretare tale formato allora occorre cambiare alcune impostazioni: da Prefs >> Graph Preferences si scelga l aletta clipboard e si selezioni Windows Metafile (WMF). Dopo aver copiato il grafico nella clipboard si può passare all applicazione in cui si vuole importarlo e dove lo si può Incollare. 19

STATA può salvare un grafico anche come Encapsulated PostScript (EPS). Per salvarlo come tale occorre selezionare la voce File >> Save Graph... e scegliere il formato.eps dalla lista proposta. 20