Analisi statistica di dati testuali: il software SPAD



Documenti analoghi
DIPLOMA DI STATISTICA

Modulo 3 - Elaborazione Testi 3.5 Stampa unione

UTILIZZO DEL MODULO DATA ENTRY PER L IMPORTAZIONE DEI DOCUMENTI (CICLO PASSIVO)

Servizio Telematico Paghe

Guida all uso di. a cura dell Area Economia Applicata (AEA) - IPI

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

LE CARATTERISTICHE DEI PRODOTTI MULTIVARIANTE

Dipartimento per le Libertà Civili e l Immigrazione

5.3 TABELLE RECORD Inserire, eliminare record in una tabella Aggiungere record Eliminare record

Dipartimento per le Libertà Civili e l Immigrazione

MANUALE PARCELLA FACILE PLUS INDICE

Tutte le interrogazioni possono essere condotte su qualsiasi campo della banca dati (ad esempio, Forma, Frequenza, Lunghezza, ecc...).

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

Guida operativa. My Legal Corner. BestSoft SOFTWARE IN SANITÀ

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

Schede ADI ADP ADEM Prestazioni aggiuntive MMG. - Manuale - Data Solution Provider s.r.l.

LA GESTIONE DELLE VISITE CLIENTI VIA WEB

LA RICLASSIFICAZIONE DEI SALDI CONTABILI CON MICROSOFT ACCESS 2007

Istruzioni di installazione di IBM SPSS Modeler Text Analytics (licenza per sito)

Raggruppamenti Conti Movimenti

SW Legge 28/98 Sommario

Punto Print Il programma per stampare. Documentazione Tecnica

Corso di Informatica di Base

LA RICLASSIFICAZIONE DI BILANCIO CON MICROSOFT ACCESS

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

ARCHIVIAZIONE DOCUMENTI

Capitolo 3. L applicazione Java Diagrammi ER. 3.1 La finestra iniziale, il menu e la barra pulsanti

SOFTWARE SICUREZZA SUL LAVORO PROCEDURE STANDARDIZZATE GUIDA ALL USO

Pagina 1 di 16. Manuale d uso 626 VISITE MEDICHE

Manuale Affidamento Diretto Vers

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

Veneto Lavoro via Ca' Marcello 67/b, Venezia-Mestre tel.: 041/

Il programma CONFELMOD CAD creazione e modifica

CREAZIONE DI UN AZIENDA

OSSERVATORIO DEL TURISMO GUIDA AL SERVIZIO

Istruzioni di installazione di IBM SPSS Modeler Text Analytics (utente singolo)

MICROSOFT OFFICE WORD 2010 STAMPA UNIONE

MANUALE D USO DELL E-COMMERCE. Versione avanzata

SOSEBI PAPERMAP2 MODULO WEB MANUALE DELL UTENTE

Gestione delle formazione

Portale tirocini. Manuale utente Per la gestione del Progetto Formativo

Autorità Nazionale Anticorruzione e per la valutazione e la trasparenza delle amministrazioni pubbliche

PROCEDURA ON-LINE PER L INSERIMENTO E/O LA CONFERMA DEI PERCORSI FORMATIVI PER L APPRENDISTATO PROFESSIONALIZZANTE

Sostituto abilitato Entratel con più sedi: ricezione diretta e incarico ad intermediario abilitato

Manuale Utente. Gestione Richieste supporto Data Warehouse. Della Ragioneria Generale dello Stato. Versione 1.0. Roma, Ottobre 2015

Manuale di istruzioni sulle maschere per il calcolo del punteggio e del voto (unico) degli studenti che sostengono la Prova nazionale 2011

Manuale Affidamento Diretto

Manuale di Aggiornamento BOLLETTINO. Rel H4. DATALOG Soluzioni Integrate a 32 Bit

TRASMISSIONE RAPPORTO ARBITRALE IN FORMATO PDF

MANUALE UTENTE. TeamPortal Liste Distribuzioni

Finanziamenti on line -

NVU Manuale d uso. Cimini Simonelli Testa

Studio Prof. Versione 2

Monitor Orientamento. Manuale Utente

Dati importati/esportati

Manuale Utente. Gestione Richieste supporto BDAP. Versione 1.0

Mon Ami 3000 Produzione base Produzione articoli con distinta base e calcolo dei fabbisogni

Manuale Amministratore Legalmail Enterprise. Manuale ad uso degli Amministratori del Servizio Legalmail Enterprise

2015 PERIODO D IMPOSTA

Dispensa di database Access

4.1 FAX Sollecito consegne via (Nuova funzione)

Database Manager Guida utente DMAN-IT-01/09/10

Funzioni non documentate Openoffice.org. 3 Base mini-howto

Manuale Utente Albo Pretorio GA

5.6.1 REPORT, ESPORTAZIONE DI DATI

2 Fortino Lugi. Figura Errore. Nel documento non esiste testo dello stile specificato Finestra attiva o nuovo documento

Cerca Compra Vendi. Guida passo per passo all utilizzo del sito

per interventi strutturali di rafforzamento locale o di miglioramento sismico, - art. 2, comma 1, lettere b) e c) -

POSTECERT POST CERTIFICATA GUIDA ALL USO DELLA WEBMAIL

Strumenti informatici Realizzare grafici e tabelle con Excel e SPSS

MODALITA DI REGISTRAZIONE

Il foglio elettronico. Excel PARTE

MICROSOFT WORD LA STAMPA UNIONE

1. ACCESSO AL DATABASE

LINEE GUIDA PER L EROGAZIONE DELLA FORMAZIONE INTERNA

progetti guidati EXCEL Dalla tabella statistica al relativo grafico

Scrutinio Web. Raccolta Leggimi degli aggiornamenti. Pagina 1 di 10. Data Pubblicazione

Epi Info: Creare una maschera di inserimento dati. Esempio di uno studio sulla compliance. Il questionario cartaceo (1)

Prof.ssa Paola Vicard

FONDO PENSIONE PREVAER PROTOCOLLI COMUNICAZIONE

MODULO 5 Appunti ACCESS - Basi di dati

La Stampa Unione. Individuare la lista indirizzi per la Stampa Unione

GUIDA ALL USO DEL PANNELLO DI GESTIONE SITO WEB

Guida utente alla compilazione delle richieste di contributo on-line per le Associazioni dei Consumatori

Applicativo Recruit Selection

Pagina Personale Docente. Guida Utente. Progetto DISCITE

CMS ERMES INFORMATICA

Lezioni di Laboratorio sui Data Base

Database. Si ringrazia Marco Bertini per le slides

ISTRUZIONI PER L USO GLOSSARIO

ALF0021M MANUALE UTENTE MODULO "SETUP"

ESERCIZI BASE SU MOODLE

Guida Migrazione Posta Operazioni da effettuare entro il 15 gennaio 2012

PostV Pos e tv n e d n i d ta t : : altre altr e funzi funz on o i n

DATA BASE ON LINE (BANCA DATI MODULI SPERIMENTALI)

Che cos'è un modulo? pulsanti di opzione caselle di controllo caselle di riepilogo

Transcript:

Analisi statistica di dati testuali: il software SPAD Prof.ssa D. Fioredistella Iezzi Università di Roma Tor Vergata stella.iezzi@uniroma2.it

SPAD

Procedure testuali in SPAD MOTS: Creazione di un vocabolario di parole SEGME: segmenti ripetuti; VOSPEC: analisi specificità TALEX: tabelle lessicali; CORBIT: analisi delle corrispondenze lessicali; TEXMU: esportare una base CORDA: analisi delle concordanze

Creare un dataset per l avvio delle analisi Possiamo importare dati di tipo: - ASCII; - SAS; - ODBC (Access, Excel, ); - Testuali. Dobbiamo creare un file con estensione *.sba (BASE)

Come deve essere strutturato un file testuale Possiamo distinguere quattro tipo di importazione: 1. Dati numerici e testuali nella stessa scheda 2. Dati numerici e testuali in due schede separate 3. Dati testuali in un formato specifico 4. Utilizzare l opzione QUESTION, dopo importazione in SPAD, tutte le variabili classificate come TEXTE con l opzione QUESTION saranno convertite in variabili testuali.

1. Dati numerici e testuali nella stessa scheda Dal Menu Base Importer Importation fichier ASCII Per importare dati alfanumerici fissi o delimitati da un qualche separatore. Menu Base Importer Importation ODBC Per importare tutta la banca dati In queste interfacce di importazione si dispone di una variabile classificata come «Variable textuelle» che qualifica un dato testuale.

2. Dati numerici e testuali in due schede separate Per creare una base numerica, importiamo i dati numerici da file SAS e SPSS. Per creare una base testuale, possiamo importare dati testuali dalle opzioni ASCII e ODBC (ad eccezione di SAS e SPSS). Con la giustapposizione (juxtapose) in seguitopossiamo unire i due file (Dal menu Outil Juxtaposition per creare la base finale).

3. Dati testuali in un formato specifico Ciacuna unità statistica è individuata da i seguenti caratteri speciali: ---- (4 meno in colonne). I 4 caratteri speciali sono seguito da un identificativo numerico dell unità. Per ciascuna unità, ciascuna risposta è separata da ( più) ++++ (separatori di domande). Una risposta mancante è registata con i separatori speciali, ma il contenuto rimane in bianco. La fine della scheda è marcata da un altro carattere speciale: ==== (4 segni di uguale) in colonna da 1 a 4. ESEMPIO: enqt.txt

ESEMPIO: Monster.it Il campione degli annunci preso in esame da questo studio è stato selezionato dal sito monster.it Nel sito vengono offerti sia ai candidati che alle aziende servizi innovativi e personalizzati, con lo scopo di facilitare l incontro tra domanda e offerta di lavoro; il database degli annunci è navigabile per settore, per area geografica, tipo di lavoro o parola chiave; ogni giorno gli annunci vengono aggiornati con nuove offerte di lavoro. Per i candidati è sufficiente registrarsi, compilare il proprio profilo professionale, e allegare il curriculum vitae. Il servizio è simile ad un motore di ricerca dove, una volta registrato, è sufficiente che l utente inserisca il proprio nome e la propria password per vedere immediatamente tutti gli annunci proposti dalle aziende.

DATI TESTUALI I dati presi in considerazione riguardano 202 annunci di lavoro inseriti sul web da altrettante aziende appartenenti al settore dell Information Technology. In particolare, da questi sono state isolate tutte le proposizioni riguardanti le competenze richieste. Si è quindi proceduto al trattamento del testo, al fine di eliminare gli errori ortografici. Il corpus originario è costituito da 1210 forme semplici per un totale di 5132 occorrenze.

Editor della base annunci.sba

Attenzione! Se creiamo una base da dati testuali abbiamo bisogno di creare almeno una variabile continua, altrimenti SPAD non riesce ad aprire una filiera di lavoro

Dall editor aggiungiamo una variabile continua e una nominale (possiamo copiare ed incollare le etichette numeriche)

Pre-processing: creazione di un vocabolario

FASE 1 Bisogna selezionare SI e dare un nome alla filiera PRIMO OUTPUT: MOTS.xls CREATION DU VOCABULAIRE DES MOTS BILAN DE LA CREATION DU VOCABULAIRE DES MOTS NOMBRE TOTAL DE REPONSES: 202 NOMBRE TOTAL DE MOTS : 24842 NOMBRE DE MOTS DISTINCTS: 3712 POURCENTAGE DE MOTS DISTINCTS: 14.9

Successivamente abbiamo costruito un corpus più limitato, ponendo una soglia minima di 10 occorrenze: ciò ha dato origine ad un corpus di 87 forme semplici per un totale di 2943 occorrenze. Sulla base di quest ultimo si è provveduto ad identificare i segmenti ripetuti, secondo i seguenti criteri: la lunghezza massima (n di forme semplici componenti il segmento) è stata posta pari a 3, così come la soglia minima di occorrenze dei segmenti stessi. Il numero totale di segmenti individuati è 126, per un totale di occorrenze pari a 1432.

Eliminiamo le forme con frequenza <10

Creazione di un filtro logico Cliccare su supprimer

Vocabolario iniziale: 3712 parole Numero Forme selezionate: 3294

La base di partenza per l analisi effettuata, costituita dal totale degli annunci, delle forme semplici e di segmenti ripetuti, è costituita dai 193 annunci (n di linee) e da 214 variabili, di cui 87 forme semplici e 126 segmenti ripetuti, poste in colonna. Dopo una prima analisi, si è ritenuto opportuno considerare uno degli annunci come individuo non attivo ai fini all analisi, in quanto eccessivamente pesante in termini di contributo alla formazione del primo asse fattoriale: ciò rendeva la rappresentazione sul piano troppo appiattita e orientata dall annuncio in questione. Sulla base costruita è stata effettuata un analisi delle corrispondenze semplici.

Conclusioni Emerge quindi un identikit professionale complesso, in cui alle specifiche competenze sono associate conoscenze e abilità trasversali. Il primo piano fattoriale ottenuto dall AC può essere orientato secondo due direttrici: la prima (asse orizzontale) è data dal binomio trasversalità peculiarità rispetto al settore preso in considerazione (IT). L a s e c o n d a è i n v e c e i n d i v i d u a t a d a l l a contrapposizione tra specificità e genericità nel contenuto delle conoscenze/abilità richieste al candidato.