Il web come corpus. Il world wide web può essere considerato un corpus? Quali sono i suoi limiti? E le sue potenzialità?



Documenti analoghi
Capitolo 5. Cercare informazioni sul Web

Cercare documenti Web

Motori di ricerca. Andrea Marin

Cosa dobbiamo già conoscere?

Nuova funzione di ricerca del sito WIKA.

Modulo 1: Motori di ricerca

Esercitazione 2 Lab.Programmazione Internet

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Premesse alla statistica

La Metodologia adottata nel Corso

GESTIONE DELLE TECNOLOGIE AMBIENTALI PER SCARICHI INDUSTRIALI ED EMISSIONI NOCIVE LEZIONE 10. Angelo Bonomi

Un motore di ricerca per i siti web della PA italiana. GooglePA, un motore di ricerca per i siti web della PA italiana

Uso di base delle funzioni in Microsoft Excel

WEB MARKETING. Indicizzazione nei motori di ricerca. SCHEDA PRODOTTO Versione 1.1

Architettura hardware

Certificazione Energetica

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi

Guida all uso del Portale Web

(Atti per i quali la pubblicazione non è una condizione di applicabilità) COMMISSIONE

I libri di testo. Carlo Tarsitani

Office 2007 Lezione 02. Le operazioni più

OpenOffice.org per tutti. Relatore: Romina Lobina

Capitolo 2 Distribuzioni di frequenza

Istruzioni modulistica Elenco associazioni professionali

La gestione strategica dell innovazione

1. Distribuzioni campionarie

KEY to METALS esempi applicativi

Slide Cerbara parte1 5. Le distribuzioni teoriche

DFD DISPENSA DEL CORSO DI SISTEMI INFORMATIVI UNIVERSITÀ DEGLI STUDI DI VERONA FACOLTÀ DI MM.FF.NN LAUREA SPECIALISTICA IN INFORMATICA

Lezione Introduzione

Come funziona il WWW. Architettura client-server. Web: client-server. Il protocollo

I quattro ordini di scuola a confronto Elisabetta Malaguti

Inglese I Lingua - Francese II Lingua - Tedesco III Lingua

Fondamenti di Informatica. Docenti: Prof. Luisa Gargano Prof. Adele Rescigno BENVENUTI!

Per siti più strutturati le informazioni sono mantenute mediante particolari organizzazioni di dati: human-powered directories

Monitoraggio sulla conversione dei prezzi al consumo dalla Lira all Euro

STAMPA DI UNA PAGINA SEMPLICE

Editoria Digitale. Schema didattico di riferimento 1

Laboratorio di Pedagogia Sperimentale. Indice

La ricerca è completa solo se effettuata su tutte e tre le seguenti banche dati:

Questa pagina e tutti i capitoli della guida che trovate elencati a destra costituiscono il cuore di questo sito web.

Errori di una misura e sua rappresentazione

La formula matematicha segreta utilizzata dai motori di ricerca per calcolare il ranking di un sito web per un dato termine di ricerca.

MODELLO E/R. Prof. Francesco Accarino IIS Altiero Spinelli Sesto San Giovanni

Informatica per le discipline umanistiche 2 lezione 10

Università degli Studi di L Aquila. Facoltà di Ingegneria. Corso di Laurea in Ingegneria Elettronica Corso di Sistemi Informativi

Question Answering e semantica Tecnologie emergenti per le imprese. IKL 08 - Intercultural Knowledge Landscapes

PROGETTO REGIONALE MISURAZIONE E VALUTAZIONE DELLE BIBLIOTECHE VENETE

Internet. Internet. Internet Servizi e Protocolli applicativi. Internet. Organizzazione distribuita

Servizi di consulenza specialistica per IGRUE

LA PRIVACY POLICY DI WEDDINGART

RILEVAZIONE INTEGRATIVA DELLE SCUOLE SECONDARIE DI II GRADO NON STATALI ALUNNI PER INDIRIZZI DI STUDIO SEZIONE A CLASSI PER ANNO DI CORSO

ESERCITAZIONE. La Rete come risorsa per l educazione interculturale PREMESSA

STUDIO MESSANO UFFICIO SVILUPPO NUOVE TECNOLOGIE

Vittorio Casella. Calcolo del DTM. Dispense

FLASHINVESTOR Manuale dell Utente

Insegnare con il blog. Materiale tratto da:

- la possibilità di monitorare lo stato attuale della macchina - fornire una reportistica sulla base di alcune variabili

Ente turistico del Mendrisiotto e Basso Ceresio. Autore: Lorenzo Fanetti/Stagista/Laureato Master International Tourism, USI, Lugano

PULSANTI E PAGINE Sommario PULSANTI E PAGINE...1

Internet WWW ISP Protocolli di Rete

ANALISI DEI QUESTIONARI PER LA RILEVAZIONE DELLE OPINIONI DEGLI STUDENTI SULLA GENERALITÀ DELLE PRESTAZIONI DIDATTICHE, AMMINISTRATIVE E DI SERVIZI

CAPITOLO VI. Internet Termini più usati Apparecchiature necessarie Software necessari Avviare Internet explorer Avviare Outlook Express

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Perché il logaritmo è così importante?

Limiti e continuità delle funzioni reali a variabile reale

DFY Flight Center - Manuale d uso

Modalità e limiti nella protezione del Software

Corso di Economia e Gestione delle Imprese e Marketing a.a Prof. Elena Cedrola

Carte di credito: il 37% degli Svizzeri ne possiede due

PAS 2014 Mishkin Eakins Forestieri, Istituzioni e mercati finanziari, Pearson, Il mercato obbligazionario

IL CODICE UNICO DI PROGETTO (CUP) FAQ PER L AREA RICERCA

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

Aspetti comuni a tutti i motori di ricerca su Internet e su basi dati

Gestione della memoria. Paginazione Segmentazione Segmentazione con paginazione

Tecniche di riconoscimento statistico

Open Archives e motori di ricerca. di Ilaria Moroni

Come utilizzare il sito Verdeazzurroligure

IL CAPOLUOGO AL MICROSCOPIO

5. IL PC E INTERNET NELLE DIVERSE TIPOLOGIE FAMILIARI

Come cercare in Google

HTML il linguaggio per creare le pagine per il web

PROMUOVERSI MEDIANTE INTERNET di Riccardo Polesel. 1. Promuovere il vostro business: scrivere e gestire i contenuti online» 15

Istruzioni per l utilizzo di file KML (Google Earth) con Software dei navigatori satellitari TELE System

Maschere. Microsoft Access. Maschere. Maschere. Maschere. Aprire una maschere. In visualizzazione foglio dati: Maschere

Casellario dell Assistenza. Banca dati delle prestazioni sociali agevolate

PLC Sistemi a Logica Programmabile Il linguaggi di programmazione

Capitale & Ricchezza

Prefazione SEZIONE 1 CONOSCERE E COMPRENDERE 1. Capitolo 1. L evoluzione dell ICT 3

COMPUTER PER TUTTI QUINTA PARTE. Procediamo ora con accedere al nostro Sito Password errata

Elementi di Statistica descrittiva Parte I

Symwriter e PowerPoint

Biblioteca di Cervia NOZIONI BASE DI INFORMATICA

Il glossario della Posta Elettronica Certificata (PEC) Diamo una definizione ai termini tecnici relativi al mondo della PEC.

Ipertesti e Internet. Ipertesto. Ipertesto. Prof.ssa E. Gentile. a.a

Il futuro della normazione tecnica tra legislazione, condivisione e mercato. Gian Luca Salerio Responsabile Area Normazione UNI

Ore di lezione presso il CIAL

ARISTIDE. Analisi del Rischio del portafoglio crediti e Tassi Interni di Decadimento

Matematica generale CTF

Progettaz. e sviluppo Data Base

Transcript:

Il web come corpus Il world wide web può essere considerato un corpus? Quali sono i suoi limiti? E le sue potenzialità?

WWW Enorme deposito di materiale testuale accessibile, gratuito, variato negli stili, nelle tipologie e nei contenuti linguistici rappresentati Ma il web può essere considerato un enorme corpus linguistico di riferimento? Quali sono i limiti e le possibilità dell uso di materiale fornito da internet come base per studi di linguistica dei corpora? Il web come corpus è rappresentativo delle lingue ivi presenti?

Sì Il web è un corpus? sì, poiché raccoglie testi in varie lingue e tali testi sono una selezione di occorrenze comunicative appartenenti a diverse tipologie testuali (manuali, notizie, blog, dialoghi in forum, ecc.) Estensione il web è forse uno dei corpora più grandi mai raccolti l esatta composizione in termini quantitativi è ancora indeterminata Lingue l inglese si stima copra il 70% circa delle pagine, seguito da giapponese, tedesco, francese e cinese

Il web è un corpus rappresentativo? Corpus di riferimento il web non presenta le diverse varietà della lingua vi sono privilegiati (quantitativamente) alcuni domini tecnologie, news ne sono quasi del tutto assenti altri parlato spontaneo, varietà regionali Interrogazione attraverso i motori di ricerca come per esempio Google o Altavista essi utilizzano algoritmi di selezione che privilegiano determinati tratti (come il numero di accessi degli utenti e il numero di citazioni e riferimenti esterni al sito) per ordinare e selezionare i documenti presenza/assenza del materiale sul web le pagine spariscono, ma soprattutto aumentano vertiginosamente frequenti duplicazioni del materiale stesso capacità di recupero dei documenti e delle informazioni costituiscono un limite alla rappresentatività del web come corpus. No, non è un corpus rappresentativo delle varietà della lingua

L errore Il tasso di errori è significativamente più alto rispetto ad altri testi che possono essere raccolti e controllati non è solo l errore di battitura o di scannerizzazione che si ritrova in qualunque testo elettronico la presenza massiccia di pagine amatoriali, spesso scritte da utenti che non governano bene la lingua perché costituisce una lingua seconda (specialmente per l inglese), finisce per costituire una rappresentazione molto sbilanciata delle caratteristiche linguistiche dei testi. Esempio e digito information retrieval (invece di retrieval) ottengo da Google 15.900 risultati e ben 181.000 per il solo retrieval questo non solo significa che, con l interrogazione scorretta, ottengo risultati fuorvianti, ma anche che con l interrogazione corretta mi perdo una quantità di risultati utilizzabili

Dinamicità incontrollata Dimensione indeterminata e forse indeterminabile molte pagine spariscono e molte appaiono ogni istante l estrazione, comparazione, ripetibilità dell analisi dei dati linguistici estratti risulta dunque particolarmente aleatoria Limiti all uso dei motori di ricerca comuni l insufficienza dei risultati visualizzati rispetto a quelli individuati dal motore; l insufficienza del cotesto presentato la selezione viene fatta sulla base di algoritmi di rilevanza che non usano criteri di tipo linguistico; non è possibile condurre ricerche con requisiti linguistici (come la categoria grammaticale, per esempio) la mancanza di criteri linguistici non permette di estrarre lessemi, ma solo forme grafiche, non permette la disambiguazione degli omografi (testuali e assoluti), non permette l ordinamento per rilevanza esclusivamente linguistica. le statistiche di frequenza presentate non sono valide dal punto di vista linguistico per via dei criteri di rilevanza degli algoritmi usati. Killgarriff e Greffenstette (2003, pp.12-13)

Progetti WebCorp (http://www.webcorp.org.uk/) di Andrei Kehoe e Antoinette Renouf dell Università di Liverpool KWiCFinder (http://miniappolis.com/) Gsearch (http://www.hcrc.ed.ac.uk/gsearch/) The Linguist s Search Engine (http://lse.umiacs.umd.edu:8080/) di Philip Resnik e Aaron Elkiss Wacky project (http://wacky.sslmit.unibo.it/) GoogleLing di Joseph Smarr e Tim Grow

Questioni sul Web as a Corpus Sistemi di selezione dei risultati in modo che appaiano bilanciati Accuratezza e validità dei risultati ottenuti Possibilità di vedere realizzati motori che possano trattare lingue diverse dall inglese Possibilità di operare ricerche avanzate su categorie linguistiche di vario genere