LEZIONE #1: INTRODUZIONEScaldo gli animi con una piccola introduzione.
Come comincio? Beh mi pare azzeccato dire che negli ultimi anni la quantità di informazione è cresciuta in maniera più che esponenziale. grazie al web 2.0 tutti gli utenti possono produrre informazione, il web non è più una semplice raccolta di materiale prodotto da poche persone ma diventa sempre più eterogeneo e ricco di contributi personali.
Due numeri: nel 2003 sono stati prodotti 5 esabyte di dati (1 esabyte = 1 miliardo di gigabyte) di cui il 92% su supporto magnetico e solo lo 0,01% su carta stampata; tanto? beh sappiate allora che nel 2006 tale cifra è cresciuta a 161 esabyte e nel 2010 se ne stimano 988 di cui il 70% è autoprodotto dagli utenti che saranno 1,6 miliardi. Considerando che i dati sono calcolati senza contare i messaggi di snakeita

è evidente che ci troviamo di fronte a numeri impressionanti. E povero google che si deve leggere i messaggi di snakeita

Questi valori giganteschi pongono problemi non solo nel reperire l'informazione ma anche nella sua gestione, gli algoritmi devono essere completamente riscritti: se prima ad esempio pensavate di ordinare una sequenza di dati con un semplice algoritmo senza preoccuparvi della sua dimensione ora non potrete più farlo perchè molto probabilmente tutti quegli interi non ci staranno mai nella vostra minuscola RAM e quindi occorre ingegnarsi per trasferirne un poco alla volta e processarli individualmente, per poi riscriverli su disco in modo opportuno. Ma questa è un altra storia che ho accennato solo per darvi un'idea dei problemi a cui ci si sta trovando di fronte in questi anni.
All'interno di tutto sto macello di roba è necessario districarsi, i motori di ricerca ci devono rispondere nel modo più corretto e veloce possibile quando noi gli chiediamo qualcosa: è evidente che questo è un compito molto difficile, primo perchè "lui" non conosce noi, non sa quali sono le nostre esigenze, queste ultime spesso poste in un linguaggio totalmente incomprensibile ai calcolatori che "ragionano" in modo diverso dal nostro; in secondo luogo perchè le domande degli utenti sono tante (provate a pensare a quante ricerche soddisfa google al secondo!) e come già detto c'è un caos in cui ricercare ciò che chi scrive vorrebbe apparire (possibilmente tra le prime posizioni).
Il problema è molto grosso e ovviamente non riguarda solo il web, poichè un motore di ricerca (o meglio un sistema di reperimento dell'informazione) è presente in una moltitudine di casi. Pensate alla classica biblioteca oppure semplicemente alla casella di testo che vedete in alto a destra in questa pagina. Anche un comune database (ciò che sta dietro a questo forum ad esempio) è un sistema di reperimento dell'informazione, seppur piuttosto particolare. Più che il web, il quale ne è una particolare estensione, saranno soprattutto questi gli oggetti del nostro interesse.
Definizione dovuta: i
sistemi di gestione dell'informazione sono sistemi informatici che permettono di memorizzare e trasmettere dati allo scopo di fornire informazione direttamente agli utenti o alle applicazioni che essi utilizzano.
Dimenticavo di dire che finora ho sottinteso che lo scopo e il mezzo della nostra ricerca sia un testo. Beh sappiamo che non sempre è così, e qui siamo nel campo della ricerca vera e propria, tutto si complica enormemente se abbiamo oggetti multimediali come immagini e musica: basti pensare che la musica non è definita solo dal testo ma anche da altre grandezze (ritmo, partitura, melodia...) che devono essere ricavate e valutate appositamente; non è per nulla semplice.
Siamo ai confini della conoscenza di una materia che nasce negli anni cinquanta negli USA e in UK rispettivamente ad Harvard e Cambridge; in Italia i primi ad occuparsi della cosa sono i componenti del centro ricerche FIAT e Siemens negli anni settanta, anche se il primo gruppo di ricerca orientato appositamente a tale disciplina nasce all'università di Padova nel 1987
Alla prossima.