[Dizionario] Thesaurus Unico Italiano Libero

Alberto Capponi alberto a studiocapponi.com
Lun 16 Feb 2004 22:04:54 CET


Dopo aver letto i vari thread della lista mi sono fatto un'idea piu' precisa
dello stato dell'arte e delle varie correnti tecnico-filosofiche che animano
queta idea di progetto.
Mi sembra di aver individuato tre filoni:
a) un gruppo interessato a questioni di progetto e disegno della base dati e
delle sue modalita' di interrogazione e presentazione (XML, MySQL, Postgres
e dintorni)
b) un gruppo interessato a progettare ed organizzare i contenuti linguistici
c) un gruppo interessato agli aspetti di usabilita' e accessibilita' e del
potenziale utilizzo legato a strumenti di analisi semantica, word
processing, tassonomia linguistica, etc.

La realizzazione di un Dizionario Libero comporta la realizzazione del
Thesaurus Unico Italiano Libero comprendente termini afferenti a differenti
categorie disciplinari, e collegati tra loro da relazioni gerarchiche o di
affinita concettuale. I criteri costruttivi adottati dovrebbero seguire gli
standard ISO 2788 (1986), o comunque essere impostati su criteri come le
Guidelines for Thesaurus Construction and Use (American National Standards,
1980).

Il nucleo primitivo, derivante dall'esperienza di uno o piu' gruppi di
lavoro che hanno realizzato un Thesaurus pubblicato su Internet non protetto
da diritti di autore, potra essere ampliato nel corso del progetto. Si
raggiungeranno cosi le dimensioni opportune, proporzionate a quelle di
analoghi tesauri internazionali, il cui contenuto conta in media oltre
20.000 voci.

L'attivita collegiale nel Gruppo di lavoro per la condivisione della base
concettuale nei rispettivi strumenti terminologici monolingua, e il
presupposto per il mantenimento della compatibilita del nostro Thesaurus
nell'ambito della rete documentaria internazionale.

Facendo l'esempio di un thesaurus specifico delle Scienze della Terra a cura
del CNR, le definizioni dei significati sono riferite ad una serie di fonti
tra le quali particolare importanza hanno i glossari ed i dizionari tecnici
generali (es. Morris 1992, Cagnacci e Schwicker, 1968, Thrush, 1968), o
specifici per le Scienze della Terra (Bates e Jackson 1987, Manzoni 1971,
Whitten e Brooks, 1978), oltre, naturalmente, ai repertori terminologici
specializzati (es.: Dennis et al. , 1979; Carimati et al., 1981; Olea,
1991).

L'architettura di un dizionario unificato deriva cosi dall'integrazione di
piu esperienze di Thesaurus, mutuate inizialmente dalla cooperazione, ed
evolute in seguito secondo i modelli dati che emergono nel corso del
progetto, fino all'impostazione finale, orientata non solo alla
organizzazione di grandi cataloghi linguistici, ma anche alla navigazione
nei sistemi informativi distribuiti sulle reti mediante ipertesti.

La struttura dei lemmi puo essere precoordinata, cioe una o piu parole sono
collegate ad esprimere univocamente un concetto come, ad esempio, eta'
relativa, tasso di inflazione, ecc. Questo modello e adottato dalla
maggioranza di progetti di settore, invece di una struttura postcoordinata,
nel quale ogni singola parola (eta, relativa, tasso) esprime un oggetto o un
attributo di livello piu o meno generale: l'associazione delle parole
mediante una opportuna sintassi permette poi di identificare concetti
specifici. Nonostante la maggiore flessibilita teorica di questo tipo di
struttura, la sua realizzazione rende tuttavia necessaria una gestione
informatica piuttosto laboriosa, non sempre accessibile da parte di
utilizzatori ordinari.

Il gruppo per la cooperazione documentaria e' quello in cui vengono discussi
i nuovi inserimenti, le variazioni e la congruenza di significato tra i vari
tesauri, come pure le proposte di adozione di tali variazioni nel Thesaurus
Unico Italiano. In questo contesto operativo, il Thesaurus italiano si potra
sviluppare affiancando ad ogni termine l'eventuale corrispondente in inglese
o altra lingua. Fanno eccezione a questa regola i termini mutuati senza
traduzione da altre lingue, i nomi latini le parole italiane formalmente
definite e senza precisa traduzione. La corrispondenza semantica nelle varie
lingue verra privilegiata rispetto alla fedelta letterale delle traduzioni;
nei casi in cui queste sarebbero fuorvianti, o del tutto impossibili, la
coincidenza dei significati si ottiene facendo ricorso ad opportune
approssimazioni concettuali.
I lemmi italiani sono riportati nella forma originale: va ricordato che i
singolari/plurali non sono usati in modo univoco. Per esempio puo quindi
essere opportuno, ricercando un termine, chiudere la parola con un carattere
jolly al posto della desinenza.

Permettetemi questa osservazione: notate la lettura disomogenea degli
accenti della mia mail dovuta ad una strana configurazione multilanguage di
Win2000 sul mio PC che e un mix infelice da riconfigurare di Europa
Occidentale, Europa Centrale e Cirillico; un'altro aspetto da considerare
consiste nell'utilizzo di caratteri universalmente interpretabili (senza
l'uso di codepage, impostazioni nazionali etc.) Da questo punto di vista
Unicode attualmente costituisce l'unica soluzione praticabile.

Ovviamente una struttura semplificata e con un numero di lemmi ridotto, pur
conservando la stessa architettura concettuale, potra' essere impiegato per
impieghi "leggeri" su PDA, correttori ortografici, etc. o facilmente
convertito/esportato verso altri software.

Un esempio di Thesaurus in corso di redazione e' il Tesoro della Lingua
Italiana delle Origini (TLIO), prima sezione cronologica del vocabolario
storico italiano a cura dell'Opera Vocabolario Italiano OVI-CNR
http://ovipc44.csovi.fi.cnr.it/TLIO/.
Nuove voci vengono aggiunte periodicamente, col procedere della redazione.
Alla fine del 2003 e stato raggiunto un totale di circa 11.000 voci (erano
circa 1000 alla fine del 1998) tramite anche strumenti di analisi automatica
dei testi come GATTO.
Sto cercando di raccogliere i riferimenti e (dove possibile) i dati su
thesauri reperibili in Internet relativi alle scienze naturali, informatica,
etc. I risultati sinora sono incoraggianti.
Quelli pubblicati da centri di ricerca universitari o istituti ed i relativi
strumenti software non dovrebbero essere coperti in genere da copyright
(tranne quello dell'Accademia della Crusca - CNR di cui sopra!)

Agli entusiasti della linguistica computazionale segnalo infine il link
http://www.bmanuel.org/clr2_tt.html dove troverete riferimenti ad una serie
di strumenti software sull'argomento.

PS. esiste un "posto" (CVS per adesso mi sembra eccessivo) dove raccogliere
il materiale di lavoro?
Saluti  a tutti.
---------------------------------------
Alberto Capponi
via De Antichi 1
I - 20052 Monza (MI)

alberto a studiocapponi.com




Maggiori informazioni sulla lista Dizionario