[Dizionario] Collaborazioni
Davide Dozza
davide.dozza a yacme.com
Mer 25 Set 2002 09:45:55 CEST
Andrea Sivieri wrote:
>>>Infine l'idea originale sarebbe anche quella di fare una classificazione
>>>delle parole, organizzata in maniera "estendibile", che potrebbe
>>>generare sia le liste di parole, che il dizionario, che altre
>>>informazioni (fonetica, sinonimi, ecc.).
>>>
>>
>>Nel progetto Openoffice.org, come gruppo italiano, stiamo lavorando (siamo
>>ancora agli inizi) proprio per creare una suite di applicazioni integrate
>
> per la
>
>>gestione della linguistica.
>
>
> Per l'italiano oppure in generale per tutte le lingue?
>
Ovviamente la lingua di maggiore interesse e' l'italiano. Pero' altri gruppi
(es. francese) stanno cercando collaborazione sull'argomento. Il problema e' che
gli strumenti attuali sono pensati per le lingue anglo sassoni che hanno
declinazioni e quindi affix file decisamente meno articolate delle lingue latine.
>>La mia idea, prima di cominciare con lo sviluppo, coincide proprio con quella
>>descritta sopra e cioe' definire una classificazione comune delle parole che
>>puo' essere poi buttata dentro ad un database insieme con le parole stesse.
>
>
> Prevedendo anche la classificazione multipla per parole tipo "amo" :-)
>
Esattamente. Altrimenti i sinonimi e contrari possiamo scordarceli...
>
>>Questo consentirebbe di svicolarsi dai vari formati affix che ciascuna
>>applicazione utilizza e, nello stesso tempo, avere un database comune con ovvi
>>vantaggi di mantenimento.
>
>
> Mi sembra che OpenOffice.org si appoggi al Berkeley DB per
> alcune funzioni, anzi che addirittura lo includa nei sorgenti.
> Le risorse linguistiche verrebbero organizzate in un db embedded
> di questo tipo? ... leggibile poi dalle applicazioni, che soddisfano
> i requisiti dettati dalla licenza del Berkley DB. Oppure si intende
> un db di tipo diverso?
E' tutto da definire. Nella mia testa il database dovrebbe essere completamente
svincolato dallo strumento di analisi linguistica. Una serie di script poi
dovrebbero essere in grado di estrarre la wordlist e gli affix files per
scriverli nel formato dello strumento utilizzato, in questo caso, da
OpenOffice.org.
Ho parlato del dizionario ma il principio si applica in generale.
Il vantaggio di questo approccio è che ci consentirebbe appunto di avere una
struttura dati, legata alla classificazione fatta, che memorizza le parole e
codifica la classificazione stessa e quindi *indipendente* dallo strumento
linguistico che si andra' ad usare.
Ad esempio nulla vieta che si possano creare degli script per estrarre
wordlist/affix per essere usati con ispell o myspell.
>
>
>>Su questa strada stiamo cercando collaborazione e, diro' di piu', ci sarebbero
>>anche dei fondi per finanziare lo sviluppo.
>>Ci sono pero' alcuni vincoli che oserei chiamare fondamentali e su cui chiederei
>>un vostro parere.
>>
>>OpenOffice.org richiede che i programmi esterni, per essere distribuiti, siano
>>almeno sotto licenza LGPL oppure BSD. IMHO questo non e' sbagliato, anzi.
>>Permetterebbe a chiunque, anche chi sviluppa applicazioni proprietarie di
>>includere il dizionario stesso, con le modalita' che la LGPL prevede.
>
>
> Secondo me queste licenze sono ok.
>
>
>>Chi fosse interessato si faccia avanti.
>>
>>Saluti
>>
>>Davide Dozza
>
>
> In questo momento sono molto impegnato con la tesi
> (ingegneria informatica) e prima di Natale ho anche da finire
> un lavoro per un cliente e attivare con Giovanni il sotto-progetto
> "Petrocchi-Melzi" (vedi archivi mailing-list periodo estivo), ma
> all'inizio del 2003 saro` interessato a saperne di piu` (se nel
> frattempo non si saranno gia` messe al lavoro decine di persone :-)
>
>
Per ora siamo solo all'inizio e quindi non c'e' la fila di persone. I fondi sono
per ora ancora virtuali e rimarranno tali almeno finche' non si metta insieme
un gruppetto di persone.
Occorre pero' muoversi con una certa decisione buttando almeno giu' un po' di
specifiche circa il progetto che si vuole realizzare ed i tempi e quindi i fondi
necessari per lo sviluppo.
Ciao
Davide
Maggiori informazioni sulla lista
Dizionario