[Discussioni] Dizionario Italiano e GPL/LGPL [was Chiusura sito www.warez.at]

Alessandro Rubini rubini a gnu.org
Mar 6 Nov 2001 09:47:54 CET


Andrea Glorioso:
> Non ho capito esattamente di che tipo di risorse avresti (uso il tu
> per semplice stanchezza notturna, ovviamente mi riferisco al progetto
> in se`) bisogno - quanta banda, quanto spazio, che servizi, etc, etc.

Io invece non ho capito in cosa consiste il progetto. Ho visto tanti
file di affissi e tanti elenchi di parole raccolti da diverse persone,
ma tutti abbandonati da qualche anno. Non e` che mettendoli insieme
gia` si ottiene qualcosa di buono?

Per quello che ho visto io l'unica volta che ho provato ad usare
ispell italiano il problema principale e` la mancanza di vocaboli.
Metto in copia anche Ottavio Rizzo che ricordo mi avesse parlato di un
canadese fuori di biglia che aveva raccolto una lista di parole enorme
e pressoche` completa.

Avendo chiesto a chi sapevo essersi interessato del problema, ho avuto
questa risposta, a cui intercalo i miei commenti. Preferisco non dire
di chi si tratta per tutelarlo da eventuali problemi legali (visto che
la lista e` pubblica).

> Non ho mai veramente usato "ispell" ma ho una certa familiarita'
> con le wordlists. Se "ispell" si mangia delle wordlists posso
> fare qualcosa. Esistono wordlists italiane su Internet, ma sono
> incomplete e talora inesatte.

Per quello che ho visto, se si ha una lista di tutte le parole e un
file di affissi c'e` il programma che "comprime" la lista riconoscendo
le forme descritte dal file degli affissi.

> In effetti ho speso diecimila lire circa per prendere assieme a
> "Il Giornale" un dizionario G. in CD. Uno dei files di chiavi (in
> chiaro, usando vim, xxd, awk e cut) di questo dizionario e' composto
> di circa 650000 voci, incluse tutte le forme possibili regolari e
> irregolari di tutti i verbi. Ci sono molte altre chiavi che non ho
> neppure sfiorato.  Dopo avere estratto la lista, l'ho "controllata" con la
> Bibbia e i Promessi Sposi e ho aggiunto in questo modo qualche
> migliaio di voci riflessive tipo "capitatomi" non comprese nella lista
> originale.  (...nella Bibbia c'era qualche misprint, si vede che era
> una vecchia versione).

Per quello che ho visto, si tratta della lista piu` grande cui abbiamo
accesso, e credo che possa piu` o meno risolvere il problema. Ovviamente
se possiamo usarla.
 
> Visto che il CD e' stato acquistato regolarmente, CREDO che la
> wordlist si possa usare, e in ogni caso non ho problemi a spedirla
> a chi fosse interessato (basta che non mi tiriate in ballo se ci
> sono grane legali). Ovviamente non ho alcun problema per le voci che
> ho aggiunto con le mie manine (o meglio con degli script AWK).
> Dalla Bibbia (e da altre fonti) ho inoltre raccolto una lista di
> una marea di nomi (persone, luoghi, enti), che andrebbero a 
> complemento della lista medesima... inoltre ho ricavato una lista
> senza accenti (per usarla nella soluzione di problemi di criptologia,
> per i quali gli accenti non sono usati).

Anche se e` stato acquistato regolarmente, credo sia solo licenziato
per uso personale (come normalmente succede per le opere protette dal
diritto d'autore). Si noti come le cosiddette licenze del sw
proprietario non sono governate dal diritto d'autore ma dalle leggi
sui contratti (infatti occorre accetare il contratto dopo averlo
letto.

> La lista e' a disposizione, ma la decisione sull'uso deve essere
> vostra, io me ne lavo mani e piedi. Soprattutto la valutazione della
> parte legale deve essere fatta da qualcuno che ne capisce, io sono
> solo un povero informatico.

Credo che la cosa che si potrebbe provare a fare e` chiedere alla
Garzanti (o chiunque sia il "G." sopra). Per ottenere l'uso di una
licenza libera per il materiale da loro raccolto.
 
> E' da notare che per un dizionario non serve tanto la wordlist
> (tutte le forme, compresi plurali etc.), ma una lista di lemmi,
> ossia di entrate nel dizionario.

Questi vengono generati automaticamente dalla lista di parole, come
detto sopra.

> Anche qui ho estratto qualcosa da una vecchia edizione della
> enciclopedia Z. (circa 80000 lemmi, compresi molti nomi di 
> luoghi, persone etc.). Ricavarne una lista di soli sostantivi, verbi
> etc. non dovrebbe essere troppo difficile. Anche qui, il CD e'
> stato acquistato regolarmente, e' risultato essere un database
> ACCESS "impermeabile", ma letto sotto NT, NT mi ha chiesto:
> "E' un'altra versione di ACCESS, devo trasformarlo per NT?"
> Io, felice, ho detto "si'", nel processo l'impermeabilita' si e'
> persa per strada, e ne ho ricavato circa 27MB di testo di
> enciclopedia (senza accenti - purtroppo) che uso regolarmente 
> sotto Linux con uno script AWK e il grep.
> 
> Incidentalmente sono in contatto con Padre Busa, una autentica
> autorita' in materia, che sicuramente ha qualcosa di gia' fatto
> per qualche decina di lingue, ma credo che sia tutto copyrighted.

Si puo` comunque contattarlo. Io non so chi sia, pero` :)

/alessandro




More information about the discussioni mailing list