[Discussioni] Ancora dizionario Italiano

Alessandro Rubini rubini a gnu.org
Mar 13 Nov 2001 12:58:26 CET


Ricevo da Marco Gaiarin (qualche giorno fa, in effetti):

> Si, in aggiunta al'Italian-HOWTO (che però regalo, vedete la lista
> pluto-ildp) ho anche fatto per la tesi un software di predizione
> sintattica per disabili, il mio primo (e ultimo pare) programma in C.
> Lo trovate su:
> 
> 	http://www.dei.unipd.it/~gaio/Tesi/
> 
> e abbiate pietà di me: mi ero ripromesso di metterci le mani su ma sono
> stato assolutamente infedele.
> 
> [...]
>
> Do due contributi:
> 
> + esiste dict (apt-get install dict-server mi pare), ovvero un server
>   che gestisce un dizionario, nel senso proprio del termine; non è
>   quello che volete fare voi, lo so, ma è sicuramente un oggettino
>   interesante da gardare.
> 
> + il mio programma usava un approccio diferente da ispell, che
>   semplicemente considera le parole e un grammatica (specie di) pensata
>   per gestire solo affissi (pre e suf).
>   Io ho creato una lista di parole (meglio dire lemmi) correttamente
>   tipizzata (abbastanza correttamente ;), e aggiunto al programma un
>   aborto di grammatica, fondamentalmente mi serviva a cuccare le
>   concordanze dei verbi e maschile/singolare/femminile/plurale.
> 
>   Ho ovviamente fatto un cazzone di programma che mi serviva a fare
>   statistiche, e ho notato come, una volta inseriti nel vocabolario
>   correttamente lemmizzati la cosa base (tutti gli irregolari, articolei,
>   ...) lui produceva iste di termini sconosciuti con ottime percentuali
>   (non ricordo, mi pare 80%, lemmizzate correttamente).
> 
> + per capirsi:
> 
>   - ispell/aspell: le parole sono inserite in modo che sia facilitata
>     la ricerca per parole simili (mancanza di un carattere, swap di due
>     caratteri, ...), tipici errori di battitura di cui questa mail è
>     zeppa. affissi servono solo per ridurre la dimensione del
>     dizionario.
>   - favele (il mio programma): le parole sono inserite completamente
>     tipizzate, la gestione della tipizzazione e strettamente correlata
>     alla gestione dei suffissi per la riduzione della dimensione
>   - dict: la parola è inserita con tipizzazione e significato (come
>     ogni buon dizionario).
> 
> Se serve collaborare sono qui, potete fare di favele qualsiasi cosa che
> la GPL permetta di fare, sempre meglio che vederlo li morto. ;(

E poi in risposta all'altro soggeto (quello che tengo anonimo):

>> Visto che il CD e' stato acquistato regolarmente, CREDO che la
>> wordlist si possa usare, e in ogni caso non ho problemi a spedirla
>> a chi fosse interessato (basta che non mi tiriate in ballo se ci
>> sono grane legali). Ovviamente non ho alcun problema per le voci che
>> ho aggiunto con le mie manine (o meglio con degli script AWK).
> 
> Quando ero giovane e matto ho mandato una lettera a tutti gli editori
> di dizionari per chiedergli il dizionario.
> Solo la deagostini mi ha risposto che avevano già dato i diritti di
> riproduzione elettronica a qualcun'altro e che quindi bla bla bla.
> 
> Non credo che siano usabli.
> 
> L'unica strada è proprio quella di infilare a mano tutti gli irregolari
> e le parti fisse (sono parte di qualsiasi grammatica e palesemente non
> è possibile farne copyrigt) e poi andare di scanner.
> 
> Da tenere d'occhio anche http://www.liberliber.it/, ottima fonte di
> testi da scannare.





More information about the discussioni mailing list