[Discussioni] Ancora dizionario Italiano
Alessandro Rubini
rubini a gnu.org
Mar 13 Nov 2001 12:58:26 CET
Ricevo da Marco Gaiarin (qualche giorno fa, in effetti):
> Si, in aggiunta al'Italian-HOWTO (che però regalo, vedete la lista
> pluto-ildp) ho anche fatto per la tesi un software di predizione
> sintattica per disabili, il mio primo (e ultimo pare) programma in C.
> Lo trovate su:
>
> http://www.dei.unipd.it/~gaio/Tesi/
>
> e abbiate pietà di me: mi ero ripromesso di metterci le mani su ma sono
> stato assolutamente infedele.
>
> [...]
>
> Do due contributi:
>
> + esiste dict (apt-get install dict-server mi pare), ovvero un server
> che gestisce un dizionario, nel senso proprio del termine; non è
> quello che volete fare voi, lo so, ma è sicuramente un oggettino
> interesante da gardare.
>
> + il mio programma usava un approccio diferente da ispell, che
> semplicemente considera le parole e un grammatica (specie di) pensata
> per gestire solo affissi (pre e suf).
> Io ho creato una lista di parole (meglio dire lemmi) correttamente
> tipizzata (abbastanza correttamente ;), e aggiunto al programma un
> aborto di grammatica, fondamentalmente mi serviva a cuccare le
> concordanze dei verbi e maschile/singolare/femminile/plurale.
>
> Ho ovviamente fatto un cazzone di programma che mi serviva a fare
> statistiche, e ho notato come, una volta inseriti nel vocabolario
> correttamente lemmizzati la cosa base (tutti gli irregolari, articolei,
> ...) lui produceva iste di termini sconosciuti con ottime percentuali
> (non ricordo, mi pare 80%, lemmizzate correttamente).
>
> + per capirsi:
>
> - ispell/aspell: le parole sono inserite in modo che sia facilitata
> la ricerca per parole simili (mancanza di un carattere, swap di due
> caratteri, ...), tipici errori di battitura di cui questa mail è
> zeppa. affissi servono solo per ridurre la dimensione del
> dizionario.
> - favele (il mio programma): le parole sono inserite completamente
> tipizzate, la gestione della tipizzazione e strettamente correlata
> alla gestione dei suffissi per la riduzione della dimensione
> - dict: la parola è inserita con tipizzazione e significato (come
> ogni buon dizionario).
>
> Se serve collaborare sono qui, potete fare di favele qualsiasi cosa che
> la GPL permetta di fare, sempre meglio che vederlo li morto. ;(
E poi in risposta all'altro soggeto (quello che tengo anonimo):
>> Visto che il CD e' stato acquistato regolarmente, CREDO che la
>> wordlist si possa usare, e in ogni caso non ho problemi a spedirla
>> a chi fosse interessato (basta che non mi tiriate in ballo se ci
>> sono grane legali). Ovviamente non ho alcun problema per le voci che
>> ho aggiunto con le mie manine (o meglio con degli script AWK).
>
> Quando ero giovane e matto ho mandato una lettera a tutti gli editori
> di dizionari per chiedergli il dizionario.
> Solo la deagostini mi ha risposto che avevano già dato i diritti di
> riproduzione elettronica a qualcun'altro e che quindi bla bla bla.
>
> Non credo che siano usabli.
>
> L'unica strada è proprio quella di infilare a mano tutti gli irregolari
> e le parti fisse (sono parte di qualsiasi grammatica e palesemente non
> è possibile farne copyrigt) e poi andare di scanner.
>
> Da tenere d'occhio anche http://www.liberliber.it/, ottima fonte di
> testi da scannare.
More information about the discussioni
mailing list