[Discussioni] Dizionario Italiano e GPL/LGPL [was Chiusura sito www.warez.at]
Paolo Molaro
lupus a debian.org
Mar 6 Nov 2001 16:08:20 CET
On 11/06/01 Simone Piccardi wrote:
> On Tue, Nov 06, 2001 at 11:20:53AM +0100, Gianluca Turconi wrote:
> > L'idea di partenza era proprio quella. Per? se si d? un'occhiata alla
> Anche per me, vedi piu` avanti.
[L'idea e' quella di prendere i file affix attuali e farne un merge.]
Secondo me e' una pessima idea. Vedi sotto.
> Su questo riprendo quanto avevo detto all'inizio. C'e` l'interesse mio
> e dell'associazione a far partire un progetto sul vocabolario
> italiano. In realta` io lo pensavo a piu` lungo termine (mi piacerebbe
> anche fare un dizionario) ma intanto avremmo una buona base.
I file affix sono una buona base per ottenere dei dati scadenti e per
non permettere ad una piu' larga base di persone di contribuire al
progetto: contengono le informazioni sulle parole in un modo
premasticato che solo ispell digerisce. No, grazie, preferisco avere
l'informazione vera, c'e' sempre tempo di masticarla poi.
E nel caso delle parole italiane, l'informazione vera consiste nel
lemma e in alcuni attributi associati (parte del discorso, genere,
numero, eventuali irregolaritą etc.).
E' una perdita di tempo raccogliere dei dati come:
...
abbaiare/A
...
abbaino/G
...
Quando si puo' spendere lo stesso tempo a raccogliere l'informazione
completa:
...
Lemma: abbaiare
Tipo: verbo I declinazione
...
Lemma: abbaino
Tipo: sostantivo
Genere: maschile
...
Il file affix puo' essere generato automaticamente da questi dati (cosi'
come altri formati affix usati da altri programmi).
Gli stessi dati possono essere usati per altri scopi che non siano solo
la correzione di typo, ma anche per fare una word prediction
accurata o un correttore sintattico e grammaticale. Per questi scopi un
file affix e' praticamente inutile.
E io non trascurerei il vantaggio di permettere a chiunque di
contribuire alla lista di parole, senza richiedere che ci si ricordi
cosa puo' significare /AFP.
wc -l iitalian riporta circa 30.000 righe, di cui circa 20.000 sono veri
e propri lemmi. Se 50 persone aggiungono un lemma al giorno, in un anno
avremmo dei dati abbastanza completi, verificati e _utili_.
Il meccanismo di inserimento puo' essere di due tipi:
1) tramite interfaccia web.
2) tramite mail opportunamente formattata (per il rubi:-).
I dati vengono spediti ad una mailing-list di 'controllo': il lemma
viene usato solo se riceve un'approvazione (tramite mail ad un bot, per
esempio). Chi approva l'entry deve essere diverso da chi l'ha spedita.
Ricreando la lista si ovvia anche ai problemi di copyright che possono
esistere sulle liste attuali.
Eventualmente si puo' usare poi questo lavoro e aggiungerci le
definizioni delle parole, la traduzione etc., ma bisogna partire dai
dati utili, non da quelli premasticati per ispell.
Flame away.
lupus
--
-----------------------------------------------------------------
lupus a debian.org debian/rules
lupus a ximian.com Monkeys do it better
More information about the discussioni
mailing list