[Dizionario] Di che discutere...

Massimo D'Antoni dantoni a unisi.it
Sab 23 Feb 2002 23:53:36 CET


A proposito del progetto del dizionario e della discussione in corso.
Alcune opinioni:

Mi pare che la prima cosa da chiarire siano gli obiettivi.
Simone è partito pensando ad un progetto che comprenda insieme:
1) correttore ortografico, 
2) thesaurus e 
3) dizionario (da interfacciare con dict o programma similare, suppongo).

Credo però che questi obiettivi siano in realtà alquanto diversi, e la
volontà di raggiungerli tutti insieme possa compromettere quella che a
mio avviso è l'urgenza maggiore, cioè disporre a breve di un
correttore ortografico in italiano free software paragonabile a quello
disponibile per MS Word.

In particolare: la creazione di un dizionario credo sia al di fuori
della portata di persone che non fanno questo per mestiere, e dunque
per l'obiettivo 3) io vedrei come unica possibilità quella di trovare
qualche dizionario già esistente, e cercare di convincere i detentori
dei diritti d'autore relativi a devolverlo per la causa.
Un discorso simile vale, anche se forse in misura minore, per
l'obiettivo 2), cioè il thesaurus.

Io concentrerei allora quasi tutte le energie, almeno in una prima
fase, sull'obiettivo 1), cioè quello di disporre di un elenco
sufficientemente ampio di parole corrette dal punto di vista
ortografico.

A questo scopo, credo che il problema XML vs. altre possibilità sia
per ora secondario.

Invece, vale la pena di concentrare i nostri sforzi studiando il
modo più economico per generare un elenco completo di parole, in modo
che inserendo ad es. "amare" tutte le voci del verbo siano create
automaticamente da uno script, o inserendo "bello" automaticamente
abbiamo anche bella, belli, belle, bellissimo, bellissimi ecc. (stando
attenti che amico dia amici ma bruco dia bruchi...).

La mia proposta è quella di distinguere innanzitutto tra categorie
generali; es.:
- verbi (eventualmente a loro volta suddivisi tra regolari e irregolari) 
- sostantivi
- aggettivi
- altro

Quanto alle definizione delle regole per generare tutte le parole
derivate: a suo tempo, iniziando per conto mio un lavoro di questo
tipo, presi come punto di partenza le regole di creazione degli
"affixes" sotto ispell. Questi funzionano abbastanza bene quando si
tratta di sostituire le finali delle parole.
Ad es. si può facilmente definire una regola (denominata ad es. "O")
di modo che inserendo nell'elenco

bella/O

siano automaticamente comprese nell'elenco anche: bello, belli, belle.
Per dire che bella ammette il superlativo assoluto possiamo definire
un'altra regola (denominiamola "M") per cui:

bella/OM

genererà: bello, belli, belle ma anche bellissima, bellissimi,
bellissime, bellissimo.

Le regole possono essere naturalmente più complesse, e tenere conto
del fatto che in certi casi "ca" fa plurale in "che";
Si possono infine indicare dei prefissi:

generere/AR

crea ad es. tutte le voci di "generare" seguendo la regola "A" che
indica la I coniugazione, ma aggiungendo "ri-" crea anche tutte le
voci del verbo rigenerare.

Certe limitazioni di ispell nella generazione degli affixes potrebbero
essere superati scrivendo uno script in perl o linguaggio similare.

Che ne dite?

Saluti

   Massimo




Maggiori informazioni sulla lista Dizionario