[Dizionario] Di che discutere...
Simone Piccardi
piccardi a firenze.linux.it
Lun 25 Feb 2002 11:04:46 CET
On Sat, 2002-02-23 at 23:53, Massimo D'Antoni wrote:
> A proposito del progetto del dizionario e della discussione in corso.
> Alcune opinioni:
>
> Mi pare che la prima cosa da chiarire siano gli obiettivi.
> Simone è partito pensando ad un progetto che comprenda insieme:
> 1) correttore ortografico,
> 2) thesaurus e
> 3) dizionario (da interfacciare con dict o programma similare, suppongo).
>
> Credo però che questi obiettivi siano in realtà alquanto diversi, e la
> volontà di raggiungerli tutti insieme possa compromettere quella che a
> mio avviso è l'urgenza maggiore, cioè disporre a breve di un
> correttore ortografico in italiano free software paragonabile a quello
> disponibile per MS Word.
Sono d'accordo sulla priorita`, pero` il discorso secondo me non e`
tanto sul volerli realizzare tutti insieme, quanto sul cercare una
infrastruttura che permetta in un secondo tempo di realizzare gli altri
obiettivi potendo riutilizzare in maniera facile e veloce le
informazioni gia` disponibili.
> In particolare: la creazione di un dizionario credo sia al di fuori
> della portata di persone che non fanno questo per mestiere, e dunque
> per l'obiettivo 3) io vedrei come unica possibilità quella di trovare
> qualche dizionario già esistente, e cercare di convincere i detentori
> dei diritti d'autore relativi a devolverlo per la causa.
> Un discorso simile vale, anche se forse in misura minore, per
> l'obiettivo 2), cioè il thesaurus.
Di questo non sono molto convinto, sono d'accordo che e` un lavoro a
lungo termine e non urgente, ma secondo me si presta bene ad uno
sviluppo collaborativo (certo resta il problema del controllo della
qualita`, ma questo potrebbe essere affrontato in un secondo tempo).
Secondo me la strada presa dal DICT Development Group (vedi
http://www.dict.org/) per lo sviluppo di un dizionario e` interessante e
pure praticabile.
>
> Io concentrerei allora quasi tutte le energie, almeno in una prima
> fase, sull'obiettivo 1), cioè quello di disporre di un elenco
> sufficientemente ampio di parole corrette dal punto di vista
> ortografico.
>
> A questo scopo, credo che il problema XML vs. altre possibilità sia
> per ora secondario.
Anche di questo non sono convinto. Secondo me mettere delle buone basi
e` fondamentale per non tirarsi la zappa sui piedi piu` avanti. Pero`
sono d'accordo che fare solo questo rischia di trascinarsi inutilemente
e bloccare lo sviluppo del resto. Solo che almeno dei criteri base di
classificazione dovremmo tirarli fuori.
>
> Invece, vale la pena di concentrare i nostri sforzi studiando il
> modo più economico per generare un elenco completo di parole, in modo
> che inserendo ad es. "amare" tutte le voci del verbo siano create
> automaticamente da uno script, o inserendo "bello" automaticamente
> abbiamo anche bella, belli, belle, bellissimo, bellissimi ecc. (stando
> attenti che amico dia amici ma bruco dia bruchi...).
>
> La mia proposta è quella di distinguere innanzitutto tra categorie
> generali; es.:
> - verbi (eventualmente a loro volta suddivisi tra regolari e irregolari)
> - sostantivi
> - aggettivi
> - altro
Ok, qui c'e` gia` un po' di classificazione. E questo e` un lavoro che
va senz'altro fatto e che serve anche per generare l'infrastruttura,
quindi possiamo senz'altro partire a dettagliarlo di piu`.
Ad esempio tempo fa, in una notte insonne, mi ero messo a classificare
gli aggettivi. Non trovo piu` il foglio dove avevo scritto i risultati,
comunque mi ricordo che una prima divisione, proprio in base alle regole
per la generazione delle parole, era la seguente:
- invarianti: blu, viola
- senza genere: veloce/i, verde/i (finiscono in e e hanno il plurale in
i)
- con genere: bello/a/i/e (con tutte le complicazioni dovute a
co/ca/chi/che e simili con la g).
>
> Quanto alle definizione delle regole per generare tutte le parole
> derivate: a suo tempo, iniziando per conto mio un lavoro di questo
> tipo, presi come punto di partenza le regole di creazione degli
> "affixes" sotto ispell. Questi funzionano abbastanza bene quando si
> tratta di sostituire le finali delle parole.
Dovrebbe essere (ho corretto i permessi, prima non era leggibile) su:
http://www.firenze.linux.it/~piccardi/nuovo.aff.gz
dove c'e` pure la lista pulita (lemmi.txt.gz) e la lista con gli affissi
fino alla lettera b (vocabolario.txt.gz).
Per il resto sono d'accordo che quello degli affissi per ispell sia uno
dei lavori principali da fare. Il punto e` che per farlo occorre anche
dare una minima classificazione delle parole; se ne perdi traccia e
tieni solo gli affissi perdi del lavoro prezioso che poi ti toccherebbe
rifare.
Se ci limitiamo a mettere gli affissi senza classificare poi ci
tocchera` farlo in un secondo tempo. Se invece classifichiamo poi
attaccarci gli affissi diventa un meccanismo automatico, e bastera`
aggiungere una parola alla lista di quelle classificate in quel modo per
avere il lavoro fatto
Mi viene in mente ad esempio che abitante/i e veloce/i seguono la stessa
regola di affissi, ma il primo e` un sostantivo, il secondo no. Non mi
pare opportuno mescolarli, perche` poi in altra sede potrebbe diventare
necessario dividerli.
Ciao
Simone
--
Cio' che contraddistingue l'uomo e' la capacita' di farsi domande,
cio' che contraddistingue il saggio e' il non accontentarsi delle
risposte.
Maggiori informazioni sulla lista
Dizionario