[Dizionario] Divisione del file dei vocaboli, ed inserimento del tutto su CVS.
Simone Piccardi
piccardi a firenze.linux.it
Gio 2 Maggio 2002 13:14:20 CEST
On Wed, 2002-05-01 at 01:21, Mirko Maischberger wrote:
> Prima di poter scrivere volevo che mi chiarissi meglio cosa hai fatto e
> cosa intendi fare e che mi assegnassi una parte di lavoro. Appena avro`
> qualcosa da inserire in cvs parleremo anche dell'accesso, ma ancora mi
> sembra presto. Assegnami un pezzetto da curare...
Ci provo...
L'idea era di creare un file di lemmi (il vecchio lemmi.txt) che
contenesse solo le radici.
Per questo nel file c'erano solo verbi all'infinito, sostantivi
singolari (maschili), aggettivi singolari (maschili).
Per il momento la mia idea e` stata quella di suddividere il file unico
in tanti file piu` piccoli, secondo una classificazione elementare
(suggerimenti per migliorarla sono bene accetti) che renda poi molto
facile generare un file con affissi per ispell, semplicemente attaccando
lo stesso affisso a tutte le parole di ciascun file.
Inoltre avendo file separati in maniera logica mi viene piu` facile
riconscere eventuali errori (sia di classificazione che ortografici).
Alla fine si dovrebbero avere una serie di file associando a ciascuno
dei quali un affisso si dovrebbe poter ottenere velocemente un file per
ispell.
A quel punto si dovrebbe poter generare un file di vocaboli molto piu`
ampio da confrontare con i propri dizionari personali. Con una cosa
come:
$ cat vocabolario.txt ~/.ispell_default | sort | uniq| > temp.txt
$ diff temp.txt vocabolario.txt > diff.txt
si otterrebbero le differenze, che poi potrebbero essere integrate
velocemente (ricoscendo la opportuna radice, ed infilandola nel file
giusto).
Per questo a partire da alcune divisione banali (come grep are$
lemmi.txt > verbi_are.txt) ho riclassificato le parole nel segente
schema:
verbi_are.txt verbi che finiscono in are (epurando le parole come
solare, che non sono verbi).
verbi_ere.txt verbi che finiscono in ere (con la solita epurazione)
verbi_ire.txt verbi che finiscono in ire "
verbi_rre.txt verbi che finiscono in rre "
riflessivi.txt verbi che finiscono in rsi
Da questo ho pure generato un file (duplicati.txt, ma il nome andra`
migliorato) di parole che sono sia un verbo che altro (tipo militare).
Cosa resta da fare qui:
1) dividere i verbi fra regolari ed irregolari
2) gestire meglio i riflessivi, nel senso che dal punto di vista degli
affissi sono semplicemente verbi come gli altri con in piu`, la forma
-rsi all'infinito (e, per un sottoinsieme, senza quella regolare, che
sono poi quelli che ho cercato di mettere dentro riflessivi.txt).
3) trovare altre e migliori divisioni (se ci sono).
Per tutto quello che non sono verbi ho effettuato la ulteriore
divisione:
nomi.txt sostantivi
aggettivi.txt aggettivi
altri.txt tutto quello che a prima vista non mi rientrava nei
precedenti
Con questi tre file si rigenera noverb.txt (che era il file che
conteneva tutto quello che non erano verbi).
Inoltre ho messo in agg-nomi.txt gli aggettivi che sono anche un
sostantivo.
Questa e` ancora tutta da verificare. I lavori possibili sono dunque:
1) verifica della divisione (e` stata fatta in fretta)
2) suddivisione ulteriore dei nomi:
maschili
femminili
altro
altri criteri?
3) divisione degli aggettivi:
che finiscono in o (ed in genere fanno o/a/e/i)
che finscono in e (e vanno in e/i)
che finiscono in a (e fanno a/i o a/e/i)
invarianti (tipo blu).
4) classificazione degli altri
5) eventuali suddivisioni ulteriori (tipo mettere a parte i nomi di
citta` e stati).
Il criterio generale che ho usato finora e` che i file devono essere
complementari, cosi' che si possa riottere un lemmi .txt con un
semplice:
cat .... | sort > lemmi.txt
quando ho ottenuto cose che stavano su piu` categorie le ho sempre messe
su altri file.
Sul cosa fare: della divisione degli aggettivi me ne sto (come forse si
nota) occupando io, sono comunque bene accetti suggerimenti ed idee.
Tutto il resto e` a disposizione dei volenterosi.
Ciao
Simone
--
Cio' che contraddistingue l'uomo e' la capacita' di farsi domande,
cio' che contraddistingue il saggio e' il non accontentarsi delle
risposte.
Maggiori informazioni sulla lista
Dizionario