[Dizionario] LiberCorrige parte 3/4
Ruggero Montalto
ruggero.montalto a tiscalinet.it
Sab 18 Ott 2003 13:59:28 CEST
Messaggio: 1
Data: Tue, 14 Oct 2003 14:35:36 +0200
Da: Dario Zanotti <dario.zanotti a siemens.com>
Oggetto: Il punto della situazione
Ciao a tutti.
Visto che una prima versione e` stata inviata a MC per renderla disponibile,
volevo fare il punto della situazione. Chi di voi volesse essere aggiornato
con il software, me ne solleciti l'invio.
1) TOMMASO
Tommasino cresce (1715 righe di codice), e abbastanza bene.
Il TCL si e` dimostrato robusto, e la portabilita` del codice, almeno
con i sistemi operativi linux/Unix/MS, sembra garantita:
se ci fosse qualcuno a provare su Mac, si potrebbe gridare al successo.
Guido sta orizzontandosi sul problema della gestione dei set di caratteri,
e della comprensione del caotico codice che ho preparato: che sia l'inizio
di una documentazione decente riguardo alla gestione dei programmi della famiglia
Di Lemma? :-}
Vittorio ha collaudato il tutto su MS e ha anche ingolfato il povero Tommaso
con il lat(t)ino di Cesare. Meno male che lo stomachino sembra abbia
funzionato a dovere... in compenso abbiamo dimostrato che non e` difficile creare
dizionarietti a partire da gruppi di testi. :-)
Mi piacerebbe da Carlo un'analisi del pacchetto, visto che ha una vasta
esperienza di tool analoghi. Attendo con ansia sue segnalazioni.
Un po` di cose rimangono da fare, soprattutto con i dizionari (vedi sotto)
e per preparare Tommaso a una maggiore versatilita`. :-/
2) NARCISO
Narcisino il precisino ha evidenziato le carenze del sistema di analisi
dei lemmi tramite il dizionario attuale. Un piccolo risultato quindi lo ha gia`
dato.
Deve crescere per arrivare a gestire il sistema di dizionari:
aggiornarli, verificarli, esplorarli, collaudarli .
3) VALENTINA
Valenta credo avra` una parte importante nell'analisi dei nessi fra
lemmi, che pur essendo corretti singolarmente parlando, sono errati
nel loro insieme. Ci sto pensando... questo lavoro serve a stanare
gli errori piu` antipatici, quelli che nessun controllo su dizionario
potra` mai rilevare.
4) I dizionari
Il Dizionario di italiano di OpenOffice e` stato un buon inizio,
ma e` pieno di imprecisioni, di ridondanze e di termini inusuali
che lo gonfiano inutilmente.
L'idea e` di creare una serie di dizionari snelli (circa 50000 lemmi
e file aff descriventi declinazioni, coniugazioni, prefissi, eccetera) attorniati
da una galassia di dizionari tematici, o specialistici, in modo da
non intasare le prestazioni di un utente medio con termini che
non vedra` mai in vita sua, e permettere agli specialisti di verificare
i anche testi particolari. I file *.aff che sono di contorno ai dizionari
sono stati potenziati nella semantica e nei contenuti: e saranno
potenziati ancora di piu`.
5) OCR
La prima frontiera da affrontare; a questo riguardo lo studio
preliminare e` individuare quelle parole di senso compiuto
che l'OCR tende a scambiare, per esempio:
so <=> sa <=> se
inondo <=> mondo
par <=> per <=> por
farne <=> fame
II <=> il
ornai <=> omai
sarebbe utile, soprattutto per chi ha esperienza maturata sul campo,
fare una raccolta di questi casi: chi ne ha da aggiungere?
6) Meta linguaggio
Una volta affrontati i vari problemi sopra elencati, un nuovo orizzonte
si potrebbe aprire: l'analisi dei testi attraverso la loro riduzione a
meta linguaggio, in modo da individuare situazioni conflittuali;
se si potesse, per esempio, trasformare le parole "IL BAMBINO"
e "IL BAMBINA" in "Art det Sing Masch/Sost Sing Masch" e
"Art det. Sing Masch/Sost Sing Femm", si potrebbero
rilevare un ulteriore serie di errori: chi mi riesce a dare una mano
in questo senso?
Valentina potrebbe servire anche a questo scopo.
7) Poesia e metrica
Il linguaggio poetico contiene elementi peculiari che andrebbero
gestiti a parte, per esempio con un controllo "forte" sugli accenti
e le sillabazioni. Anche qui, pero`, qualcuno mi dovrebbe dare una mano,
perche` la mia ignoranza della metrica e` quasi completa.
Chi mi aiuta?
Bene. Sono sempre a disposizione per chiarimenti e delucidazioni:
datemi riscontri al lavoro fatto, e idee per lavori nuovi; e se poi qualcuno
lavorasse al posto mio... ;-)
Ciao
ancora,
Dario
Maggiori informazioni sulla lista
Dizionario