[Dizionario] LiberCorrige parte 2/4
Ruggero Montalto
ruggero.montalto a tiscalinet.it
Sab 18 Ott 2003 13:59:23 CEST
Messaggio: 1
Data: Thu, 9 Oct 2003 08:39:50 +0200
Da: Carlo Traverso <traverso a dm.unipi.it>
Oggetto: cooperazione con DP
Carissimi,
non mi sono accorto subito della nuova lista, e apparentemente non si
possono consultare gli archivi se non colla registrazione su yahoo; e
non ricordo piu' i dati della mia registrazione, nemmeno tanto da
riuscire a farmi inviare i dati...
Comunque, sto iniziando a produrre un prodotto per la correzione
distribuita di testi post-release, pensato per il Project Gutenberg e
Distributed Proofreders, ma chiaramente utilizzabile per LiberLiber.
Inoltre, in quanto docente ad informatica a Pisa, ho proposto dei
progetti di stage per il conseguimento del diploma di laurea in
informatica, ed ho attualmente a disposizione due studenti che
lavoreranno per tre mesi a tempo pieno a tale progetto (o altri simili
nello stesso campo).
Altre possibilita' sono di adattare il software in uso a PG e DP, (ad
esempio ho adattato gutcheck al francese, ed ho scritto del software
per trovare le differenze fra files a livello carattere, o per
spostare le note a pie' pagina).
Sono quindi a disposizione per collaborare, se qualcuno puo' passarmi
un digest dei messaggi precedenti mi aggiorno.
Carlo
________________________________________________________________________
________________________________________________________________________
Messaggio: 2
Data: Thu, 09 Oct 2003 10:09:46 +0200
Da: Dario Zanotti <dario.zanotti a siemens.com>
Oggetto: Re: cooperazione con DP
Ciao a tutti.
Colgo l'occasione della mail di Carlo per fare il punto della situazione nella
famiglia "Di Lemma":
1) il programma detto "Tommaso", in grado di analizzare file in formato txt
e` praticamente pronto; verra` messo a disposizione molto presto, anche se
in una versione "BETA";
il programma e` in grado di segnalare sospetti errori basandosi sui seguenti
meccanismi:
- le parole vengono verificate con un dizionario preso da OpenOffice, e
facilmente modificabile;
a questo dizionario si possono aggiungere integrazioni tematiche o dizionari di
altre lingue;
- viene verificata la punteggiatura a livello di riga;
- vengono rilevati alcuni dei piu` comuni errori d'interpretazione OCR non
riscontrabili con un
dizionario
(ad es. so <=> se <=> sa): questa parte e` in evoluzione;
- si puo` semplicemente compiere un'analisi dei lemmi a fini statistici (o
utilizzabile per la
generazione di
nuovi dizionari);
- tutte le informazioni sono facilmente esportabili in formato testo;
- ogni sospetto errore, a livello singolo o di lemma, puo` essere "accettato" e
ignorato;
- ogni lemma, in errore o meno puo' essere opportunamente ricercato nel suo
contesto.
Il programma si basa sulla tecnologia TCL, si avvale di un'interfaccia grafica,
ed e` quindi utilizzabile con quasi tutti i sistemi operativi.
Vittorio ne ha avuto una copia, ma non credo che abbia avuto il tempo di
provarla.
Se qualcun'altro si offre a fare da cavia, si metta in comunicazione diretta con
me.
Le istruzioni per installare tutto il necessario sono in una precedente mail
della
lista; le depositero` quanto prima nella cartella apposita a disposizione di
libercorrige.
2) il programma detto "Narciso", in grado di analizzare il contenuto di un
dizionario,
e` in una fase di sviluppo, e vi terro` al corrente degli ulteriori progressi. In
futuro credo
potra` anche fare simulazioni sui lemmi e sulle loro varianti, in modo da aiutare
gli utenti nella generazione di dizionari mirati.
3) il programma detto "Valentina" e` in... concepimento, e sara` in grado di
rilevare
le combinazioni di parole utilizzate nei testi, in modo da affinare la
rilevazione
di errori OCR non riscontrabili da un dizionario.
Inoltre.
Marco credo che mi stia inviando i testi di liberliber da analizzare (quelli in
linea):
- Marco, mi confermi? -
dopo si partira` con le analisi e la segnalazione degli errori; intanto si
creeranno
dizionari ad hoc per l'italiano dei secoli passati, affinandosi statisticamente c
oi
testi a disposizione.
Dario
Maggiori informazioni sulla lista
Dizionario