[Dizionario] Dizionario su palmare
Damon Davison
davison a uni-koeln.de
Sab 6 Set 2003 18:08:14 CEST
On Saturday 06 September 2003 14:32, Andrea Sivieri wrote :
: e` gia` stata fatta qualche prova e si e` osservato
: che l'OCR sulle pagine ingiallite di un vecchio
: dizionario funziona talmente male da non
: essere praticabile. Anche il migliore OCR sbaglia
: parole a raffica, perche` la qualita` di
: stampa di allora non era eccelsa (caratteri
: un po' sovrapposti, contorni non perfettamente
: nitidi...)
È vero che la qualità è un po' problematica.
: L'idea alternativa era quella di fare le scansioni,
: metterle su Internet e poi trascriverle a mano
: in modo collaborativo, ad esempio con un Wiki,
: come dici tu. Questa via sarebbe di sicuro piu`
: rapida che non correggere i trilioni di errori
: dell'OCR sull'arcaico testo.
Si, secondo il metodo "distributed transcription". :) Ma sarebbe
meglio fare la scansione, *poi OCR*, poi correzione. Così c'è
meno lavoro manuale per i collaboratori.
I programmi di OCR più moderni sono capace di 'imparare' anche i
font difficili, ma sarebbe necessario che io vedessi la
formatazione prima di dire più.
: Mi viene in mente un'altra cosa:
: il vecchio dizionario che ho in casa e` un po'
: delicato e facendo scansioni pagina per pagina
: si distruggerebbe di certo.
Abbiamo tagliato il dizionario del vecchio francese
Tobler-Lommatzsch per attenere questa fine, ma la case editrice
del dizionario era molto cooperativa (publicarono la versione
digitale) è ci aveva dato una copia delle 11 tomi:
http://www.uni-stuttgart.de/lingrom/stein/tl/index.htm
: Solo due considerazioni, al di la` dell'uso per il
: quale tu la consigliavi:
:
: 1. per tutte le forme regolari è possibile generare
: declinazioni e coniugazioni in automatico a patto
: di avere alcune informazioni di base. Ci sarebbero
: poi da aggiungere a mano solo le forme irregolari.
: Rendendo quindi un po' piu` sofisticata l'impostazione
: della lista, ci sarebbero quindi in seguito grandi
: risparmi di tempo e lavoro da parte dei compilatori.
Si, Aldo Calpini ha scritto, p. es. Lingua::Stem::It per Perl.
http://search.cpan.org/author/ACALPINI/Lingua-Stem-It-0.01/It.pm
L'algoritmo si trova qua:
http://snowball.tartarus.org/italian/stemmer.html
: 2. La licenza della lista e` GNU GPL, ma due righe
: dopo viene vietato qualsiasi uso commerciale, mentre
: la GNU GPL lo consente esplicitamente. Questa e`
: una piccola contraddizione.
Si, ma la licenza è la licenza. ;) Ci sono molto che pensono che
la GPL vuole dire una interdizione del uso commericale...
E c'è anche:
Per ispell:
http://members.xoom.virgilio.it/trasforma/ispell/
Per OpenOffice:
http://lingucomponent.openoffice.org/download_dictionary.html
http://ftp.services.openoffice.org/pub/OpenOffice.org/contrib/dictionaries/README_it_IT.txt
-Damon
--
Damon Allen Davison
http://allolex.freeshell.org
"A UNIX life is hard."
Maggiori informazioni sulla lista
Dizionario