[Dizionario] Dizionario su palmare

Damon Davison davison a uni-koeln.de
Sab 6 Set 2003 18:08:14 CEST


On Saturday 06 September 2003 14:32, Andrea Sivieri wrote :
:  e` gia` stata fatta qualche prova e si e` osservato
:  che l'OCR sulle pagine ingiallite di un vecchio
:  dizionario funziona talmente male da non
:  essere praticabile. Anche il migliore OCR sbaglia
:  parole a raffica,  perche` la qualita` di
:  stampa di allora non era eccelsa (caratteri
:  un po' sovrapposti, contorni non perfettamente
:  nitidi...)

È vero che la qualità è un po' problematica.

:  L'idea alternativa era quella di fare le scansioni,
:  metterle su Internet e poi trascriverle a mano
:  in modo collaborativo, ad esempio con un Wiki,
:  come dici tu. Questa via sarebbe di sicuro piu`
:  rapida che non correggere i trilioni di errori
:  dell'OCR sull'arcaico testo.

Si, secondo il metodo "distributed transcription". :)  Ma sarebbe 
meglio fare la scansione, *poi OCR*, poi correzione.  Così c'è  
meno lavoro manuale per i collaboratori.

I programmi di OCR più moderni sono capace di 'imparare' anche i 
font difficili, ma sarebbe necessario che io vedessi la 
formatazione prima di dire più.

:  Mi viene in mente un'altra cosa:
:  il vecchio dizionario che ho in casa e` un po'
:  delicato e facendo scansioni pagina per pagina
:  si distruggerebbe di certo. 

Abbiamo tagliato il dizionario del vecchio francese 
Tobler-Lommatzsch per attenere questa fine, ma la case editrice 
del dizionario era molto cooperativa (publicarono la versione 
digitale) è ci aveva dato una copia delle 11 tomi:
http://www.uni-stuttgart.de/lingrom/stein/tl/index.htm

:  Solo due considerazioni, al di la` dell'uso per il
:  quale tu la consigliavi:
:
:  1. per tutte le forme regolari è possibile generare
:  declinazioni e coniugazioni in automatico a patto
:  di avere alcune informazioni di base. Ci sarebbero
:  poi da aggiungere a mano solo le forme irregolari.
:  Rendendo quindi un po' piu` sofisticata l'impostazione
:  della lista, ci sarebbero quindi in seguito grandi
:  risparmi di tempo e lavoro da parte dei compilatori.

Si, Aldo Calpini ha scritto, p. es. Lingua::Stem::It per Perl.

http://search.cpan.org/author/ACALPINI/Lingua-Stem-It-0.01/It.pm

L'algoritmo si trova qua:
http://snowball.tartarus.org/italian/stemmer.html

:  2. La licenza della lista e` GNU GPL, ma due righe
:  dopo viene vietato qualsiasi uso commerciale, mentre
:  la GNU GPL lo consente esplicitamente. Questa e`
:  una piccola contraddizione.

Si, ma la licenza è la licenza. ;)  Ci sono molto che pensono che 
la GPL vuole dire una interdizione del uso commericale... 

E c'è anche:

Per  ispell:

http://members.xoom.virgilio.it/trasforma/ispell/

Per OpenOffice:
http://lingucomponent.openoffice.org/download_dictionary.html
http://ftp.services.openoffice.org/pub/OpenOffice.org/contrib/dictionaries/README_it_IT.txt

-Damon

-- 
Damon Allen Davison
http://allolex.freeshell.org

"A UNIX life is hard."




Maggiori informazioni sulla lista Dizionario