[Dizionario] Dizionario su palmare

Andrea Sivieri andrea.sivieri a libero.it
Dom 7 Set 2003 21:19:10 CEST


> :  L'idea alternativa era quella di fare le scansioni,
> :  metterle su Internet e poi trascriverle a mano
> :  in modo collaborativo, ad esempio con un Wiki,
> :  come dici tu. Questa via sarebbe di sicuro piu`
> :  rapida che non correggere i trilioni di errori
> :  dell'OCR sull'arcaico testo.
>
> Si, secondo il metodo "distributed transcription". :)  Ma sarebbe
> meglio fare la scansione, *poi OCR*, poi correzione.  Così c'è
> meno lavoro manuale per i collaboratori.
>
> I programmi di OCR più moderni sono capace di 'imparare' anche i
> font difficili, ma sarebbe necessario che io vedessi la
> formatazione prima di dire più.

Nel caso del dizionario mio ti assicuro che c'e`
meno lavoro se non si passa per l'OCR, perchè
anche con il migliore OCR vengono errati
il 50% di accenti, punteggiatura, parole, ecc.

In sostanza nel tempo che si corregge una
riga, una persona che batte ad una velocità
media ne avrebbe battute tre, senza il 
fastidio di doversi fermare ad ogni parola
e virgola. 

In questo momento non ho il materiale a 
portata di mano, ma eventualmente piu` 
avanti posso mettere online una scansione 
di esempio.

Ammetto che l'OCR era stato fatto su di 
una singola pagina. Forse addestrando il
programma su qualche decina di pagine
si potrebbero ottenere risultati un pochetto
migliori. Ma non ne sarei tanto certo,
perche` le pagine sono scurette ed
il contrasto dei caratteri sullo sfondo 
giallastro lascia a desiderare.

Idea: servirebbe un volume conservato meglio!  :-)

> :  Mi viene in mente un'altra cosa:
> :  il vecchio dizionario che ho in casa e` un po'
> :  delicato e facendo scansioni pagina per pagina
> :  si distruggerebbe di certo.
>
> Abbiamo tagliato il dizionario del vecchio francese
> Tobler-Lommatzsch per attenere questa fine, ma la case editrice
> del dizionario era molto cooperativa (publicarono la versione
> digitale) è ci aveva dato una copia delle 11 tomi:
> http://www.uni-stuttgart.de/lingrom/stein/tl/index.htm

Lavoro davvero di qualita`!  :-)

> Si, Aldo Calpini ha scritto, p. es. Lingua::Stem::It per Perl.
>
> http://search.cpan.org/author/ACALPINI/Lingua-Stem-It-0.01/It.pm
>
> L'algoritmo si trova qua:
> http://snowball.tartarus.org/italian/stemmer.html

:-)

> :  2. La licenza della lista e` GNU GPL, ma due righe
> :  dopo viene vietato qualsiasi uso commerciale, mentre
> :  la GNU GPL lo consente esplicitamente. Questa e`
> :  una piccola contraddizione.
>
> Si, ma la licenza è la licenza. ;)  Ci sono molto che pensono che
> la GPL vuole dire una interdizione del uso commericale...

Vero...

A risentirci, Andrea

PS: ho guardato anche gli altri link  :-)




Maggiori informazioni sulla lista Dizionario