[Dizionario] Petrocchi, Melzi e diritti d'autore; nota su TEI XML DTD per dizionari

Andrea Sivieri andrea.sivieri a libero.it
Mer 14 Ago 2002 18:45:47 CEST


> Essere citato, 5 mesi dopo...

Miracoli della tecnica  :-)

> Il progetto "dizionario", di cui sono solo un curioso, in maniera
> disorganizzata e libera, sta portando avanti diversi sotto-progetti,
> scollegati e indipendenti.
> 
> Qualcuno si sta occupando di raggruppare e organizzare gli elenchi delle
> parole della lingua italiana; c' %/1iso8859-15è pure un CVS.  La cosa 
sembra portare a
> dei risultati.

Le lista delle parole italiane per ispell e simili
in effetti non e` ben fornita come quella di
altre lingue. E` bello che il lavoro sia ripreso!
 
> Il passo di un dizionario vero e proprio  %/1iso8859-15è molto pi 
%/1iso8859-15ù lontano, purtroppo..
> 
> 1. Trovare uno o pi %/1iso8859-15ù dizionari che
>   a) siano fuori diritto d'autore e
>   b) abbiano un qualche valore.
> 
> Si potrebbe chiedere a LiberLiber.org, dove ci sono persone pi 
%/1iso8859-15ù esperte
> di me per entrambi i punti.  In teoria sia il Petrocchi che il Melzi
> dovrebbero essere fuori diritto d'autore, ma prima  %/1iso8859-15è meglio 
> essere sicuri.

Quando si fosse sicuri che un dato dizionario
abbia veramente i diritti scaduti e che valga la
pensa di prenderlo come riferimento, secondo
me si potrebbe tentare un approccio ad alto
parallelismo per tirarlo fuori dalla carta.

> 2. Inserire il testo, OCR, verifica, correzioni.  Questo  %/1iso8859-15è un 
lavoro
> allucinante, vero.  In LiberLiber ci sono dei "volontari" che lo fanno
> con romanzi.  Non  e` possibile costringere qualcuno a farlo :-) ed e` il
> collo di bottiglia del progetto.

Nel caso di questi vecchi dizionari con le pagine ingiallite,
considerando anche la grande quantita` di segni di punteggiatura 
e di accenti da riportare correttamente mi sa che si faccia prima a 
battersi una facciata a mano che non usando l'OCR e correggendo 
poi i segni che sono stati confusi.

Dimmi poi se ti sembra realistico l'approccio che sto per descrivere...

[Sto assumendo che sono scaduti i diritti anche sulla presentazione
tipografica da parte dell'editore, per cui si possa pubblicare su
internet la scansione delle pagine di un opera, ma questa cosa
e` da verificare]

1) Si sceglie l'opera da portare in formato elettronico e che soddisfi 
i criteri di cui sopra

[Supponiamo che l'opera abbia 800 facciate e che due facciate
ci stiano in una scansione A4. Questo e` il caso del Melzi, perche`
questo e` l'unico esempio concreto che ho in mano.]

2) Si pubblicano le 400 scansioni di tutte le pagine in formato png 
compresso su di in un apposito sito (volendo si tiene nel db 
indicazione di quale sia la prima e l'ultima voce di ogni pagina)

3) Tutti i siti che accettano di partecipare a questo progetto
invitano i loro visitatori ad andare nel sito delle scansioni,
adottarne una e inserire nel db del sito la versione trascritta
in formato testo (credo che serva al massimo una o due ore
per trascrivere due facciate)

[Supponiamo per fare un esempio che LiberLiber riesca 
a portare un visitatore su cento ad adottare una scansione.
Questo vorrebbe dire 400 persone che dedicano due 
ore al lavoro di trascrizione, se e` vero che LiberLiber
ha 40000 visitatori al mese e che i suoi visitatori hanno
a cuore gli stessi ideali di LiberLiber. In pratica se questo
scenario funzionasse, gli italiani di questa galassia
avrebbero un dizionario decente e accessibile a tutti nel
giro di pochi mesi. Ovvio che poi per revisionare l'opera
servirebbero forse un paio d'anni.]

Supponiamo poi che la trascrizione avvenga seguendo
tre semplicissime regole ovvero:
* tutto quello che e` in grassetto viene fatto precedere
da <b> e seguire da </b>
* tutto quello che e` in italico viene fatto precedere 
da <i> e seguire da </i>
* tra una voce e la successiva viene sempre lasciata
almeno una riga bianca.

[Dovrebbe essere possibile seguire queste regole
anche da una persona che non sia tanto esperta]

Avremmo allora trascrizioni di questo tipo:

-----------8<-----------------------

<b>Libr=ettino</b>, <i>dim.</i> di Libro. || 
<i>s.m.</i> Libriccino di carta adatta per far le 
spagnolette. || <b>-ettista</b>, <i>s.m.</i>
Chi scrive libretti per opere in musica.||
Possessore di libretti di Banca, di Cassa
di Risparmio, Posta, ec. || <b>-etto</b>,
<i>dim.</i> di Libro. || <i>s.m.</i> Taccuino
per prendere note, appunti, ec. || Fascicoletto
dove le Banche segnano le somme depositate
dai clienti. || <i>T.</i> Componimento drammatico
per opera. || <b>-iccino</b>, <i>dim.</i> di
Libretto. || <i>s.m.</i> Stoppino, cerino.

<b>Libro</b>, <i>s.m.</i> Riunione di fogli scritti,
stampati o bianchi, formanti un volume.||
Una delle parti principali in cui e` divisa
un'opera.|| L'opera scrittavi o stampatavi.
|| Registro nel quale scrivasi cio` che si riceve,
o si paga; cio` che si compra, o si vende. 
|| La parte piu` interna della corteccia, 
di cui si forma il legno, e che e` la parte piu` 
dura. || <b>-- nero</b>, Quello della Questura,
contenente la cronaca delle disgrazie e dei
delitti.|| <b>-- azzurro, bianco, giallo, verde</b>
ec. v. <i>Melzi Scient.</i>

<b>Licantropia</b>, <i>s.f.</i> Follia in cui l'infermo
credesi cambiato in lupo.

-----------8<-----------------------

Da queste si potrebbero estrarre in automatico
la maggior parte delle informazioni utili, che
potrebbero poi essere risalvate sempre con
poco intervento umano in file XML con
struttura piu` articolata.

Leggera variante:
Invece di chiedere ai trascrittori di inserire due intere facciate
(che possono contenere fino a ottanta voci) si chiede loro di
trascrivere solo alcune voci a loro scelta prese tra quelle
non ancora trascritte. Se addirittura ci fossero in linea
le scansioni delle pagine di diversi dizionari si potrebbe
far scegliere anche la fonte, il cui identificativo verrebbe
poi salvato in automatico assieme alle voci trascritte.
Il fatto di sapere prima e ultima parola di una scansione
permette di mandare il trascrittore in automatico sulla
scansione giusta.

> 3. Strutturare il testo.  XML e non si discute.  TEI (che per 
%/1iso8859-15ò  %/1iso8859-15è stato
> pensato ma poco usato, mi pare) o qualcosa di pi %/1iso8859-15ù 
artigianale, in modo
> da poterlo trasformare in (X)HTML.  Qui mi divertirei pure.

TEI ha un po' di pregi e un po' di difetti,
quello che intendevo io era di guardarsi
la parte TEI Dictionary e _poi_ crearsi
un DTD ad hoc, limitando cosi` il rischio
di qualche dimenticanza grossolana.  :-)

> Si potrebbe anche decidere di spingere http://it.wikipedia.com/ che
> attualmente  %/1iso8859-15è vuoto, ma che con qualche contributo potrebbe 
avere un
> qualche valore.  Loro per %/1iso8859-15ò sono per testo poco strutturato.  
Inglese,
> spagnolo, tedesco e polacco stanno andando benino, ad esempio.

Se venisse trascritto un intero dizionario,
queste informazioni potrebbero poi essere
riversate in automatico in altre basi di
conoscenza come ad esempio wikipedia.

Secondo me una cosa importante pero`
e` non perdere mai le fonti dei pezzetti di
informazione, in modo che se ci si trova
a presentare all'utente ad esempio diverse
definizioni di "libro" gli si possa dire anche
da dove vengono (Es: Petrocchi, N. Melzi,
utente internet anonimo, ...)

> E il dubbio finale  %/1iso8859-15è se ha senso unire tutte 
> queste cose in un unico
> dizionario-enciclopedico libero o cercare di mantenere i progetti
> separati.

Credo che bisogna tenere ogni fonte ben separata,
ma che poi verrebbe da se una quantita` sufficiente
di materiale per un dizionario-enciclopedico 
dotato in molti casi di definizioni multiple ben legate 
pero` alla loro fonte originaria. 

Perdendo le fonti invece verrebbe un
gran pasticcio in cui sarebbe impossibile avere
un'idea del valore e livello di attualita` delle
diverse voci.

In poche parole: raccogliere separatamente
e lasciare poi ai beneficiari piccoli o grandi che
siano la decisione di come creare meta-raccolte.

Sarebbe bellissimo avere un intero dizionario
ricco di definizioni che si installa in automatico
assieme al resto di una distribuzione Linux
ad esempio!  :-)))

Per non parlare dei benefici per chi sta imparando
l'italiano all'estero o per tutti gli italiani emigrati.
L'italiano verrebbe ad avere finalmente risorse 
libere simili a quelle che ci sono per l'inglese
o altre lingue.

> Domenica parto per le vacanze,
> ad autunno getto un altro sasso nello stagno,

Credo che per questa estate sara` per me l'ultimo
sasso che getto nello stagno, perche` ho detto
tutto quello che mi frullava in testa sull'argomento
e per il resto sono molto indaffarato con la mia
tesi di laurea.

Rimango in ascolto e se emergera` un buon dizionario 
che _con_sicurezza_ si puo` trascrivere senza violare
i diritti d'autore, scendero` in campo per fare qualcosa
di concreto in modo che questo sotto-progetto non
debba aspettare fino al 2020 per vedere la luce.

Di nuovo buone vacanze!

                 Andrea

PS: per me fare qualcosa di concreto vuol dire scrivere
un po' di righe di Python, PHP ed SQL per raggiungere l'obiettivo,
lo faccio volentieri per un progetto come questo che mi sta 
particolarmente a cuore.

Ma ci sono anche queste cose da fare che sarebbero importanti:
* avere la _certezza_ giuridica che un dato dizionario sia libero 
(mica vogliamo fare del lavoro per niente)
* contattare LiberLiber e altri per raccogliere forza lavoro e consigli
* trovare un server Linux in rete su cui poter far girare qualche riga 
di codice per raccogliere il materiale (le eventuali scansioni occupano
abbastanza spazio anche se compresse)

Secondo me e` possibile in un paio di anni arrivare a buon punto,
se solo si comincia; comunque hai ragione tu che conviene riparlarne
in autunno e nel mio caso appena dopo aver consegnato la tesi  :-)



Maggiori informazioni sulla lista Dizionario