[Dizionario] Re: dizionario Digest, Vol 6, Issue 6

Dom 5 Set 2004 12:06:14 CEST

La sindrome Sherlock Holmes colpisce ancora:

> Confrontando i dati del tuo volume con le altre informazioni
> che abbiamo, appare chiaro che esso è stato stampato
> tra la fine del 1918 ed il 1919!!! Peccato che non hai la seconda
> pagina in cui sempre viene indicato il migliaio, ma ormai
> possiamo affermare con sicurezza che il migliaio per la tua
> edizione è compreso tra 306 e 335! (Mi sento Sherlock Holmes!)

>Per curiosità parlando della guerra del 1915-1918 qual'è
> l'ultima data del 1918 che nomina il tuo Melzi?
>
Ho controllato alla voce guerra sella sezione enciclopediaca (pp.489-495),
vengono riportati tutti gli avvenimenti parlando di guerra conclusa e quasi
al termine dell'articolo appare: "Il trattato con la Germania divenne
esecutivo dopo sanzionato da tre delle grandi potenze (sebbene mai sin qui
(aprile 1920) ratificato dagli Stati uniti d'america) [...]

> Quindi la mia edizione più vecchia non è del 1914
> (anche se la sua prefazione è di quell'anno), ma è
> dell'autunno 1916! Questo è un bel colpo di scena!  :-)

Si questo è abbastanza normale per i dizionari più vecchi, quelli moderni
vengono pubblicati con un anno di anticipi (per esempio Garzanti 2003
pubblicato nel 2002)

> Potremmo quindi fare le scansioni di tutte le pagine del
> tuo o di tutte le pagine del mio e metterle nel sito, come
> ho fatto per le prime tre pagine del Melzi 1916:
 Poi trascriverle tutte...

Oltre ad un problema di scanner, comunque ovviabile il danno maggiore della
mia versione è che alcune paginee risultano tagliate dal "cane" (scusate
l'espressione, ma sui libri sono molto facilmente irritabile) di rilegatore.
Però l'idea è veramente buona, è anche più semplice da ridigitare avendo
tutti e due le vidiate sullo stesso schemo.

> Poi opzionalmente per curiosità confrontare le voci
> del volume che non abbiamo trascritto con le voci del
> volume che abbiamo trascritto e dove ci sono differenza
> eventualmente trascrivere le voci mutate marchiandole
> in modo preciso con l'indicazione dell'edizione di provenienza.
>
> In questo modo per una certa voce con il passare degli
> anni potremo avere tutta una serie di definizioni con l'indicazione
> che provengono da:
> - Melzi 1916
> - Melzi 1918
> - Petrocchi 19XX
> - Scritta da noi 2004

anche questo mi sembra molto interessante. Potremmo anche fare la scansione
di quello "in migliore stato" e in seguito degli altri in modo che il
controllo possa essere fatto velocemente da tutti, ciascuno riguardando le
proprie pagine digitate. E rimarrebbe solo qualche elemento no leggibile.

> Per quanto riguarda le definizioni nuove, staremo attenti
> a non plagiare nessuno. Per gli esempi pescheremo da fonti
> nostre (Ad esempio possiamo pescare frasi di esempio con
> termini moderni in corpus che includono vaste raccolte
> di testi giornalistici contemporanei. Citazione di brevi
> frasi scelte in questo modo di sicuro è lecita e così
> non copieremo gli esempi degli altri dizionari moderni!)

Si, è esattamente a questo uso che avevo immaginato potessero servirci
programmi come Valentina o simili.

Consci dei corpora giornalistici dai quali possiamo attingere?

> Visto che è già di per sè un lavoro piuttosto vasto,
> proporrei prima di trascrivere tutta la parte linguistica
> (ci potremmo mettere uno o due anni) e di impegnarci
> un po' per integrare le parole mancanti.
> Finita questa prima parte potremmo trascrivere
> anche tutta la parte enciclopedica e integrare pure
> questa, ma è una cosa che terrei per dopo, altrimenti
> mi sa che rischiamo di mettere troppa carne sul fuoco...

O.k. anche perchè mi sa che siamo tutti tiranneggiati dal tempo.

> Quindi sono a favore di conservare il carattere enciclopedico,
> ma per praticità organizzativa terrei le parti linguistica
> ed enciclopedica separate (come viene fatto nei vecchi Melzi).
> Completando prima la prima parte...
>
> Cosa ne dici?

Si mi sembra molto logico. Anche perchè, correggimi se sbaglio, poi una
volta immesse le due parti, potremmo facilmente creare dei collegamenti, in
modo che da una voce della parte linguistica si passi direttamente a quella
enciclopedica di più ampio respiro, vero?
L'unico esempio italiano di dizionario enciclopedico italiano in cui le due
parti siano integrate, che conosco, è un vecchio Sansoni (degli anni '60 ca)
che amo molto, ma è troppo recente per il nostro lavoro. Semmai gli daremo
un'occhiatina in seguito (potrò vedere di fare qualche scansione
eventualmente).

> Vedrai che potrai modificare tutte le pagine che vuoi senza
> pericolo di danneggiare quello che hanno scritto gli altri...
>
> Ti propongo alcune procedure guidate in modo
> da chiarire i dubbi che proponi:
>
> PROCEDURA 1

Mi sono stampata tutte le procedure, ora le proverò, complimenti comunque
per la chiarezza, sei molto didattico. E' una dote invidiabile.

>Non mi sono spiegato bene.
>
> L'OCR su di una certa pagina sarebbe da provare _prima_ di trascrivere
> quella pagina. Così magari invece di doverla trascrivere da zero,
> basta correggere gli errori dell'OCR. Solo che ho visto che sul Melzi
> anche OCR molto buoni fanno così tanti ma tanti errori
> (quasi lettera per lettera), che mi sa che si faccia prima a digitare
> il tutto da zero senza passare per l'OCR.

Sono io che non ho letto con attenzione, e ho collegato l'OCR alla scansione
e non al riconoscimento dei caratteri, (che solitamente non considero quasi
come possibilità visto che, con i programmacci che ho, il lavoraccio che
dovrei fare dopo per correggere tutto è superiore al tempo di digitazione)

> Marika, scrivo qui in lista, perchè molte persone ci scoprono
> dagli archivi di questa mailing-list e leggendo questi messaggi
> possono imparare le stesse cose.
>
> Poi con il tempo migreremo questo tipo di spiegazioni
> sul sito stesso in modo che poi il tutto possa essere
> facile da seguire anche per persone che non hanno
> una laurea in informatica...
>
Hai ragione, è così che vi ho conoscuti io. Ma non ho avuto ancora il tempo
(rimado a dopo il dottorato) di finire il database personale di tutti gli
intervenenti con i relativi interventi, così credo che un po' tutti abbiate
delle competenze informatiche molto avanzate e mi spiace se questo vuol dire
appesantire la ML.
>
> PS: per le differenze tra le diverse licenze espanderò
> il glossarietto prossimamente... poi anche queste cose
> le metteremo nel sito.  :-)

Ok., anche se non ho capito ancora bene per quale procedimento
"psico-attitudinale" sembra essere più facile seguire le spiegazioni e le
comunicazioni tramite ML piuttosto che leggere le stesse cose direttamente
da un sito. Forse perchè ci si immagina l'interlocutore e/o si instaura un
dialogo sebbene virtuale che stimola l'attenzione reciproca (scusate
deformazione, tra le mie specializzazioni una molto preponderante è
l'analisi delle motivazioni dell'apprendimento).

Comunque, qualsiasi sia il motivo resta un dato di fatto che sto imparando
più cose dalle tue spiegazioni che da anni di letture di articoli di
linguistica computazionale. Mi appassiona veramente molto la "magia" che
riuscite a creare :))

>Per ora non abbiamo relazioni esplicite con il progetto wiktionary.

Visto che i riferimenti al progetto wiktionary sono sempre più frequenti, ho
dato un'occhiatina e mi sono iscritta alla loro ML, per cercare di capire a
cosa vi riferite, ma oltre alla mia poca simpatia che nutro verso l'uso
dell'inglese= lingua universale, mi sembra veramente un progetto più ampio e
un po' diverso rispetto al nostro.

A presto
Marìka
P.S.

Cos'è una "una serie di array"
Grazie e a presto Marìka