From cokama1 a email.com Sat Aug 3 20:13:01 2002 From: cokama1 a email.com (Coka Camara) Date: Sat, 3 Aug 2002 20:13:01 Subject: [Dizionario] SOLICITING FOR BUSINESS PARTNERSHIP AND INVESTMENT MANAGER Message-ID: <20020803180913.1A0483C076@firenze.linux.it> Un allegato HTML è stato rimosso... URL: From andrea.sivieri a libero.it Wed Aug 14 13:09:35 2002 From: andrea.sivieri a libero.it (Andrea Sivieri) Date: Wed, 14 Aug 2002 13:09:35 +0200 Subject: [Dizionario] Petrocchi, Melzi e diritti d'autore; nota su TEI XML DTD per dizionari Message-ID: <02081413093505.01800@eagle.localdomain> Ciao! Mi sono iscritto ieri alla lista dizionario e sono convinto anche io che sia una iniziativa importante. Ho letto un po' gli archivi... e questo messagio mi ha spinto a fare una piccola indagine: Il 4 Marzo 2002, Giovanni Pensa scrisse: > On Mon, 2002-03-04 at 11:21, Mirko Maischberger wrote: > > Giovanni Pensa il 2002/02/28 12:42:18 +0100: > > |Se trovo un momento provo a mettere online qualche definizione dal > > |Petrocchi, in XML ovviamente, tanto per vedere come sta un libro > > |d'inizio secolo (scorso) in una veste d'inizio secolo (nuovo). > > Attendo con ansia: se puoi, cerca "pizza". > > Nel Petrocchi "pizza" non c'=E8. O meglio, c'=E8 nella parte "parole > antiche" con strani significati. Vedi quanto =E8 inutile un vecchio > dizionario? :) Per curiosita` ho guardato qual'era il dizionario piu` vecchio che avevo in casa e ho trovato il "Nuovissimo Melzi" ed. Vallardi uscito nel 1914. Contiene queste definizioni per pizza e pizzaiolo: Pizza, s.f. Schiacciata napoletana con alici, cacio, pomodoro e cotta al forno. Pizzaiolo, a, s. Chi fa, o vende la pizza. Secondo voi sono scaduti i diritti d'autore su questa opera oppure no? Il Prof. Melzi che ha curato le prime edizioni del Melzi mori` nel 1911 (c'e` una foto in sua memoria all'inizio). Non ho informazioni invece sul dott. prof. Attilio Butti che curo` l'aggiornamento della parte letteraria del "Nuovissimo Melzi". La Treccani dice qualcosa? Questa opera ha anche una parte scientifico-enciclopedica curata invece dal dottor Alfredo Comandini che dovrebbe essere morto negli anni venti se l'Alfredo Comandini che ho trovato citato su alcune pagine internet non e` un altro. Per essere sicuri che i diritti siano scaduti, si deve tenere conto anche di altre persone che hanno collaborato a vario titolo all'opera e che non sono citate? Inoltre c'e` da dire che la Vallardi ha continuato ad ampliare il "Nuovissimo Melzi" fino agli anni 60. Ma mi sembrerebbe di poter dire che possano scadere i diritti su una vecchia edizione anche se ce ne sono di recenti, se gli autori dell'edizione vecchia sono morti da piu` di 70 anni. Bisognerebbe pero` conoscere un giurista che opera nel campo per essere sicuri... > Allora, ho messo tre (si, 3) definizioni in un file XML all'urlo > http://www.giovannipensa.com/dizionario/petrocchi.xml Vedo che il Melzi e` molto piu` conciso del Petrocchi. Il Melzi credo che fosse pensato per un pubblico piu` giovane, infatti la nota dell'editore alla fine dice: [...] il ricordo di lui [il Melzi] sopravvivera` a lungo, specialmente per opera di questo volume, cosi` ricercato dalla gioventu` e dalle famiglie italiane [...] Per le voci "dizionario" e "vocabolario" riporta: Dizionario, s.m. Libro ove sono raccolte e spiegate, in ordine alfabetico, le parole e le frasi d'una lingua, o i vocaboli propri di una scienza, di un'arte, ecc. Vocabol=ario, s.m. Raccolta di vocaboli d'una lingua, disposti, generalmente, lettera per lettera, in ordine alfabetico e logicamente definiti, spiegati; e, spesso, avvalorati da qualche esempio. ||-arista, s.2g. Compilatore, compilatrice di vocabol. Vocabolo, s.m. Voce con cui indicasi ciascuna cosa particolare. || Sin. Parola Non mette tutti i derivati di dizionario e vocabolario che mette il Petrocchi, quindi credo che abbia meno parole di tale opera. Comunque la parte linguistica contiene: * 80000 voci della lingua scritta e parlata * la retta pronuncia di tutte le parole * i vocaboli antiquati * le voci principali dell'uso toscano * 8000 sinonimi * 4400 neologismi usabili Da notare che termini come America non sono nella parte linguistica di 864 pagine, ma nella parte scientifica di 842 pagine. Pero` nella parte linguistica c'e` ad esempio "americanata": American=ata, s.f. neol. Fatto, od impresa audace, o sfrontata. ||-ismo, s.m. Tendenza degli Stati Uniti ad ingrandirsi. ||Nuova dottrina cattolica degli Stati Uniti d'America, disapprovata dal Vaticano, perche` contraria all'unita` della Chiesa. || Il complesso dei fenomeni psicologici, etnici, ec., caratterizzanti il popolo americano. || spreg. Il culto del benessere materiale, del successo e della ciarlataneria. Nelle trascrizioni sopra non ho riportato gli accenti sulle vocali interne per la pronuncia, ma per il resto sono stato fedele (le esse erano tutte normali, ad esempio). > Se avete Mozilla/Galeon od Opera potete anche vederne una mediocre > edizione in XML+CSS. > > Non ho lavorato molto sull'XML. Anche prima di trovare un dizionario, > sarebbe bello pensare a possibili elementi ed attributi da usare. Ad > esempio, la non =E8 tutta la "voce", come ho fatto io.=20 > Andr=F2 a cercare qualche cosa. L'idea di impostare un DTD XML adatto a questo progetto e` ottima. Non so bene se le discussioni successive abbiano gia` portato a qualche risultato. Conviene dare un'occhiata a questo: http://www.tei-c.org/P4X/DI.html e magari anche a questo: http://www.up.univ-mrs.fr/~veronis/pdf/1998euralex.pdf per farsi un'idea di quali sono state altre esperienze in questo campo e quindi avere un aiuto per fissare i requisiti di partenza. Comunque poi e` relativamente facile fare trasformazioni da un formato xml ad un altro che abbia livello di dettaglio simile. > Ho fatto in modo che il risultato XML+CSS fosse molto simile alla > grafica dell'originale. C'=E8 da dire, comunque, che questa non =E8 > costante e comunque non merita di essere seguita alla lettera. Invece > il testo XML =E8 un po' pi=F9 moderno, con parole in minuscolo, ecc. > > Da notare l'uso della esse-lunga (no, non =E8 una pubblicit=E0), i costanti > accenti e l'odioso =E0 senza acca. > > Non so se il Petrocchi sia una scelta valida, mi ha sempre divertito e > risolti i problemi di parole "vecchie". Altri possono dire se meriti o > meno uno sforzo del genere. Ci sono certamente altre possibilit=E0 da > valutare. > > Comunque penso (ma potrei sbagliare, le leggi italiane sono sempre pi=F9=20 > complicate di quanto sembri all'inizio) che sia fuori diritti d'autore. > > La Treccani dice: > > Policarpo Petrocchi, filologo nato il 16 marzo 1852 [...], morto ivi > il 25 agosto 1902. [...] > Nel /N=F2vo dizionario universale della lingua italiana/ (voll. 2, > Milano 1887-91) [...] > =20 > Vedremo. Il Melzi nella parte enciclopedica dice del Petrocchi: Petrocchi (Policarpo), b. Prof. pistolese, ill. filologo e lessicog. Op. princ.: Novo dizion. della lingua it.; Thesaurus, ec. 1851 [piccola croce] 1902. Non so se il Melzi sia una scelta valida, ma non mi sembra male la sua concisione ed il suo linguaggio moderno. Intanto ve l'ho presentato cosi` abbiamo un candidato in piu`. :-) Buone vacanze per chi e` in vacanza, buon lavoro a chi le ha finite! Andrea PS: perdonate la lunghezza del messaggio: spero di non avervi annoiato. From public a giovannipensa.com Wed Aug 14 15:14:56 2002 From: public a giovannipensa.com (Giovanni Pensa) Date: 14 Aug 2002 15:14:56 +0200 Subject: [Dizionario] Petrocchi, Melzi e diritti d'autore; nota su TEI XML DTD per dizionari In-Reply-To: <02081413093505.01800@eagle.localdomain> References: <02081413093505.01800@eagle.localdomain> Message-ID: <1029330896.30897.47.camel@popocatepetl> On Wed, 2002-08-14 at 13:09, Andrea Sivieri wrote: > Ho letto un po' gli archivi... e questo messagio Essere citato, 5 mesi dopo... > Per curiosita` ho guardato qual'era il dizionario > piu` vecchio che avevo in casa e ho trovato il > "Nuovissimo Melzi" ed. Vallardi uscito nel 1914. > > Per essere sicuri che i diritti siano scaduti, > si deve tenere conto anche di altre persone > che hanno collaborato a vario titolo all'opera > e che non sono citate? > > Inoltre c'e` da dire che la Vallardi ha continuato > ad ampliare il "Nuovissimo Melzi" fino agli anni 60. [...] > L'idea di impostare un DTD XML > adatto a questo progetto e` ottima. Il progetto "dizionario", di cui sono solo un curioso, in maniera disorganizzata e libera, sta portando avanti diversi sotto-progetti, scollegati e indipendenti. Qualcuno si sta occupando di raggruppare e organizzare gli elenchi delle parole della lingua italiana; c'è pure un CVS. La cosa sembra portare a dei risultati. Il passo di un dizionario vero e proprio è molto più lontano, purtroppo. 1. Trovare uno o più dizionari che a) siano fuori diritto d'autore e b) abbiano un qualche valore. Si potrebbe chiedere a LiberLiber.org, dove ci sono persone più esperte di me per entrambi i punti. In teoria sia il Petrocchi che il Melzi dovrebbero essere fuori diritto d'autore, ma prima è meglio essere sicuri. 2. Inserire il testo, OCR, verifica, correzioni. Questo è un lavoro allucinante, vero. In LiberLiber ci sono dei "volontari" che lo fanno con romanzi. Non è possibile costringere qualcuno a farlo :-) ed è il collo di bottiglia del progetto. 3. Strutturare il testo. XML e non si discute. TEI (che però è stato pensato ma poco usato, mi pare) o qualcosa di più artigianale, in modo da poterlo trasformare in (X)HTML. Qui mi divertirei pure. Si potrebbe anche decidere di spingere http://it.wikipedia.com/ che attualmente è vuoto, ma che con qualche contributo potrebbe avere un qualche valore. Loro però sono per testo poco strutturato. Inglese, spagnolo, tedesco e polacco stanno andando benino, ad esempio. E il dubbio finale è se ha senso unire tutte queste cose in un unico dizionario-enciclopedico libero o cercare di mantenere i progetti separati. Domenica parto per le vacanze, ad autunno getto un altro sasso nello stagno, g. From andrea.sivieri a libero.it Wed Aug 14 18:45:47 2002 From: andrea.sivieri a libero.it (Andrea Sivieri) Date: Wed, 14 Aug 2002 18:45:47 +0200 Subject: [Dizionario] Petrocchi, Melzi e diritti d'autore; nota su TEI XML DTD per dizionari Message-ID: <02081418454706.01800@eagle.localdomain> > Essere citato, 5 mesi dopo... Miracoli della tecnica :-) > Il progetto "dizionario", di cui sono solo un curioso, in maniera > disorganizzata e libera, sta portando avanti diversi sotto-progetti, > scollegati e indipendenti. > > Qualcuno si sta occupando di raggruppare e organizzare gli elenchi delle > parole della lingua italiana; c' %/1iso8859-15è pure un CVS. La cosa sembra portare a > dei risultati. Le lista delle parole italiane per ispell e simili in effetti non e` ben fornita come quella di altre lingue. E` bello che il lavoro sia ripreso! > Il passo di un dizionario vero e proprio %/1iso8859-15è molto pi %/1iso8859-15ù lontano, purtroppo.. > > 1. Trovare uno o pi %/1iso8859-15ù dizionari che > a) siano fuori diritto d'autore e > b) abbiano un qualche valore. > > Si potrebbe chiedere a LiberLiber.org, dove ci sono persone pi %/1iso8859-15ù esperte > di me per entrambi i punti. In teoria sia il Petrocchi che il Melzi > dovrebbero essere fuori diritto d'autore, ma prima %/1iso8859-15è meglio > essere sicuri. Quando si fosse sicuri che un dato dizionario abbia veramente i diritti scaduti e che valga la pensa di prenderlo come riferimento, secondo me si potrebbe tentare un approccio ad alto parallelismo per tirarlo fuori dalla carta. > 2. Inserire il testo, OCR, verifica, correzioni. Questo %/1iso8859-15è un lavoro > allucinante, vero. In LiberLiber ci sono dei "volontari" che lo fanno > con romanzi. Non e` possibile costringere qualcuno a farlo :-) ed e` il > collo di bottiglia del progetto. Nel caso di questi vecchi dizionari con le pagine ingiallite, considerando anche la grande quantita` di segni di punteggiatura e di accenti da riportare correttamente mi sa che si faccia prima a battersi una facciata a mano che non usando l'OCR e correggendo poi i segni che sono stati confusi. Dimmi poi se ti sembra realistico l'approccio che sto per descrivere... [Sto assumendo che sono scaduti i diritti anche sulla presentazione tipografica da parte dell'editore, per cui si possa pubblicare su internet la scansione delle pagine di un opera, ma questa cosa e` da verificare] 1) Si sceglie l'opera da portare in formato elettronico e che soddisfi i criteri di cui sopra [Supponiamo che l'opera abbia 800 facciate e che due facciate ci stiano in una scansione A4. Questo e` il caso del Melzi, perche` questo e` l'unico esempio concreto che ho in mano.] 2) Si pubblicano le 400 scansioni di tutte le pagine in formato png compresso su di in un apposito sito (volendo si tiene nel db indicazione di quale sia la prima e l'ultima voce di ogni pagina) 3) Tutti i siti che accettano di partecipare a questo progetto invitano i loro visitatori ad andare nel sito delle scansioni, adottarne una e inserire nel db del sito la versione trascritta in formato testo (credo che serva al massimo una o due ore per trascrivere due facciate) [Supponiamo per fare un esempio che LiberLiber riesca a portare un visitatore su cento ad adottare una scansione. Questo vorrebbe dire 400 persone che dedicano due ore al lavoro di trascrizione, se e` vero che LiberLiber ha 40000 visitatori al mese e che i suoi visitatori hanno a cuore gli stessi ideali di LiberLiber. In pratica se questo scenario funzionasse, gli italiani di questa galassia avrebbero un dizionario decente e accessibile a tutti nel giro di pochi mesi. Ovvio che poi per revisionare l'opera servirebbero forse un paio d'anni.] Supponiamo poi che la trascrizione avvenga seguendo tre semplicissime regole ovvero: * tutto quello che e` in grassetto viene fatto precedere da e seguire da * tutto quello che e` in italico viene fatto precedere da e seguire da * tra una voce e la successiva viene sempre lasciata almeno una riga bianca. [Dovrebbe essere possibile seguire queste regole anche da una persona che non sia tanto esperta] Avremmo allora trascrizioni di questo tipo: -----------8<----------------------- Libr=ettino, dim. di Libro. || s.m. Libriccino di carta adatta per far le spagnolette. || -ettista, s.m. Chi scrive libretti per opere in musica.|| Possessore di libretti di Banca, di Cassa di Risparmio, Posta, ec. || -etto, dim. di Libro. || s.m. Taccuino per prendere note, appunti, ec. || Fascicoletto dove le Banche segnano le somme depositate dai clienti. || T. Componimento drammatico per opera. || -iccino, dim. di Libretto. || s.m. Stoppino, cerino. Libro, s.m. Riunione di fogli scritti, stampati o bianchi, formanti un volume.|| Una delle parti principali in cui e` divisa un'opera.|| L'opera scrittavi o stampatavi. || Registro nel quale scrivasi cio` che si riceve, o si paga; cio` che si compra, o si vende. || La parte piu` interna della corteccia, di cui si forma il legno, e che e` la parte piu` dura. || -- nero, Quello della Questura, contenente la cronaca delle disgrazie e dei delitti.|| -- azzurro, bianco, giallo, verde ec. v. Melzi Scient. Licantropia, s.f. Follia in cui l'infermo credesi cambiato in lupo. -----------8<----------------------- Da queste si potrebbero estrarre in automatico la maggior parte delle informazioni utili, che potrebbero poi essere risalvate sempre con poco intervento umano in file XML con struttura piu` articolata. Leggera variante: Invece di chiedere ai trascrittori di inserire due intere facciate (che possono contenere fino a ottanta voci) si chiede loro di trascrivere solo alcune voci a loro scelta prese tra quelle non ancora trascritte. Se addirittura ci fossero in linea le scansioni delle pagine di diversi dizionari si potrebbe far scegliere anche la fonte, il cui identificativo verrebbe poi salvato in automatico assieme alle voci trascritte. Il fatto di sapere prima e ultima parola di una scansione permette di mandare il trascrittore in automatico sulla scansione giusta. > 3. Strutturare il testo. XML e non si discute. TEI (che per %/1iso8859-15ò %/1iso8859-15è stato > pensato ma poco usato, mi pare) o qualcosa di pi %/1iso8859-15ù artigianale, in modo > da poterlo trasformare in (X)HTML. Qui mi divertirei pure. TEI ha un po' di pregi e un po' di difetti, quello che intendevo io era di guardarsi la parte TEI Dictionary e _poi_ crearsi un DTD ad hoc, limitando cosi` il rischio di qualche dimenticanza grossolana. :-) > Si potrebbe anche decidere di spingere http://it.wikipedia.com/ che > attualmente %/1iso8859-15è vuoto, ma che con qualche contributo potrebbe avere un > qualche valore. Loro per %/1iso8859-15ò sono per testo poco strutturato. Inglese, > spagnolo, tedesco e polacco stanno andando benino, ad esempio. Se venisse trascritto un intero dizionario, queste informazioni potrebbero poi essere riversate in automatico in altre basi di conoscenza come ad esempio wikipedia. Secondo me una cosa importante pero` e` non perdere mai le fonti dei pezzetti di informazione, in modo che se ci si trova a presentare all'utente ad esempio diverse definizioni di "libro" gli si possa dire anche da dove vengono (Es: Petrocchi, N. Melzi, utente internet anonimo, ...) > E il dubbio finale %/1iso8859-15è se ha senso unire tutte > queste cose in un unico > dizionario-enciclopedico libero o cercare di mantenere i progetti > separati. Credo che bisogna tenere ogni fonte ben separata, ma che poi verrebbe da se una quantita` sufficiente di materiale per un dizionario-enciclopedico dotato in molti casi di definizioni multiple ben legate pero` alla loro fonte originaria. Perdendo le fonti invece verrebbe un gran pasticcio in cui sarebbe impossibile avere un'idea del valore e livello di attualita` delle diverse voci. In poche parole: raccogliere separatamente e lasciare poi ai beneficiari piccoli o grandi che siano la decisione di come creare meta-raccolte. Sarebbe bellissimo avere un intero dizionario ricco di definizioni che si installa in automatico assieme al resto di una distribuzione Linux ad esempio! :-))) Per non parlare dei benefici per chi sta imparando l'italiano all'estero o per tutti gli italiani emigrati. L'italiano verrebbe ad avere finalmente risorse libere simili a quelle che ci sono per l'inglese o altre lingue. > Domenica parto per le vacanze, > ad autunno getto un altro sasso nello stagno, Credo che per questa estate sara` per me l'ultimo sasso che getto nello stagno, perche` ho detto tutto quello che mi frullava in testa sull'argomento e per il resto sono molto indaffarato con la mia tesi di laurea. Rimango in ascolto e se emergera` un buon dizionario che _con_sicurezza_ si puo` trascrivere senza violare i diritti d'autore, scendero` in campo per fare qualcosa di concreto in modo che questo sotto-progetto non debba aspettare fino al 2020 per vedere la luce. Di nuovo buone vacanze! Andrea PS: per me fare qualcosa di concreto vuol dire scrivere un po' di righe di Python, PHP ed SQL per raggiungere l'obiettivo, lo faccio volentieri per un progetto come questo che mi sta particolarmente a cuore. Ma ci sono anche queste cose da fare che sarebbero importanti: * avere la _certezza_ giuridica che un dato dizionario sia libero (mica vogliamo fare del lavoro per niente) * contattare LiberLiber e altri per raccogliere forza lavoro e consigli * trovare un server Linux in rete su cui poter far girare qualche riga di codice per raccogliere il materiale (le eventuali scansioni occupano abbastanza spazio anche se compresse) Secondo me e` possibile in un paio di anni arrivare a buon punto, se solo si comincia; comunque hai ragione tu che conviene riparlarne in autunno e nel mio caso appena dopo aver consegnato la tesi :-) From public a giovannipensa.com Thu Aug 15 12:00:01 2002 From: public a giovannipensa.com (Giovanni Pensa) Date: 15 Aug 2002 12:00:01 +0200 Subject: [Dizionario] Petrocchi, Melzi e diritti d'autore; nota su TEI XML DTD per dizionari In-Reply-To: <02081418454706.01800@eagle.localdomain> References: <02081418454706.01800@eagle.localdomain> Message-ID: <1029405601.10623.24.camel@popocatepetl> On Wed, 2002-08-14 at 18:45, Andrea Sivieri wrote: > Quando si fosse sicuri che un dato dizionario > abbia veramente i diritti scaduti e che valga la > pensa di prenderlo come riferimento, secondo > me si potrebbe tentare un approccio ad alto > parallelismo per tirarlo fuori dalla carta. > > Dimmi poi se ti sembra realistico l'approccio che sto per descrivere... È un'idea geniale! In effetti non ha senso per i romanzi, dove finisce che poche persone fanno il lavoro, ma per un dizionario è perfetta. Allora, algoritmiamo. 1. Trovare un dizionario che sia valido, privo di diritti sia per il contenuto che per la grafica, questione delicata. 2. Scansire, scandire, scannerizzare e scannare le pagine. Trovare un buon rapporto risoluzione, dimensione, leggibilità. Credo che anche in bianco/nero una jpeg (brevetti a parte) è molto più piccola di una png, se non si perde in riconoscibilità. Non so quanto ci voglia, mica troppo, ma io in 6 mesi ho fatto solo 140 scansioni, tanto per dire. 3. Trovare un host che non si spaventi a mettere un po' di immagini, e con un po' di CGI/PHP/... Credo che, in mancanza d'altro, sourceforge o savannah potrebbero andare. Anche se chiedere prima agli italiani... linux.it o softwarelibero.it o altri... 4. Mettere tutte le pagine online. Indicizzare le pagine almeno ad una definizione (la prima). A questo punto si avrebbe già un dizionario online, scomodo, senza copia-incolla, etc. 5. Quando l'utente cerca una definizione, mostrare l'immagine e una form contenente il lavoro fatto finora, o vuota se nulla è stato fatto, e usare un po' di "brand" per convincere i visitatori a collaborare. ("Hai 5 minuti? Abbiamo bisogno di te!", "Hai trovato quello che cercavi? Ce lo digiti, per favore?" ...) Se facciamo un po' di pubblicità magari funziona. Ovviamente se qualcuno vuole fare pagine e pagine, è più che benvenuto. Io manterrei comunque un'interfaccia web, con versioni (CVS) e più viste (l'immagine, l'HTML e i sorgenti XML, più la form) per permettere sempre un confronto e facilitare le correzioni. 6. Lavorare ad un'applicazione XML, basandoci sul TEI e su altri formati "per dizionari o enciclopedie". Trasformare i frammenti testuali (alla wiki?) in frammenti XML. Avere un'opera. Inserirla in wikipedia, farne dei PDF in automatico, integrarla con altre opere (si, mantenendo sempre l'identità di ogni voce), mandare un'email a Stallman, integrarla con dict.org, ... 7. ... 8. Profitto. (No questa era una citazione di South Park.) Proprio non ho tempo, ma in autunno butterò giù qualche idea sul sito, sul formato XML e sulle immagini. E manderò in giro qualche richiesta su quali dizionari (anche più d'uno) lavorare. Per la prima volta mi sembra un progetto quasi fattibile, in qualche anno di medio lavoro. g. From andrea.sivieri a libero.it Thu Aug 15 12:45:55 2002 From: andrea.sivieri a libero.it (Andrea Sivieri) Date: Thu, 15 Aug 2002 12:45:55 +0200 Subject: [Dizionario] Petrocchi, Melzi e diritti d'autore; nota su TEI XML DTD per dizionari Message-ID: <02081512455500.01566@eagle.localdomain> > On Wed, 2002-08-14 at 18:45, Andrea Sivieri wrote: > > Quando si fosse sicuri che un dato dizionario > > abbia veramente i diritti scaduti e che valga la > > pensa di prenderlo come riferimento, secondo > > me si potrebbe tentare un approccio ad alto > > parallelismo per tirarlo fuori dalla carta. > > > > Dimmi poi se ti sembra realistico l'approccio che sto per descrivere... > > E` un'idea geniale! In effetti non ha senso per i romanzi, dove finisce > che poche persone fanno il lavoro, ma per un dizionario e` perfetta. > > Allora, algoritmiamo: > > [...] > > Proprio non ho tempo, ma in autunno buttero` giu` qualche idea sul sito, > sul formato XML e sulle immagini. E mandero` in giro qualche richiesta > su quali dizionari (anche piu` d'uno) lavorare. > > Per la prima volta mi sembra un progetto quasi fattibile, in qualche > anno di medio lavoro. Sono contento di trovarti daccordo! Hai colto perfettamente lo scenario che avevo immaginato... e c'e` buon accordo sull'algoritmo. Secondo me e` possibile attivare un apparato di questo tipo entro la fine dell'anno ovvero potremmo prendere questo come proposito di massima. ... e ovvio che poi si fa quello che si puo`. Per i dettagli tecnici ne riparliamo in autunno: ci sono ad esempio alcune semplici fasi di preprocessing che si possono fare in automatico sulle immagini, che permettono di ridurre drasticamente lo spazio che occupano come PNG (ad esempio aumento del contrasto e riduzione a 8 toni di grigio o meno senza dithering). Questo consente generalmente di tenerle ad una risoluzione piu` elevata e piu` nitide, ovvero prive degli spotacciamenti 8x8 tipici dei testi compressi in JPG. Si tratta solo di fare qualche esperimento. :-) A risentirci! Andrea