[Dizionario] boh

Andrea Sivieri andrea.sivieri a sempreverdi.net
Gio 12 Feb 2004 19:52:41 CET


> mi piacerebbe avere qualche riferimento sullo stato dell'arte, e
> capire se si intende partire da una base esistente (i-spell o
> altro) o iniziare prima un lavoro piu' concettuale per gettare le
> fondamenta di qualcosa di nuovo e/o piu' impegnativo.
> Intanto vedo di cercare gli archivi...

Ciao Alberto!

Purtroppo la mia memoria non è sufficiente per darti
dei riferimenti molto precisi, a parte la considerazione
ovvia che nei mesi che hanno tanti KB di archivio si
sono dette più cose:

http://lists.softwarelibero.it/pipermail/dizionario/

Ti dico quello che mi è rimasto in mente dal punto di vista astratto:

- 1 -

Volontà di avere un dizionario di ottimo livello
per la correzione ortografica con i vari word-processor
e con i vari programmi tipo i-spell.

Magari utilizzare regole tipo quelle usate nel progetto Favele
di word prediction per gestire le parole divise per famiglie
di coniugazione/declinazione, ecc.

Mi pare di ricordare che dovrebbe esserci anche un porting
funzionante di Favele in perl, riporto un messaggio beccato
con google di quel periodo:

http://lists.softwarelibero.it/pipermail/dizionario/2003-May/000196.html

Un certo lavoro è stato fatto all'esterno di questo progetto
per la lista di parole usata da OpenOffice.org e ci sono anche 
altre buone liste di parole.

A lungo termine probabilmente risulterebbe conveniente avere
una lista molto ben curata di radici e regole per ottenere tutte
le parole possibili da quelle radici.

Era stato fatto un po' di lavoro in questo senso, se non erro:
divisione dei verbi, dai sostantivi, ecc.

Cercando con google, magari si beccano i messaggi in cui
si parlava di questo.

- 2 -

Volontà di avere un dizionario elettronico italiano di tipo tradizionale,
che per ogni parola resituisca le definizioni, i sinonimi, ecc.

Si era discusso per un po' su vari modi per strutturare le informazioni,
o meglio su vari schemi xml per farlo, che poi è la stessa cosa
dal punto di vista astratto.

Vari di noi avevano osservato che come base non sarebbe male
partire con un dizionario con diritti d'autore scaduti e digitalizzarlo.
Prima portando in digitale l'immagine delle pagine e poi 
trascrivendolo, visto che l'OCR sulle pagine vecchie ed ingiallite 
sbaglia il 40% dei caratteri.

[ Proponevo ad esempio il Melzi del 1914, ma non ho ancora una
macchina fotografica digitale adatta a catturare le pagine ad alta
risoluzione. E' infatti un volume delicato che uno scanner distruggerebbe. ]

Avevo avuto l'idea che per trascriverlo in tempi umani senza fatica
si poteva organizzare un siterello per dividere il lavoro tra tante persone.

Ecco una mail di quel periodo:
http://lists.softwarelibero.it/pipermail/dizionario/2002-August/000096.html

L'intenzione successiva sarebbe stata quella di modernizzare l'opera
con voci moderne, ecc.

Nel caso si fondessero in un'unica grande opera le definizioni di
diversi dizionari antichi e definizioni moderne, ovviamente ogni
pezzetto di informazione sarebbe marchiato con un codice che
indica la sua origine.

- 3 -

I sotto-progetti 1 e 2 volendo potrebbero essere fusi in una unica
base di dati da cui a seconda delle esigenza con qualche filtraggio
estrarre i dati (i layers) necessari... ad esempio solo i sinonimi...
solo le regole per scrivere le parole... solo le definizioni...

Si era parlato di questo mentre si parlava degli schemi xml, ecc.

Spero di averti dato qualche spunto utile.  :)

Ciao, Andrea




Maggiori informazioni sulla lista Dizionario