[Dizionario] boh
Andrea Sivieri
andrea.sivieri a sempreverdi.net
Gio 12 Feb 2004 19:52:41 CET
> mi piacerebbe avere qualche riferimento sullo stato dell'arte, e
> capire se si intende partire da una base esistente (i-spell o
> altro) o iniziare prima un lavoro piu' concettuale per gettare le
> fondamenta di qualcosa di nuovo e/o piu' impegnativo.
> Intanto vedo di cercare gli archivi...
Ciao Alberto!
Purtroppo la mia memoria non è sufficiente per darti
dei riferimenti molto precisi, a parte la considerazione
ovvia che nei mesi che hanno tanti KB di archivio si
sono dette più cose:
http://lists.softwarelibero.it/pipermail/dizionario/
Ti dico quello che mi è rimasto in mente dal punto di vista astratto:
- 1 -
Volontà di avere un dizionario di ottimo livello
per la correzione ortografica con i vari word-processor
e con i vari programmi tipo i-spell.
Magari utilizzare regole tipo quelle usate nel progetto Favele
di word prediction per gestire le parole divise per famiglie
di coniugazione/declinazione, ecc.
Mi pare di ricordare che dovrebbe esserci anche un porting
funzionante di Favele in perl, riporto un messaggio beccato
con google di quel periodo:
http://lists.softwarelibero.it/pipermail/dizionario/2003-May/000196.html
Un certo lavoro è stato fatto all'esterno di questo progetto
per la lista di parole usata da OpenOffice.org e ci sono anche
altre buone liste di parole.
A lungo termine probabilmente risulterebbe conveniente avere
una lista molto ben curata di radici e regole per ottenere tutte
le parole possibili da quelle radici.
Era stato fatto un po' di lavoro in questo senso, se non erro:
divisione dei verbi, dai sostantivi, ecc.
Cercando con google, magari si beccano i messaggi in cui
si parlava di questo.
- 2 -
Volontà di avere un dizionario elettronico italiano di tipo tradizionale,
che per ogni parola resituisca le definizioni, i sinonimi, ecc.
Si era discusso per un po' su vari modi per strutturare le informazioni,
o meglio su vari schemi xml per farlo, che poi è la stessa cosa
dal punto di vista astratto.
Vari di noi avevano osservato che come base non sarebbe male
partire con un dizionario con diritti d'autore scaduti e digitalizzarlo.
Prima portando in digitale l'immagine delle pagine e poi
trascrivendolo, visto che l'OCR sulle pagine vecchie ed ingiallite
sbaglia il 40% dei caratteri.
[ Proponevo ad esempio il Melzi del 1914, ma non ho ancora una
macchina fotografica digitale adatta a catturare le pagine ad alta
risoluzione. E' infatti un volume delicato che uno scanner distruggerebbe. ]
Avevo avuto l'idea che per trascriverlo in tempi umani senza fatica
si poteva organizzare un siterello per dividere il lavoro tra tante persone.
Ecco una mail di quel periodo:
http://lists.softwarelibero.it/pipermail/dizionario/2002-August/000096.html
L'intenzione successiva sarebbe stata quella di modernizzare l'opera
con voci moderne, ecc.
Nel caso si fondessero in un'unica grande opera le definizioni di
diversi dizionari antichi e definizioni moderne, ovviamente ogni
pezzetto di informazione sarebbe marchiato con un codice che
indica la sua origine.
- 3 -
I sotto-progetti 1 e 2 volendo potrebbero essere fusi in una unica
base di dati da cui a seconda delle esigenza con qualche filtraggio
estrarre i dati (i layers) necessari... ad esempio solo i sinonimi...
solo le regole per scrivere le parole... solo le definizioni...
Si era parlato di questo mentre si parlava degli schemi xml, ecc.
Spero di averti dato qualche spunto utile. :)
Ciao, Andrea
Maggiori informazioni sulla lista
Dizionario