[Dizionario] Re: esperimento paolo 1
Dario Zanotti
dario.zanotti a siemens.com
Mer 1 Set 2004 12:50:04 CEST
On Wed, 2004-09-01 at 12:03, Paolo Mascellani wrote:
>
> A proposito, ricordo che Dario (uno che lurka su questa ML; lo so che
> hai un mare di cose da fare Dario) mi parlo` una volta di un toolkit
> libero per costruire risorse linguistiche, ma io ho dimenticato il link
> ... Magari avra` il buon cuore di ridarmelo.
>
> Salutoni, Paolo.
Ciao. Son stato tentato piu` volte di intervenire, ma Paolo, hai
ragione: ho un mare di cose in ballo...
Io ho lavorato a due tool: il primo (Tommaso) e` un analizzatore di
lemmi, che funziona con un sistema di dizionari dinamico. E questo e`
arrivato a un punto di sviluppo maturo, tanto che ho abbandonato l'idea
di ampliarne le funzionalita`.
Tuttavia, Tommaso ha un limite, dato dai lemmi che sembrano corretti, e
dagli omografi: non e` possibile sapere se un lemma e` errato se non se
ne
puo` comprendere il contesto grammaticale e semantico.
Per la semantica... credo che convenga lasciar perdere. Tuttavia si
possono pensare dei sistemi analogici.
Per la grammatica: il primo passo e` ricondurre il lemma alla sua
radice, e identificarne il tipo grammaticale: il passo sembra semplice,
ma il tutto e` complicato dagli omografi, che in italiano son piu` di
quelli che sembrano. In un testo normale, circa il 45%!
Cosi` ho iniziato a sviluppare un altro tool (Valentina), che fa proprio
questo lavoro: analizza un testo riconducendo ogni singolo lemma alla
sua radice; gli omografi... li segnala elencando le possibilita`. Per
ora non ho fatto molto di piu`.
Ma il tutto e` finalizzato a un'idea che va da un'altra parte rispetto a
voi: i risultati di Valentina sono estremamente interessanti per un
linguista, e aprono nuovi orizzonti nel campo della ricerca di lemmi (e
loro combinazione) in un testo.
Ciao di nuovo.
P.S. Valentina si chiama cosi` perche` e` proprio lenta: circa 12 ore
per analizzare 400 pagine...
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.softwarelibero.it/pipermail/dizionario/attachments/20040901/aea2b292/attachment.html>
Maggiori informazioni sulla lista
Dizionario