<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 TRANSITIONAL//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; CHARSET=UTF-8">
<META NAME="GENERATOR" CONTENT="GtkHTML/1.1.9">
</HEAD>
<BODY>
On Wed, 2004-09-01 at 12:03, Paolo Mascellani wrote:<BR>
<FONT SIZE="3"></FONT><BR>
<BLOCKQUOTE TYPE=CITE>
<PRE><FONT COLOR="#737373" SIZE="3"><I>
A proposito, ricordo che Dario (uno che lurka su questa ML; lo so che
hai un mare di cose da fare Dario) mi parlo` una volta di un toolkit
libero per costruire risorse linguistiche, ma io ho dimenticato il link
... Magari avra` il buon cuore di ridarmelo.
Salutoni, Paolo.</I></FONT></PRE>
</BLOCKQUOTE>
<FONT SIZE="3">Ciao. Son stato tentato piu` volte di intervenire, ma Paolo, hai ragione: ho un mare di cose in ballo...<BR>
<BR>
Io ho lavorato a due tool: il primo (Tommaso) e` un analizzatore di lemmi, che funziona con un sistema di dizionari dinamico. E questo e` arrivato a un punto di sviluppo maturo, tanto che ho abbandonato l'idea di ampliarne le funzionalita`.<BR>
Tuttavia, Tommaso ha un limite, dato dai lemmi che sembrano corretti, e dagli omografi: non e` possibile sapere se un lemma e` errato se non se ne<BR>
puo` comprendere il contesto grammaticale e semantico.<BR>
<BR>
Per la semantica... credo che convenga lasciar perdere. Tuttavia si possono pensare dei sistemi analogici.<BR>
<BR>
Per la grammatica: il primo passo e` ricondurre il lemma alla sua radice, e identificarne il tipo grammaticale: il passo sembra semplice, ma il tutto e` complicato dagli omografi, che in italiano son piu` di quelli che sembrano. In un testo normale, circa il 45%!<BR>
Cosi` ho iniziato a sviluppare un altro tool (Valentina), che fa proprio questo lavoro: analizza un testo riconducendo ogni singolo lemma alla sua radice; gli omografi... li segnala elencando le possibilita`. Per ora non ho fatto molto di piu`.<BR>
Ma il tutto e` finalizzato a un'idea che va da un'altra parte rispetto a voi: i risultati di Valentina sono estremamente interessanti per un linguista, e aprono nuovi orizzonti nel campo della ricerca di lemmi (e loro combinazione) in un testo.<BR>
<BR>
Ciao di nuovo.<BR>
<BR>
P.S. Valentina si chiama cosi` perche` e` proprio lenta: circa 12 ore per analizzare 400 pagine...</FONT>
</BODY>
</HTML>