From ted_r_1 a yahoo.com Fri Feb 15 00:48:44 2002 From: ted_r_1 a yahoo.com (ted_r_1 a yahoo.com) Date: Fri, 15 Feb 2002 00:48:44 +0100 Subject: [Dizionario] Try It BEFORE You Buy It! Message-ID: <20020214234537.DA8DA180F0@firenze.linux.it> Free Post Launch! There are a number important factors that increase the chances of any net worker becoming successful. The most important of which is the momentum and excitement of actively sponsoring new members. How would you like to know that you have an existing downline and team in place to continue to help you develop a network BEFORE you ever sign up or invest a penny? With our Post Launch program you can! A Post Launch is similar to a Pre Launch with two main differences. A Post Launch places a large group of excited individuals into an established Marketing program instead of a Marketing plan that may only be testing the waters (80% of new MLM's go defunct in the first year of business). Secondly, our program uses a new TEAM concept to help you to build a network. There is absolutely no risk to get involved and no cost to join Post Launch. For more information go to: http://form3.itgo.com/ Ted Ruter (this is global) You have nothing to lose and potentially a lot to gain! ----------------------------------------- ----------------------------------------- If you are no longer interested in receiving email from me, please click the reply and type remove in the subject box and your wishes will be honored. From return a trafficmagnet.net Sun Feb 17 19:30:24 2002 From: return a trafficmagnet.net (Christine Hall) Date: Mon, 18 Feb 2002 2:30:24 +0800 Subject: [Dizionario] WWW.SOFTWARELIBERO.ORG Message-ID: <200202171828.g1HISWL05498@localhost.localdomain> Un allegato HTML è stato rimosso... URL: From piccardi a firenze.linux.it Sun Feb 17 19:57:57 2002 From: piccardi a firenze.linux.it (Simone Piccardi) Date: 17 Feb 2002 19:57:57 +0100 Subject: [Dizionario] Proviamo a ripartire. Message-ID: <1013972278.32185.14.camel@roke> Anzitutto le mie scusa per la assoluta latitanza negli ultimi due mesi, questioni personali e di lavoro mi hanno preso il poco tempo libero disponibile. Qualcosa pero` sono riuscito a combinare (grazie soprattutto al lavoro fatto in precedenza da Massimo D'Antoni che aveva trascritto a mano una lista delle principali parole della lingua italiana). Trovate questa lista (ripulita dagli affissi e da doppioni e parole derivate) su: http://www.firenze.linux.it/~piccardi/lemmi.txt.gz una versione della stessa lista, con gli affissi per ispell (fino alla B, il resto e` da fare) sta su: http://www.firenze.linux.it/~piccardi/vocabolario.txt.gz ed il relativo file di affissi sta su: http://www.firenze.linux.it/~piccardi/nuovo.aff.gz Questi ultimi due pero` li ho messi piu` che altro come riferimento, la cosa interessante sara` quelli di poterli produrre automaticamente una volta che si avra` disponibile la classificazione delle parole. La prima lista potrebbe essere un buon punto di partenza per la classificazione (sono 7260 parole). Sto provando a mettere giu` anche alcune idee su come fare la classificazione, una prima classificazione potrebbe essere quella fra aggettivi, sostantivi e verbi, maschile e femminile, ecc. Appena avro` qualcosa di piu` strutturato (spero non fra altri 2 mesi) mi rifaro` vivo. Mi han suggerito che per la stesura della classificazione sarebbe molto utile usare XML, io pero` sono completamente ignorante al riguardo (ed i pochi contatti avuti con il suo zio/cugino sgml mi han fatto fuggire a gambe levate), c'e` qualcuno che conosce meglio la materia? Ciao Simone From promezio a promezio.net Mon Feb 18 18:19:27 2002 From: promezio a promezio.net (Francesco Ori) Date: Mon, 18 Feb 2002 12:19:27 -0500 Subject: [Dizionario] Proviamo a ripartire. Message-ID: > Sto provando a mettere giu` anche alcune idee su come fare la > classificazione, una prima classificazione potrebbe essere quella fra > aggettivi, sostantivi e verbi, maschile e femminile, ecc. Appena avro` > qualcosa di piu` strutturato (spero non fra altri 2 mesi) mi rifaro` > vivo. > > Mi han suggerito che per la stesura della classificazione sarebbe molto > utile usare XML, io pero` sono completamente ignorante al riguardo e se invece inserissimo tutto in un database (mysql/postgresql/..)? a quel punto avremmo a disposizione uno strumento che ci permette di gestire l'inserimento di nuove parole, di poterle revisionare, di classificarle, di estarle con facilita' per settore, per tipo, etc. -- francesco Logos Programmer http://www.logostranslations.com From mirko a lilik.dmti.unifi.it Mon Feb 18 18:50:51 2002 From: mirko a lilik.dmti.unifi.it (mirko) Date: Mon, 18 Feb 2002 18:50:51 +0100 Subject: [Dizionario] Proviamo a ripartire. In-Reply-To: <1013972278.32185.14.camel@roke>; from piccardi@firenze.linux.it on Sun, Feb 17, 2002 at 07:57:57PM +0100 References: <1013972278.32185.14.camel@roke> Message-ID: <20020218185051.B26506@lilik.dmti.unifi.it> Ciao, mi tuffo anche in questa lista, ormai ne seguo così tante che non so nemmeno quali sono! Tempo fa, per mio puro diletto, ho sviluppato in C++ un gioco simile al Paroliamo(TM), quello con i dadi con le lettere; mi serviva quindi un file con le parole da dare in pasto al banale algoritmo, il quale le avrebbe poi cercate sulla scacchiera. Prendi di qua, prendi di la` (mica ci sara` il copyright sulle parole sparse, vero?) mi sono creato un archivio (non troppo sballato) di parole (lemmi, plurali e verbi coniugati) per la bellezza di 145589 termini. Pensate che possa servire? C'e` qualcuno interessato a sviluppare una versione del gioco suddetto per GNOME che mi vuole dare una mano? Mirko Maischberger Simone Piccardi il 2002/02/17 19:57:57 +0100: |Anzitutto le mie scusa per la assoluta latitanza negli ultimi due mesi, |questioni personali e di lavoro mi hanno preso il poco tempo libero |disponibile. |[...] From mirko a lilik.dmti.unifi.it Mon Feb 18 19:01:24 2002 From: mirko a lilik.dmti.unifi.it (mirko) Date: Mon, 18 Feb 2002 19:01:24 +0100 Subject: [Dizionario] Proviamo a ripartire. In-Reply-To: <1013972278.32185.14.camel@roke>; from piccardi@firenze.linux.it on Sun, Feb 17, 2002 at 07:57:57PM +0100 References: <1013972278.32185.14.camel@roke> Message-ID: <20020218190124.B26554@lilik.dmti.unifi.it> Simone Piccardi il 2002/02/17 19:57:57 +0100: |[...] |Mi han suggerito che per la stesura della classificazione sarebbe molto |utile usare XML, io pero` sono completamente ignorante al riguardo (ed i |pochi contatti avuti con il suo zio/cugino sgml mi han fatto fuggire a |gambe levate), c'e` qualcuno che conosce meglio la materia? Dimenticavo... di XML qualcosa ci chiappo, anche l'idea di mettere tutto in un DB non e' male (e non preclude l'uscita in XML in un secondo momento). Mirko From piccardi a firenze.linux.it Tue Feb 19 08:44:05 2002 From: piccardi a firenze.linux.it (Simone Piccardi) Date: 19 Feb 2002 08:44:05 +0100 Subject: [Dizionario] Proviamo a ripartire. In-Reply-To: <20020218190124.B26554@lilik.dmti.unifi.it> References: <1013972278.32185.14.camel@roke> <20020218190124.B26554@lilik.dmti.unifi.it> Message-ID: <1014104645.8645.14.camel@havnor.centrohl.it> On Mon, 2002-02-18 at 19:01, mirko wrote: > Simone Piccardi il 2002/02/17 19:57:57 +0100: > |[...] > |Mi han suggerito che per la stesura della classificazione sarebbe molto > |utile usare XML, io pero` sono completamente ignorante al riguardo (ed i > |pochi contatti avuti con il suo zio/cugino sgml mi han fatto fuggire a > |gambe levate), c'e` qualcuno che conosce meglio la materia? > > > Dimenticavo... di XML qualcosa ci chiappo, anche l'idea > di mettere tutto in un DB non e' male (e non preclude > l'uscita in XML in un secondo momento). Io invece non ci chiappo nulla del primo e poco dei secondi. Pero` da quel che mi hanno narrato XML avrebbe la capacita` di consentire il rimaneggiamento della classificazione e la estendibilita` della medesima in maniera "piu` naturale" (che voglia dire non lo so). Comunque uno script in perl che butta tutto su un database (qualunque sia la forma del testo) dovrei essere in grado di arrangiarlo (e potrebbe anche essere la scusa buona per imparare il python...). Per conto mio pensavo ad una cosa piu` simile a quanto a suo tempo proposto da P. Molaro su discussioni, cioe` qualcosa tipo: Lemma: pincopallo Tipo: sostantivo Genere: plurale Significato: ... Insomma alla fine un qualcosa tipo XML ma senza tanti tag (che non nego mi stiano piuttosto antipatici). La struttura della classificazione ovviamente e` da pensare. ma la prima divisione mi pareva essere in maniera naturale quella dell'analisi gramamticale. Ciao Simone -- Cio' che contraddistingue l'uomo e' la capacita' di farsi domande, cio' che contraddistingue il saggio e' il non accontentarsi delle risposte. From promezio a promezio.net Tue Feb 19 08:58:46 2002 From: promezio a promezio.net (Francesco Ori) Date: Tue, 19 Feb 2002 02:58:46 -0500 Subject: [Dizionario] Proviamo a ripartire. In-Reply-To: <1014104645.8645.14.camel@havnor.centrohl.it>; from piccardi@firenze.linux.it on Tue, Feb 19, 2002 at 08:44:05AM +0100 References: <1013972278.32185.14.camel@roke> <20020218190124.B26554@lilik.dmti.unifi.it> <1014104645.8645.14.camel@havnor.centrohl.it> Message-ID: <20020219025846.B14551@promezio.net> On Tue, Feb 19, 2002 at 08:44:05AM +0100, Simone Piccardi wrote: > On Mon, 2002-02-18 at 19:01, mirko wrote: > > Simone Piccardi il 2002/02/17 19:57:57 +0100: > > |[...] > > |Mi han suggerito che per la stesura della classificazione sarebbe molto > > |utile usare XML, io pero` sono completamente ignorante al riguardo (ed i > > |pochi contatti avuti con il suo zio/cugino sgml mi han fatto fuggire a > > |gambe levate), c'e` qualcuno che conosce meglio la materia? > > > > > > Dimenticavo... di XML qualcosa ci chiappo, anche l'idea > > di mettere tutto in un DB non e' male (e non preclude > > l'uscita in XML in un secondo momento). > Io invece non ci chiappo nulla del primo e poco dei secondi. Pero` da > quel che mi hanno narrato XML avrebbe la capacita` di consentire il > rimaneggiamento della classificazione e la estendibilita` della medesima > in maniera "piu` naturale" (che voglia dire non lo so). tra le due preferisco partire da un database per poi estrarvi tutti i dati nei formati desiderati, anche XML, io su XML ho lavorato poco ma sui DB non ho problemi, anzi, lavorando in una azienda che si occuoa di traduzioni e riversa tutto in oracle, penso di poter trovare anche persone in grado di consigliarci anche una corretta classificazione dei dati > > Comunque uno script in perl che butta tutto su un database (qualunque > sia la forma del testo) dovrei essere in grado di arrangiarlo (e > potrebbe anche essere la scusa buona per imparare il python...). > insieme a questo sarebbe interessante agganciare una interfaccia di aggiornamento e download delle versioni aggiornate > Per conto mio pensavo ad una cosa piu` simile a quanto a suo tempo > proposto da P. Molaro su discussioni, cioe` qualcosa tipo: > Lemma: pincopallo > Tipo: sostantivo > Genere: plurale > Significato: ... > > Insomma alla fine un qualcosa tipo XML ma senza tanti tag (che non nego > mi stiano piuttosto antipatici). > > La struttura della classificazione ovviamente e` da pensare. ma la prima > divisione mi pareva essere in maniera naturale quella dell'analisi > gramamticale. > sull'analisi grammaticale sono d'accordo -- francesco Logos Programmer http://www.logostranslations.com From mirko a lilik.dmti.unifi.it Tue Feb 19 21:42:14 2002 From: mirko a lilik.dmti.unifi.it (Mirko Maischberger) Date: Tue, 19 Feb 2002 21:42:14 +0100 Subject: [Dizionario] Proviamo a ripartire. In-Reply-To: <1014104645.8645.14.camel@havnor.centrohl.it>; from piccardi@firenze.linux.it on Tue, Feb 19, 2002 at 08:44:05AM +0100 References: <1013972278.32185.14.camel@roke> <20020218190124.B26554@lilik.dmti.unifi.it> <1014104645.8645.14.camel@havnor.centrohl.it> Message-ID: <20020219214214.A5415@lilik.dmti.unifi.it> Ciao, Simone Piccardi il 2002/02/19 8:44:05 +0100: |Comunque uno script in perl che butta tutto su un database (qualunque |sia la forma del testo) dovrei essere in grado di arrangiarlo (e |potrebbe anche essere la scusa buona per imparare il python...). Per quello non c'è problema, se volete posso dare una mano anch'io, sia per XML->DB che viceversa. |Per conto mio pensavo ad una cosa piu` simile a quanto a suo tempo |proposto da P. Molaro su discussioni, cioe` qualcosa tipo: |Lemma: pincopallo |Tipo: sostantivo |Genere: plurale |Significato: ... Può andare, ma non è tanto estensibile, non permette di verificare la correttezza, né ci sono librerie già pronte per la manipolazione (che io conosca) altrettanto complete di quelle disponibili per XML. Vi faccio un esempio di massima di quello che potrebbe essere il formato in xml. pincopallare pincopallabbi ... pencopallare pancopallare ... A partire da un file del genere, con un coniugatore / generatore di plurali e tenendo conto delle eccezioni, si potrebbe anche generare (forse) un file per il correttore ortografico (e -- rabbrividisco! -- grammaticale) in automatico. Così come si possono tirare fuori tutti i sostantivi maschili che non hanno il plurale, ma che vengono usati in senso figurato! L'esempio di formato è solo una bozza abbozzata, ma lavorandoci un po' su fornirà sicuramente una flessibilità maggiore. |Insomma alla fine un qualcosa tipo XML ma senza tanti tag (che non nego |mi stiano piuttosto antipatici). Capisco l'antipatia, ma considera l'esistenza di validatori e parser già pronti. Mirko Maischberger. From gaio a sv.lnf.it Wed Feb 20 11:40:53 2002 From: gaio a sv.lnf.it (Marco Gaiarin) Date: Wed, 20 Feb 2002 11:40:53 +0100 Subject: [Dizionario] Proviamo a ripartire. In-Reply-To: <1013972278.32185.14.camel@roke>; from piccardi@firenze.linux.it on Sun, Feb 17, 2002 at 07:57:57PM +0100 References: <1013972278.32185.14.camel@roke> Message-ID: <20020220114053.A16142@sv.lnf.it> Mandi! Simone Piccardi In chel di` si favelave... > Anzitutto le mie scusa per la assoluta latitanza negli ultimi due mesi, > questioni personali e di lavoro mi hanno preso il poco tempo libero > disponibile. Ci eravamo lasciati a dicembre con io che mi ammogliavo, pensavo di arrivare qui con metà cose fatte e invece... bene. ;) > Sto provando a mettere giu` anche alcune idee su come fare la > classificazione, una prima classificazione potrebbe essere quella fra > aggettivi, sostantivi e verbi, maschile e femminile, ecc. Appena avro` > qualcosa di piu` strutturato (spero non fra altri 2 mesi) mi rifaro` > vivo. Prima di sparire avevo segnalato la mia tesi e la sua lista di parole già catalogate, in una maniera molto semplice da cui credo sia possibile fare di tutto con un po' di perl. La trovate all'interno di: http://www.dei.unipd.it/~gaio/Tesi/ ma se volete la allego. Inoltre volevo ricordare che per cose del genere forse sarebbe il caso di usare dict, che credo abbia già il suo bel formato di dati. -- dott. Marco Gaiarin Associazione ``La Nostra Famiglia'' http://www.sv.lnf.it/ Polo FVG - Via della Bontà, 7 - 33078 - San Vito al Tagliamento (PN) gaio(at)sv.lnf.it tel +39-0434-842711 fax +39-0434-842797 From piccardi a firenze.linux.it Wed Feb 20 12:07:52 2002 From: piccardi a firenze.linux.it (Simone Piccardi) Date: 20 Feb 2002 12:07:52 +0100 Subject: [Dizionario] Proviamo a ripartire. In-Reply-To: <20020219214214.A5415@lilik.dmti.unifi.it> References: <1013972278.32185.14.camel@roke> <20020218190124.B26554@lilik.dmti.unifi.it> <1014104645.8645.14.camel@havnor.centrohl.it> <20020219214214.A5415@lilik.dmti.unifi.it> Message-ID: <1014203273.10959.31.camel@havnor.centrohl.it> On Tue, 2002-02-19 at 21:42, Mirko Maischberger wrote: > Può andare, ma non è tanto estensibile, non permette di verificare > la correttezza, né ci sono librerie già pronte per la manipolazione > (che io conosca) altrettanto complete di quelle disponibili per > XML. Infatti e` per quello che anche io pensavo (da ignorante, ma fidandomi di quanto mi dicono persone esperte) che sarebbe stato meglio usare quello. > > Vi faccio un esempio di massima di quello che potrebbe essere il > formato in xml. [...] Molto interessante, mi tocchetra` studiarmelo un po' temo (purtroppo il tempo disponibile e` quello che e`, cioe` veramente poco). > A partire da un file del genere, con un coniugatore / generatore > di plurali e tenendo conto delle eccezioni, si potrebbe anche > generare (forse) un file per il correttore ortografico (e -- > rabbrividisco! -- grammaticale) in automatico. Così come si > possono tirare fuori tutti i sostantivi maschili che non hanno > il plurale, ma che vengono usati in senso figurato! La mia idea generale era quella di trovare un formato dal quale poi fosse possibile estrarre o generare anche gli altri formati usati da programmi specializzati, tipo gli affissi per ispell, o il formato di dict per il dizionario vero e proprio. > > L'esempio di formato è solo una bozza abbozzata, ma lavorandoci > un po' su fornirà sicuramente una flessibilità maggiore. E' comunque molto interessante, almeno a me ha dato un'idea delle possibilita`. > > |Insomma alla fine un qualcosa tipo XML ma senza tanti tag (che non nego > |mi stiano piuttosto antipatici). > > Capisco l'antipatia, ma considera l'esistenza di validatori > e parser già pronti. Probabilmente (anzi di sicuro) e` solo dettata dall'ignoranza (beh, anche dalla rottura di scatole di doverli scrivere, una volta che ho dovuto fare documentazione in sgml), ma nel caso sono assolutamente disposto a passarci sopra. Ciao Simone -- Cio' che contraddistingue l'uomo e' la capacita' di farsi domande, cio' che contraddistingue il saggio e' il non accontentarsi delle risposte. From piccardi a firenze.linux.it Wed Feb 20 12:16:38 2002 From: piccardi a firenze.linux.it (Simone Piccardi) Date: 20 Feb 2002 12:16:38 +0100 Subject: [Dizionario] Proviamo a ripartire. In-Reply-To: <20020220114053.A16142@sv.lnf.it> References: <1013972278.32185.14.camel@roke> <20020220114053.A16142@sv.lnf.it> Message-ID: <1014203799.10956.46.camel@havnor.centrohl.it> On Wed, 2002-02-20 at 11:40, Marco Gaiarin wrote: > Mandi! Simone Piccardi > In chel di` si favelave... > > > Anzitutto le mie scusa per la assoluta latitanza negli ultimi due mesi, > > questioni personali e di lavoro mi hanno preso il poco tempo libero > > disponibile. > > Ci eravamo lasciati a dicembre con io che mi ammogliavo, pensavo di > arrivare qui con metà cose fatte e invece... bene. ;) Magari ... > Prima di sparire avevo segnalato la mia tesi e la sua lista di parole > già catalogate, in una maniera molto semplice da cui credo sia > possibile fare di tutto con un po' di perl. > > La trovate all'interno di: > > http://www.dei.unipd.it/~gaio/Tesi/ > > ma se volete la allego. Me la prendo, e ci do' un'occhiata. (Non ho avuto il tempo neanche di fare quello!). > > Inoltre volevo ricordare che per cose del genere forse sarebbe il caso > di usare dict, che credo abbia già il suo bel formato di dati. La mia idea era che quello doveva essere uno dei formati di destinazione (non l'ho studiato, quindi non so quanto sia flessibile e estendibile). Ciao Simone -- Cio' che contraddistingue l'uomo e' la capacita' di farsi domande, cio' che contraddistingue il saggio e' il non accontentarsi delle risposte. From gaio a sv.lnf.it Wed Feb 20 12:43:42 2002 From: gaio a sv.lnf.it (Marco Gaiarin) Date: Wed, 20 Feb 2002 12:43:42 +0100 Subject: [Dizionario] Proviamo a ripartire. In-Reply-To: <1014203799.10956.46.camel@havnor.centrohl.it>; from piccardi@firenze.linux.it on Wed, Feb 20, 2002 at 12:16:38PM +0100 References: <1013972278.32185.14.camel@roke> <20020220114053.A16142@sv.lnf.it> <1014203799.10956.46.camel@havnor.centrohl.it> Message-ID: <20020220124342.A16244@sv.lnf.it> Mandi! Simone Piccardi In chel di` si favelave... > > Inoltre volevo ricordare che per cose del genere forse sarebbe il caso > > di usare dict, che credo abbia già il suo bel formato di dati. > La mia idea era che quello doveva essere uno dei formati di destinazione > (non l'ho studiato, quindi non so quanto sia flessibile e estendibile). Si, scusa, leggendo questa e quell'altra mail ho avuto finalmente chiare le intenzioni: creare un formato da cui poter generare tutti gli altri, come dizionario per ispell, per dict, ... Ok, scusa se non avevo capito. Concordo. ;) -- dott. Marco Gaiarin Associazione ``La Nostra Famiglia'' http://www.sv.lnf.it/ Polo FVG - Via della Bontà, 7 - 33078 - San Vito al Tagliamento (PN) gaio(at)sv.lnf.it tel +39-0434-842711 fax +39-0434-842797 From mirko a lilik.dmti.unifi.it Wed Feb 20 19:11:11 2002 From: mirko a lilik.dmti.unifi.it (Mirko Maischberger) Date: Wed, 20 Feb 2002 19:11:11 +0100 Subject: [Dizionario] Proviamo a ripartire. In-Reply-To: <1014203273.10959.31.camel@havnor.centrohl.it>; from piccardi@firenze.linux.it on Wed, Feb 20, 2002 at 12:07:52PM +0100 References: <1013972278.32185.14.camel@roke> <20020218190124.B26554@lilik.dmti.unifi.it> <1014104645.8645.14.camel@havnor.centrohl.it> <20020219214214.A5415@lilik.dmti.unifi.it> <1014203273.10959.31.camel@havnor.centrohl.it> Message-ID: <20020220191111.E9698@lilik.dmti.unifi.it> Ciao Simone Piccardi il 2002/02/20 12:07:52 +0100: |[...] |> Vi faccio un esempio di massima di quello che potrebbe essere il |> formato in xml. |[...] |Molto interessante, mi tocchetra` studiarmelo un po' temo (purtroppo il |tempo disponibile e` quello che e`, cioe` veramente poco). In realtà la cosa più difficile non è l'XML, ma la classificazione delle informazioni, fatta quella l'XML è abbastanza intuitivo. Se pensi che possano servire posso fare altri esempi, ma ci vorrebbe qualcuno (più cruscaiolo che programmatore) che dia una consulenza. |[...] |> A partire da un file del genere, con un coniugatore / generatore |> di plurali e tenendo conto delle eccezioni, si potrebbe anche |> generare (forse) un file per il correttore ortografico (e -- |> rabbrividisco! -- grammaticale) in automatico. Così come si |> possono tirare fuori tutti i sostantivi maschili che non hanno |> il plurale, ma che vengono usati in senso figurato! |La mia idea generale era quella di trovare un formato dal quale poi |fosse possibile estrarre o generare anche gli altri formati usati da |programmi specializzati, tipo gli affissi per ispell, o il formato di |dict per il dizionario vero e proprio. Ricordo poi che con un semplice foglio di stile XSL si può rivoluzionare il formato dell'XML in un attimo o uscire con una certa facilità anche in altri formati (HTML, PDF...). Insomma, sono un entusiasta dell'XML :) e do volentieri una mano. Ciao, Mirko PS: Non è che, come per l'Unabridged Webster Dictionary qualcuno ha o cerca (magari tramite it.cultura.linguistica.it) un dizionario su cui siano scaduti i diritti da usare come base di partenza? From dantoni a unisi.it Sat Feb 23 23:53:36 2002 From: dantoni a unisi.it (Massimo D'Antoni) Date: Sat, 23 Feb 2002 23:53:36 +0100 Subject: [Dizionario] Di che discutere... Message-ID: <20020223225336.GA4036@pc-dantoni> A proposito del progetto del dizionario e della discussione in corso. Alcune opinioni: Mi pare che la prima cosa da chiarire siano gli obiettivi. Simone è partito pensando ad un progetto che comprenda insieme: 1) correttore ortografico, 2) thesaurus e 3) dizionario (da interfacciare con dict o programma similare, suppongo). Credo però che questi obiettivi siano in realtà alquanto diversi, e la volontà di raggiungerli tutti insieme possa compromettere quella che a mio avviso è l'urgenza maggiore, cioè disporre a breve di un correttore ortografico in italiano free software paragonabile a quello disponibile per MS Word. In particolare: la creazione di un dizionario credo sia al di fuori della portata di persone che non fanno questo per mestiere, e dunque per l'obiettivo 3) io vedrei come unica possibilità quella di trovare qualche dizionario già esistente, e cercare di convincere i detentori dei diritti d'autore relativi a devolverlo per la causa. Un discorso simile vale, anche se forse in misura minore, per l'obiettivo 2), cioè il thesaurus. Io concentrerei allora quasi tutte le energie, almeno in una prima fase, sull'obiettivo 1), cioè quello di disporre di un elenco sufficientemente ampio di parole corrette dal punto di vista ortografico. A questo scopo, credo che il problema XML vs. altre possibilità sia per ora secondario. Invece, vale la pena di concentrare i nostri sforzi studiando il modo più economico per generare un elenco completo di parole, in modo che inserendo ad es. "amare" tutte le voci del verbo siano create automaticamente da uno script, o inserendo "bello" automaticamente abbiamo anche bella, belli, belle, bellissimo, bellissimi ecc. (stando attenti che amico dia amici ma bruco dia bruchi...). La mia proposta è quella di distinguere innanzitutto tra categorie generali; es.: - verbi (eventualmente a loro volta suddivisi tra regolari e irregolari) - sostantivi - aggettivi - altro Quanto alle definizione delle regole per generare tutte le parole derivate: a suo tempo, iniziando per conto mio un lavoro di questo tipo, presi come punto di partenza le regole di creazione degli "affixes" sotto ispell. Questi funzionano abbastanza bene quando si tratta di sostituire le finali delle parole. Ad es. si può facilmente definire una regola (denominata ad es. "O") di modo che inserendo nell'elenco bella/O siano automaticamente comprese nell'elenco anche: bello, belli, belle. Per dire che bella ammette il superlativo assoluto possiamo definire un'altra regola (denominiamola "M") per cui: bella/OM genererà: bello, belli, belle ma anche bellissima, bellissimi, bellissime, bellissimo. Le regole possono essere naturalmente più complesse, e tenere conto del fatto che in certi casi "ca" fa plurale in "che"; Si possono infine indicare dei prefissi: generere/AR crea ad es. tutte le voci di "generare" seguendo la regola "A" che indica la I coniugazione, ma aggiungendo "ri-" crea anche tutte le voci del verbo rigenerare. Certe limitazioni di ispell nella generazione degli affixes potrebbero essere superati scrivendo uno script in perl o linguaggio similare. Che ne dite? Saluti Massimo From piccardi a firenze.linux.it Mon Feb 25 11:04:46 2002 From: piccardi a firenze.linux.it (Simone Piccardi) Date: 25 Feb 2002 11:04:46 +0100 Subject: [Dizionario] Di che discutere... In-Reply-To: <20020223225336.GA4036@pc-dantoni> References: <20020223225336.GA4036@pc-dantoni> Message-ID: <1014631486.656.90.camel@havnor.centrohl.it> On Sat, 2002-02-23 at 23:53, Massimo D'Antoni wrote: > A proposito del progetto del dizionario e della discussione in corso. > Alcune opinioni: > > Mi pare che la prima cosa da chiarire siano gli obiettivi. > Simone è partito pensando ad un progetto che comprenda insieme: > 1) correttore ortografico, > 2) thesaurus e > 3) dizionario (da interfacciare con dict o programma similare, suppongo). > > Credo però che questi obiettivi siano in realtà alquanto diversi, e la > volontà di raggiungerli tutti insieme possa compromettere quella che a > mio avviso è l'urgenza maggiore, cioè disporre a breve di un > correttore ortografico in italiano free software paragonabile a quello > disponibile per MS Word. Sono d'accordo sulla priorita`, pero` il discorso secondo me non e` tanto sul volerli realizzare tutti insieme, quanto sul cercare una infrastruttura che permetta in un secondo tempo di realizzare gli altri obiettivi potendo riutilizzare in maniera facile e veloce le informazioni gia` disponibili. > In particolare: la creazione di un dizionario credo sia al di fuori > della portata di persone che non fanno questo per mestiere, e dunque > per l'obiettivo 3) io vedrei come unica possibilità quella di trovare > qualche dizionario già esistente, e cercare di convincere i detentori > dei diritti d'autore relativi a devolverlo per la causa. > Un discorso simile vale, anche se forse in misura minore, per > l'obiettivo 2), cioè il thesaurus. Di questo non sono molto convinto, sono d'accordo che e` un lavoro a lungo termine e non urgente, ma secondo me si presta bene ad uno sviluppo collaborativo (certo resta il problema del controllo della qualita`, ma questo potrebbe essere affrontato in un secondo tempo). Secondo me la strada presa dal DICT Development Group (vedi http://www.dict.org/) per lo sviluppo di un dizionario e` interessante e pure praticabile. > > Io concentrerei allora quasi tutte le energie, almeno in una prima > fase, sull'obiettivo 1), cioè quello di disporre di un elenco > sufficientemente ampio di parole corrette dal punto di vista > ortografico. > > A questo scopo, credo che il problema XML vs. altre possibilità sia > per ora secondario. Anche di questo non sono convinto. Secondo me mettere delle buone basi e` fondamentale per non tirarsi la zappa sui piedi piu` avanti. Pero` sono d'accordo che fare solo questo rischia di trascinarsi inutilemente e bloccare lo sviluppo del resto. Solo che almeno dei criteri base di classificazione dovremmo tirarli fuori. > > Invece, vale la pena di concentrare i nostri sforzi studiando il > modo più economico per generare un elenco completo di parole, in modo > che inserendo ad es. "amare" tutte le voci del verbo siano create > automaticamente da uno script, o inserendo "bello" automaticamente > abbiamo anche bella, belli, belle, bellissimo, bellissimi ecc. (stando > attenti che amico dia amici ma bruco dia bruchi...). > > La mia proposta è quella di distinguere innanzitutto tra categorie > generali; es.: > - verbi (eventualmente a loro volta suddivisi tra regolari e irregolari) > - sostantivi > - aggettivi > - altro Ok, qui c'e` gia` un po' di classificazione. E questo e` un lavoro che va senz'altro fatto e che serve anche per generare l'infrastruttura, quindi possiamo senz'altro partire a dettagliarlo di piu`. Ad esempio tempo fa, in una notte insonne, mi ero messo a classificare gli aggettivi. Non trovo piu` il foglio dove avevo scritto i risultati, comunque mi ricordo che una prima divisione, proprio in base alle regole per la generazione delle parole, era la seguente: - invarianti: blu, viola - senza genere: veloce/i, verde/i (finiscono in e e hanno il plurale in i) - con genere: bello/a/i/e (con tutte le complicazioni dovute a co/ca/chi/che e simili con la g). > > Quanto alle definizione delle regole per generare tutte le parole > derivate: a suo tempo, iniziando per conto mio un lavoro di questo > tipo, presi come punto di partenza le regole di creazione degli > "affixes" sotto ispell. Questi funzionano abbastanza bene quando si > tratta di sostituire le finali delle parole. Dovrebbe essere (ho corretto i permessi, prima non era leggibile) su: http://www.firenze.linux.it/~piccardi/nuovo.aff.gz dove c'e` pure la lista pulita (lemmi.txt.gz) e la lista con gli affissi fino alla lettera b (vocabolario.txt.gz). Per il resto sono d'accordo che quello degli affissi per ispell sia uno dei lavori principali da fare. Il punto e` che per farlo occorre anche dare una minima classificazione delle parole; se ne perdi traccia e tieni solo gli affissi perdi del lavoro prezioso che poi ti toccherebbe rifare. Se ci limitiamo a mettere gli affissi senza classificare poi ci tocchera` farlo in un secondo tempo. Se invece classifichiamo poi attaccarci gli affissi diventa un meccanismo automatico, e bastera` aggiungere una parola alla lista di quelle classificate in quel modo per avere il lavoro fatto Mi viene in mente ad esempio che abitante/i e veloce/i seguono la stessa regola di affissi, ma il primo e` un sostantivo, il secondo no. Non mi pare opportuno mescolarli, perche` poi in altra sede potrebbe diventare necessario dividerli. Ciao Simone -- Cio' che contraddistingue l'uomo e' la capacita' di farsi domande, cio' che contraddistingue il saggio e' il non accontentarsi delle risposte. From dantoni a unisi.it Tue Feb 26 17:33:02 2002 From: dantoni a unisi.it (Massimo D'Antoni) Date: Tue, 26 Feb 2002 17:33:02 +0100 Subject: [Dizionario] Re: di che si discute... In-Reply-To: <20020226052933.BB732188BC@firenze.linux.it> References: <20020226052933.BB732188BC@firenze.linux.it> Message-ID: <20020226163302.GA12089@pc-dantoni.econ-pol.unisi.it> On Tue, Feb 26, 2002 at 06:29:33AM +0100, dizionario-request a softwarelibero.it wrote: > > Credo però che questi obiettivi siano in realtà alquanto diversi, e la > > volontà di raggiungerli tutti insieme possa compromettere quella che a > > mio avviso è l'urgenza maggiore, cioè disporre a breve di un > > correttore ortografico in italiano free software paragonabile a quello > > disponibile per MS Word. > Sono d'accordo sulla priorita`, pero` il discorso secondo me non e` > tanto sul volerli realizzare tutti insieme, quanto sul cercare una > infrastruttura che permetta in un secondo tempo di realizzare gli altri > obiettivi potendo riutilizzare in maniera facile e veloce le > informazioni gia` disponibili. > > In particolare: la creazione di un dizionario credo sia al di fuori > > della portata di persone che non fanno questo per mestiere > Di questo non sono molto convinto, sono d'accordo che e` un lavoro a > lungo termine e non urgente, ma secondo me si presta bene ad uno > sviluppo collaborativo (certo resta il problema del controllo della > qualita`, ma questo potrebbe essere affrontato in un secondo tempo). Be', negli ultimi decenni credo che i dizionari italiani si contino sulle dita di una mano, e tutti sono stati realizzati sotto la direzione di autorevoli studiosi (Devoto-Oli, De Mauro, Gabrielli...). Se qualcuno consulta un dizionario, lo fa per ricorrere ad un'autorità riconosciuta in campo linguistico. Parlo per me, ma non credo proprio di essere all'altezza di un lavoro "collaborativo" di questa portata, e non credo che il problema sia semplicemente quello di un controllo di qualità: è come se dicessi che posso farmi operare di appendicite dal barbiere sotto casa, sotto il controllo di qualità di un medico... > Per il resto sono d'accordo che quello degli affissi per ispell sia uno > dei lavori principali da fare. Il punto e` che per farlo occorre anche > dare una minima classificazione delle parole; se ne perdi traccia e > tieni solo gli affissi perdi del lavoro prezioso che poi ti toccherebbe > rifare. Ma la mia perplessità sul fatto di puntare a più obiettivi contemporaneamente deriva proprio dal fatto che la classificazione cambia a seconda dell'obiettivo finale. Ad esempio: se voglio un correttore ortografico converrà tenere insieme le parole che "si comportano" allo stesso modo (che fanno il plurale in modo analogo...); se voglio un thesaurus dovrò tenere insieme quelle che hanno significato simile o opposto; se voglio un dizionario dovrò tenere insieme parole che hanno ad es. la stessa etimologia, indipendentemente dal fatto che si tratti di verbi regolari, irregolari, aggettivi, sostantivi. > Se ci limitiamo a mettere gli affissi senza classificare poi ci > tocchera` farlo in un secondo tempo. Se invece classifichiamo poi > attaccarci gli affissi diventa un meccanismo automatico, e bastera` > aggiungere una parola alla lista di quelle classificate in quel modo per > avere il lavoro fatto Scusa, ma attribuire ad una parola un affisso equivale a classificarla! es.: buona/OM può significare che buona appartiene alla classe delle parole che fanno il maschile in "o" e i plurali in "e" e "i" e alla classe delle parole che ammettono il superlativo in "issimo/a/e/i" Ciao Massimo From mirko a lilik.dmti.unifi.it Thu Feb 28 11:23:57 2002 From: mirko a lilik.dmti.unifi.it (mirko) Date: Thu, 28 Feb 2002 11:23:57 +0100 Subject: R: [Dizionario] Re: di che si discute... References: <20020226052933.BB732188BC@firenze.linux.it> <20020226163302.GA12089@pc-dantoni.econ-pol.unisi.it> Message-ID: <005501c1c042$0bc7c2e0$0100a8c0@dnsalias.org> Ciao Mi cito da solo: "Non è che, come per il "Webster's Revised Unabridged Dictionary" qualcuno ha o cerca (magari tramite i.c.l.i) un dizionario su cui siano scaduti i diritti da usare come base di partenza?" Comincio con le controindicazioni che condivido: - potremmo non avere le forze per farlo (ma io pensavo da tempo di farlo da solo e già questa lista mi sembra un grosso passo avanti :-); - un dizionario d'italiano del 1913 potrebbe essere "più obsoleto" di uno di inglese; Ci sono però caratteristiche uniche in un progetto come quello che immagino io e che mi sembra, almeno in parte, condiviso dal manifesto della lista: http://www.softwarelibero.it/progetti/dizionario/) Questo progetto può fornire ai linguisti che parteciperanno la possibilità di arricchire le proprie conoscenze tecniche, può dar loro la possibilità di lavorare con tecnici che altrimenti dovrebbero pagare salatamente (in cambio dovrebbero discutere e rilasciare le definizioni nuove o aggiornate sotto FDL). Mi sembra d'obbligo però partire con alla base un dizionario con diritti d'autore scaduti. Non credo che si possa fare niente di credibile senza una base solida (anche se vetusta). Le priorità (per come le vedo io) dovrebbero essere: - cercare e vagliare dizionari su cui siano scaduti i diritti; - cominciare a inserirlo in un computer (con XML;). Da parte mia mi dedicherò volentieri ad una parte del data-entry (e alla ricerca del dizionario di partenza, ma penso sia meglio formulare la richiesta qui e poi inviarla a i.c.l.i a nome della lista). Mirko Maischberger ----- Original Message ----- From: Massimo D'Antoni To: Sent: Tuesday, February 26, 2002 5:33 PM Subject: [Dizionario] Re: di che si discute... >[...] > Scusa, ma attribuire ad una parola un affisso equivale a classificarla! > es.: > buona/OM > può significare che buona appartiene alla classe delle parole che > fanno il maschile in "o" e i plurali in "e" e "i" e alla classe delle > parole che ammettono il superlativo in "issimo/a/e/i" From public a giovannipensa.com Thu Feb 28 12:42:18 2002 From: public a giovannipensa.com (Giovanni Pensa) Date: 28 Feb 2002 12:42:18 +0100 Subject: R: [Dizionario] Re: di che si discute... In-Reply-To: <005501c1c042$0bc7c2e0$0100a8c0@dnsalias.org> References: <20020226052933.BB732188BC@firenze.linux.it> <20020226163302.GA12089@pc-dantoni.econ-pol.unisi.it> <005501c1c042$0bc7c2e0$0100a8c0@dnsalias.org> Message-ID: <1014896538.7402.11.camel@popocatepetl> On Thu, 2002-02-28 at 11:23, mirko wrote: > "Non è che, come per il "Webster's Revised Unabridged Dictionary" qualcuno > ha o cerca (magari tramite i.c.l.i) un dizionario su cui siano scaduti i > diritti da usare come base di partenza?" Io propongo il Petrocchi del 1909, due volumi, parecchie pagine. Anche se temo esistano edizioni più recenti. Legalmente non sono sicuro che vada bene. > - un dizionario d'italiano del 1913 potrebbe essere "più obsoleto" di uno di > inglese; In parte è vero, ma sarebbe comunque una buona mezza soluzione; mezza perché mancherebbero le novità di questo secolo. Però un "buon" dizionario, anche antico, ha comunque un certo valore. > - cominciare a inserirlo in un computer (con XML;). Per quanto sia una splendida idea, direi che non sarebbe male cercare di coinvolgere MOLTI gruppi. Penso a LiberLiber, a prof. e studenti di linguistica, i GNU italiani... Un lavoro immane. Se trovo un momento provo a mettere online qualche definizione dal Petrocchi, in XML ovviamente, tanto per vedere come sta un libro d'inizio secolo (scorso) in una veste d'inizio secolo (nuovo). g.