[Dizionario] Alcune osservazioni sul database

Giuseppe Bilotta oblomov a freemail.it
Sab 28 Set 2002 14:08:15 CEST


Salve,

leggo con interesse gli sforzi di concertazione sulla definizione
del formato del database. Avrei quindi qualche commento:

* prima di definire un formato, sarebbe opportuno chiederci quali
informazioni vogliamo inserire.

Io direi che sono necessarie le seguenti: lemma, categoria (verbo,
sostantivo, aggettivo, etc), genere (se applicabile), definizione,
esempi, sinonimi/contrari. Tutto il resto, benché utile, può
essere considerato per l'aggiunta in seguito (traduzione etc)

Alcune cose sono certamente non necessarie (come ad esempio la
sillabazione). Per cose come la pronuncia, potremmo avere qualche
difficoltà (che convenzione usare?). Per la distinzione tra vocali
aperte e chiuse, sarà opportuno un flag per determinare se gli
accenti sono necessari o no: "perché" vuole sempre l'accento, per
"pesca" l'accento è opzionale.

I verbi andrebbero solo all'infinito, e potrebbero contenere flag
riguardanti la regolarità, la presenza di forme alternative, etc.
Sarà poi compito degli strumenti di analisi del testo "indovinare"
che "amo" può essere sia prima persona singolare del presente
indicativo del verbo "amare", sia sostantivo maschile singolare.

Per quanto riguarda lemmi omografi (quindi *non* nel caso di pésca
e pèsca) dobbiamo scegliere se raggrupparli sotto un unico lemma e
moltiplicare le definizioni con relativi esempi e sin/cont, oppure
ripetere il lemma per ogni diversa definizione. Oppure ancora,
come fa la maggior parte dei vocabolari, raggruppare i lemmi per
categoria; ad esempio, "complesso" come sostantivo con tutte le
sue definizioni, "complesso" come aggettivo con tutte le sue
definizioni.
  
* lavorare direttamente in XML potrebbe essere alquanto faticoso
(apertura e chiusura dei tag, eccetera), a meno di non avere
strumenti appositi (XMetaL, WordPerfect, etc) che facciano questo
lavoro per noi molto semplicemente; io suggerirei di usare, per
l'input, un formato più semplice come il seguente:

Lemma: pésca
Cat: sost
Gen: f
Def: il pescare
Sin: cattura dei pesci
Sin: altro sin
Con: un contrario
Def: altra def
Sin: sin di questa nuova def
Con: con di questa nuova def

Lemma: pèsca
Cat: sost
Gen: f

Lemma: complesso
Cat: sost
Gen: m
Def: insieme di elementi
Sin: aggregato
Def: organismo economico
Es: complesso industriale
Sin: trust
Def: gruppo di musicisti
Sin: band
Def: fissazione
Sin: fissazione

Lemma: complesso
Cat: agg
Def: formato dall'unione di più elementi
Sin: composto
Def: complicato
Sin: complicato

etc

Questo formato è molto più semplice da scrivere (specie se il
proprio editor supporta macro di qualche genere, e che mi risulti
tutti gli editor appena decenti li hanno); può essere scritto
direttamente in un wordprocessor, con il vantaggio di avere una
verifica delle parole che si scrivono, è più piacevole allo
sguardo, e manipolabile facilmente con script Perl per la
trasformazione in XML (e da lì in qualsiasi altro formato).
Inoltre, anche il syntax highlighting sarebbe molto più piacevole allo
sguardo.

Che ne dite?

-- 
Giuseppe "Oblomov"  Bilotta




Maggiori informazioni sulla lista Dizionario