[Dizionario] necesse XML
Giovanni Pensa
public a giovannipensa.com
Ven 27 Set 2002 11:10:17 CEST
O si fa una lista di parole, o si lavora sui suffissi di *spell, o si fa
un DB, o si fa un testo in formato dict, o si usa un formato strano,
..., o si usa XML. Certo, da un DB, da un file Excel (!), da quello che
volete si può tirar fuori un file XML, ma non sarà che la
rappresentazione in XML di qualcos'altro.
Io (per quel che vale) voto per l'XML e basta. Un DB è comodo per fare
da indice e ricerca full-text se si vuole un server. Altrimenti un po'
di XSLT o Perl/Python/etc. e dal documento XML si estrae quello che
volete, come lo volete.
Vantaggi: estendibile, dinamico, strumenti liberi, multi-piattaforma da
subito, Unicode, visione ad albero e non a tabella*, leggibile e
facilmente trasformabile.
Però dobbiamo metterci d'accordo su di un primo formato, da estendere
successivamente. Fondamentalmente dobbiamo trovare il "vocabolario"
giusto per il "dizionario".
Qualcosa già esiste, ad esempio nel progetto TEI (usato dagli accademici
della crusca) c'è il capitolo "Print Dictionaries"
http://www.tei-c.org/P4X/DI.html
Io credo che sarebbe meglio un formato nostro, sul quale discutere. E
non perdo tempo ... Nella primissima fase abbiamo alcune liste di
parole, alcuni suffissi, alcune categorie. Serve altro? Magari qualche
traduzione in inglese...
L'elemento radice direi che potrebbe essere "dizionario". Altre
possibilità: vocabolario, lemmario, enciclopedia, enciclopaedia, parole,
...
<dizionario>
<!-- Una o più voci -->
</dizionario>
Il dizionario contiene molte voci, articoli. Ogni "voce" è identificata
dal "lemma" (di una o più parole), e contiene tutte le definizioni e le
informazioni sul lemma.
(Questo è un esempio, ignorate il contenuto che sto inventando con molta
fantasia.)
<voce>
<lemma>casa</lemma>
<sillabazione>ca-sa</sillabazione>
<pronuncia>'kasa</pronuncia>
<grammatica> <sostantivo/> <femminile/> </grammatica>
<definizione>...</definizione>
<esempio>Non bombardate la mia casa.</esempio>
<citazione>
<canzone>
<verso>Voglio andare a casa</verso>
<verso>La casa dov'è?</verso>
<verso>La casa dove posso stare</verso>
</canzone>
</citazione>
<traduzione xml:lang="en" >house</traduzione>
<traduzione xml:lang="fr" >maison</traduzione>
<sinonimo>abitazione</sinonimo>
</voce>
Una volta decisi i nomi degli elementi, si potranno trovare delle
abbreviazioni. "<gr><s/><f/></gr>" non è male, ad esempio.
Le definizione dovrebbero essere legate ad una categoria o ad un
contesto (linguistica, informatica, ecc.).
Mancano almeno due cose. Come identificare la voce? Esplicitamente con
un attributo id="casa", o implicitamente con la costruzione
dell'identificatore dal lemma? E come separare gli omografi? Potrebbe
venir fuori "casa_s" da non confondere con un eventuale "casa verbo"...
E come sistemare la gestione dei suffissi? Un semplice attributo che
rimanda ad una lista? Ad esempio suffisso="ae"? O segnalare solo le
voci irregolari?
Decise queste cose si potrebbe riversare la lista delle parole, tanto
per avere del materiale, e lavorare su questo.
g.
* Nota: la visione ad albero permette di mettere una poesia nella
citazione, di creare sotto-lemmi, di arricchire fin che si vuole ogni
voce. Ad esempio, alla voce "lemma", si potrebbe mettere:
<etimologia>
<voce>
<lemma xml:lang="la" >lêmma</lemma>
<def>soggetto, componimento</def>
</voce>
<voce>
<lemma xml:lang="gr" >lêmma</lemma>
<!-- ovviamente anche transcritto in greco -->
<def>premessa, argomento</def>
</voce>
</etimologia>
cioè delle sottovoci che ne richiamano altre. Ma questo in futuro...
Maggiori informazioni sulla lista
Dizionario