h. paasonen’s dialect dictionary of the mordvin languages
DESCRIPTION
SOOME-UGRI SÕNARAAMATUSEMINAR „Soome-ugri keelte sõnaraamatud: mis neid liidab ja mis lahutab“ 13.-14. november 2008, Tallinn, Eesti Keele Instituut. H. Paasonen’s dialect dictionary of the Mordvin languages. From dictionary to database. Elektroninen mordvan murresanakirja. - PowerPoint PPT PresentationTRANSCRIPT
SOOME-UGRI SÕNARAAMATUSEMINAR
„Soome-ugri keelte sõnaraamatud:
mis neid liidab ja mis lahutab“13.-14. november 2008, Tallinn,
Eesti Keele Instituut
Tallinn 13-14.11.2008 Jack Rueter [email protected] 2
Tallinn 13-14.11.2008 Jack Rueter [email protected] 3
H. Paasonen’s dialect dictionary of the Mordvin languages
• From dictionary to database
Tallinn 13-14.11.2008 Jack Rueter [email protected] 4
Elektroninen mordvan murresanakirja
• Alkuperäiset tavoitteet ja niiden toteutuminen
• Tämän hetkinen työvaihe ja sen tavoitteet
• Elektronisen sanakirjan lopullinen sijoitus
Tallinn 13-14.11.2008 Jack Rueter [email protected] 5
Tallinn 13-14.11.2008 Jack Rueter [email protected] 6
The original goals and what was achieved
• 1. Text with Quark tags to be converted to an XML document
• 2. Font conversion XML document to UNICODE• 3. Conversion of dictionary entries to granular
XML• 4. Head words tagged and DB information
enhanced by automatic means
Tallinn 13-14.11.2008 Jack Rueter [email protected] 7
The original goals and what was achieved
• 2. Font conversion XML document to UNICODE– Be aware of ”diacritic” + ”letter” ordering
before conversion to ”letter” + ”diacritic” strategies
– Shakhmatov, Molotsov Unicode charts
http://www.unicode.org/charts
Tallinn 13-14.11.2008 Jack Rueter [email protected] 8
The original goals and what was achieved
• 3. Conversion of dictionary entries to granular XML.– Forming well-nested documents according to
existing hierarchies and punctuation.
Tallinn 13-14.11.2008 Jack Rueter [email protected] 9
The original goals and what was achieved
• 4. Head words tagged and DB information enhanced by automatic means– adjective, adverb, conjunction, gerund,
interjection, noun, particle, participle, postposition, quant, verb
More specifically
• Structure
• Access
Tallinn 13-14.11.2008 Jack Rueter [email protected] 11
Structure
• XML data-base structure derivation from style and font tags
• Dealing with dialect lemma variants, where a single lemma would be desired
• Inflection as a basis for dictionary entry divisions
• Enhanced tagging to provide more accessible data retrieval
Tallinn 13-14.11.2008 Jack Rueter [email protected] 12
XML data-base structure derivation from style and font tags
• Text with Quark tags to be converted to an XML document
– Make use of styles• <b></b> = bold
• <i></i> = italics
• <sup></sup> = superscript
– Make use of fonts• Even <cyr></cyr> = Cyrillic portions of text
Tallinn 13-14.11.2008 Jack Rueter [email protected] 13
Dealing with dialect lemma variants, where a single lemma would be desired
• Phonetic variants given for one or both languages does not guarantee literary forms
• Symmetry encourages use of ZERO
Tallinn 13-14.11.2008 Jack Rueter [email protected] 14
Inflection as a basis for dictionary entry divisions
• The diminutive in ńe is split into 2 separate inflections
• The vocative in aj and kaj is often shown within the variants of the stem
Tallinn 13-14.11.2008 Jack Rueter [email protected] 15
Enhanced tagging to provide more accessible data retrieval
• ~ 99% of phonetic variants ending in ms and mks are verbs
• Lemmas can be tagged as verbs and derivation affixes can be sought out.
• Concrete affix + function information
Tallinn 13-14.11.2008 Jack Rueter [email protected] 16
Access
• Indexing by source language: lemma and example content, forward and reverse
• Indexing by target language
• Inter-linking strategies
• Automated transliteration
Tallinn 13-14.11.2008 Jack Rueter [email protected] 17
Indexing by source language: lemma and example content,
forward and reverse• D
• http://www.ling.helsinki.fi/~rueter/PaasonenReperl/Link-WordCtn_01.xsl
• http://www.ling.helsinki.fi/~rueter/PaasonenReperl/rsc/FilterLinks1Result.pl
Tallinn 13-14.11.2008 Jack Rueter [email protected] 18
Indexing by target language
• Indexing by target language
Tallinn 13-14.11.2008 Jack Rueter [email protected] 21
Tämän hetkinen työvaihe ja sen tavoitteet
• Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä:
• Tarkennetaan xsd-kielisen scheman määritelmiä.
Tallinn 13-14.11.2008 Jack Rueter [email protected] 22
Tämän hetkinen työvaihe ja sen tavoitteet
• Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä:
• Tarkennetaan xsd-kielisen scheman määritelmiä. • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-
skriptejä.
Tallinn 13-14.11.2008 Jack Rueter [email protected] 23
Tämän hetkinen työvaihe ja sen tavoitteet
• Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä:
• Tarkennetaan xsd-kielisen scheman määritelmiä. • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-
skriptejä.• Tietokannan xsd-validointi ei takaa sataprosenttista
varmuutta tietokannan eheydestä.
Tallinn 13-14.11.2008 Jack Rueter [email protected] 24
Tämän hetkinen työvaihe ja sen tavoitteet
• Tarkennetaan xsd-kielisen scheman määritelmiä:– Esiintyykö kunkintyyppinen xml-elementti oikeassa
ympäristössä– Onko tieto oikeanlaatuinen
Tallinn 13-14.11.2008 Jack Rueter [email protected] 25
Tämän hetkinen työvaihe ja sen tavoitteet
• Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä.– Pidetään (lue muutetaan) koko tietokannan
kaikkien tiedostojen xml-elementtejä samalla ajantasolla:
• Tiedot foneettisen tekstiosuuden editoijasta tallennetaan tällä hetkellä xml-elementin attribuutiarvona.
• Transkriptiossa oleva foneettinen muoto jaetaan foneemeihin toisenlaisten transkriptioiden rinnakkaiskäytön mahdollistamiseksi.
Tallinn 13-14.11.2008 Jack Rueter [email protected] 26
Tämän hetkinen työvaihe ja sen tavoitteet
• Tietokannan xsd-validointi ei takaa sataprosenttista varmuutta tietokannan eheydestä.
– kaikki tiedot ovat vain määriteltyinä elementtisisältöinä tai attribuuttiarvoina
– Tehdään suhteellista eheyttä tarkastavia hakuja, esimerkiksi taulukoiden avulla, ks. http://www.ling.helsinki.fi/~rueter/Paasonen2007
Tallinn 13-14.11.2008 Jack Rueter [email protected] 27
Tämän hetkinen työvaihe ja sen tavoitteet
• Ongelmia ja syyt
Tallinn 13-14.11.2008 Jack Rueter [email protected] 28
Tämän hetkinen työvaihe ja sen tavoitteet
• Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään
• On kirjallisuuslähdetietoja alkuperäisen kursiivi-tunnisteen vieressäRatkaisu: etsitään jäljellä olevat kursiivi-tunnisteet eri elementtityypeistä erikseen ja kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin.
Tallinn 13-14.11.2008 Jack Rueter [email protected] 29
Tämän hetkinen työvaihe ja sen tavoitteet
• Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään
• On lähdetaivutusmuotoja, jotka eivät sijoitu oikeaan paikkaanRatkaisu: kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin.
Tallinn 13-14.11.2008 Jack Rueter [email protected] 30
Tämän hetkinen työvaihe ja sen tavoitteet
• Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään
• On derivaatio- tai taivutustietoja, jotka saattavat esiintyä myös foneettisen tai esimerkkiosan sisälläRatkaisu: korvataan ne käsin.
Tallinn 13-14.11.2008 Jack Rueter [email protected] 31
Tämän hetkinen työvaihe ja sen tavoitteet
• Kirjallisuuslähde- tai asutustiedot puuttuuvat
• Tiedot ovat väärässä ympäristössäRatkaisu: kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin
Tallinn 13-14.11.2008 Jack Rueter [email protected] 32
Tämän hetkinen työvaihe ja sen tavoitteet
• Kirjallisuuslähde- tai asutustiedot puuttuuvat
• XSLT-transformaatiossa on varauduttu etsimään vierussisaruselementin tietoja, mutta ei ole vielä laajennettu XSLT-transformaatioiden when-lausekkeiden etsintäkenttää sisältämään vierussisaruselementtien vieruselementtien tietoja (useampi askel vasemmalle tai oikealle).Ratkaisu: XSLT-stylesheetin laajennus, mikä sinänsä on rajapinnan tekemistä.
Tallinn 13-14.11.2008 Jack Rueter [email protected] 33
Tämän hetkinen työvaihe ja sen tavoitteet
• Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä:
• Tarkennetaan xsd-kielisen scheman määritelmiä siitä, missä kunkintyyppinen xml-elementti voi esiintyä tietokannassa.
• Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä, joilla pidetään (lue muutetaan) koko tietokannan kaikkien tiedostojen xml-elementtejä samalla ajantasolla.
• Tietokannan xsd-validointi ei takaa sataprosenttista varmuutta tietokannan eheydestä.
Tallinn 13-14.11.2008 Jack Rueter [email protected] 34
Tavoitteet
• Eheä tietokanta, johon voidaan lisätä uusiakin aineistoja
• Rakenne, joka mahdollistaa:– Monikielisiä hakuja esim.
• ersä, mokša, saksa, venäjä jne.
Tallinn 13-14.11.2008 Jack Rueter [email protected] 35
Tavoitteet
• Rakenne, joka mahdollistaa:– Useamman elementin samanaikaista käyttöä
määritelmissä esim. • lemma, muoto-oppi, selitys, esimerkki, etymologia • Keruupaikka, kieli
Tallinn 13-14.11.2008 Jack Rueter [email protected] 36
Tulevaisuuden varalle
• Ohjelmointirajapinta (engl. Application programming interface, API) on käyttöliittymä jolla eri ohjelmat voivat tehdä pyyntöjä ja vaihtaa tietoja eli keskustella keskenään.:
– Saada samanaikaisesti näkymään saman yhdyssanan eriosien tietoja
• Sanakirjan sisäisiä linkkejä• Ulkoisia linkkejä• Hakukielien (tässä: saksan ja venäjän)
thesaurusfiltteri, jonka avulla voisi hakea esim. koira-sanaa ja tulos sisältäisi myös sanoja: hurtta, rakki, piski, peni, pentu yms.
Tallinn 13-14.11.2008 Jack Rueter [email protected] 37
Elektroninen mordvan murresanakirja
• Elektronisen sanakirjan lopullinen sijoitus – Kotuksen verkkosivuille– SUS:n verkkosivuille– CSC: Kielipankin yhteyteen– Yliopiston verkkosivuille
Suk pirine!
Kiitos!
Tallinn 13-14.11.2008 Jack Rueter [email protected] 39
Tallinn 13-14.11.2008 Jack Rueter [email protected] 40
Elektroninen mordvan murresanakirja
• Alkuperäiset tavoitteet ja niiden toteutuminen– 1.1. Quark-tunnisteinen teksti muunnetaan xml-tunnisteiseksi tyyliä esittäväksi
tiedostoksi (lihavointi, kursivointi, yläindeksointi),– 1.2. Quark-dokumenteissa käytettävät fonttiratkaisut muunnetaan UNICODE-
ratkaisuiksi (tarkekirjoituksessa käytetyt tarke+peruskirjain –muodot => peruskirjain+tarke -muodoiksi; UNICODE:n kyrilliset kirjaimet käyttöön),
– 1.3. Artikkeleiden muuntamista XML-tunnisteiseen muotoon.– 2.1. Ersän- ja mokšankielisiä hakusanoja täydennetään kirjakielisillä muodoilla ja
kahden uuden rajapinnan muodostamista linkityksineen (n. 56 000 sanaa);– 2.2. Hakusanat merkitään sanaluokkien tunnisteilla, mikä voidaan tehdä verbien
osalta automaattisesti (adjektiivi, adverbi, gerundi, interjektio, konjunktio, kvantti, partikkeli, partisiippi, postpositio, substantiivi, verbi);
– 2.3. Luoda ersän ja mokšan kielten morfologiseen analyysiin tarkoitettuja kaksitasomalleja, joilla voidaan tunnistaa sanakirja-aineistoissa esiintyviä sanamuotoja. Kaksitasomalleja tavallisesti luodaan kirjakielisiä tekstejä varten, mutta niitä voidaan myös laajentaa käsittämään sekä murteellisia että eri ortografioiden mukaisia muotoja.
Tallinn 13-14.11.2008 Jack Rueter [email protected] 41
Elektroninen mordvan murresanakirja
• Sanakirjan elektroninen versio– XML-muotoinen tietokanta– Käyttöliittymä
Tallinn 13-14.11.2008 Jack Rueter [email protected] 42
Elektroninen mordvan murresanakirja
• Kuinka pitkällä ollaan?– Koodaus on tehty loppuun asti– Koko aineisto on verkossa:
http://www.ling.helsinki.fi/~rueter/PaasonenMW.shtml
• Kokonaisena ja aakkosittain• Lemmavarianttien linkkilistoina• Esimerkkisaneiden linkkilistoina• Keräyspaikanmukaisina linkkilistoina• Ersän kirjakielen tapainen aakkosluettelo
Tallinn 13-14.11.2008 Jack Rueter [email protected] 43
Elektroninen mordvan murresanakirja
• Mitä materiaalilla voidaan tehdä tällä hetkellä?– Linkkilistojen avulla pääsee sana-artikkeleihin
käsiksi• Aakkosjärjestyksen mukaan• Käänteisaakkosjärjestyksen mukaan
Tallinn 13-14.11.2008 Jack Rueter [email protected] 44
Elektroninen mordvan murresanakirja
• Elektroninen vastassaan painettu julkaisu– Kukin kombinatorinen sana-artikkeli on
omanakokonaisuutena– Aakkoselliset ja käänteislinkkilistat
Tallinn 13-14.11.2008 Jack Rueter [email protected] 45
Elektroninen mordvan murresanakirja
• Käyttö ja sijainti– ds– http://www.ling.helsinki.fi/~rueter/Paasonen