h. paasonen’s dialect dictionary of the mordvin languages

45
SOOME-UGRI SÕNARAAMATUSEMINAR „Soome-ugri keelte sõnaraamatud: mis neid liidab ja mis lahutab“ 13.-14. november 2008, Tallinn, Eesti Keele Instituut

Upload: cheryl

Post on 09-Jan-2016

46 views

Category:

Documents


10 download

DESCRIPTION

SOOME-UGRI SÕNARAAMATUSEMINAR „Soome-ugri keelte sõnaraamatud: mis neid liidab ja mis lahutab“ 13.-14. november 2008, Tallinn, Eesti Keele Instituut. H. Paasonen’s dialect dictionary of the Mordvin languages. From dictionary to database. Elektroninen mordvan murresanakirja. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: H. Paasonen’s dialect dictionary of the Mordvin languages

SOOME-UGRI SÕNARAAMATUSEMINAR

„Soome-ugri keelte sõnaraamatud:

mis neid liidab ja mis lahutab“13.-14. november 2008, Tallinn,

Eesti Keele Instituut

Page 2: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 2

Page 3: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 3

H. Paasonen’s dialect dictionary of the Mordvin languages

• From dictionary to database

Page 4: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 4

Elektroninen mordvan murresanakirja

• Alkuperäiset tavoitteet ja niiden toteutuminen

• Tämän hetkinen työvaihe ja sen tavoitteet

• Elektronisen sanakirjan lopullinen sijoitus

Page 5: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 5

Page 6: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 6

The original goals and what was achieved

• 1. Text with Quark tags to be converted to an XML document

• 2. Font conversion XML document to UNICODE• 3. Conversion of dictionary entries to granular

XML• 4. Head words tagged and DB information

enhanced by automatic means

Page 7: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 7

The original goals and what was achieved

• 2. Font conversion XML document to UNICODE– Be aware of ”diacritic” + ”letter” ordering

before conversion to ”letter” + ”diacritic” strategies

– Shakhmatov, Molotsov Unicode charts

http://www.unicode.org/charts

Page 8: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 8

The original goals and what was achieved

• 3. Conversion of dictionary entries to granular XML.– Forming well-nested documents according to

existing hierarchies and punctuation.

Page 9: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 9

The original goals and what was achieved

• 4. Head words tagged and DB information enhanced by automatic means– adjective, adverb, conjunction, gerund,

interjection, noun, particle, participle, postposition, quant, verb

Page 10: H. Paasonen’s dialect dictionary of the Mordvin languages

More specifically

• Structure

• Access

Page 11: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 11

Structure

• XML data-base structure derivation from style and font tags

• Dealing with dialect lemma variants, where a single lemma would be desired

• Inflection as a basis for dictionary entry divisions

• Enhanced tagging to provide more accessible data retrieval

Page 12: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 12

XML data-base structure derivation from style and font tags

• Text with Quark tags to be converted to an XML document

– Make use of styles• <b></b> = bold

• <i></i> = italics

• <sup></sup> = superscript

– Make use of fonts• Even <cyr></cyr> = Cyrillic portions of text

Page 13: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 13

Dealing with dialect lemma variants, where a single lemma would be desired

• Phonetic variants given for one or both languages does not guarantee literary forms

• Symmetry encourages use of ZERO

Page 14: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 14

Inflection as a basis for dictionary entry divisions

• The diminutive in ńe is split into 2 separate inflections

• The vocative in aj and kaj is often shown within the variants of the stem

Page 15: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 15

Enhanced tagging to provide more accessible data retrieval

• ~ 99% of phonetic variants ending in ms and mks are verbs

• Lemmas can be tagged as verbs and derivation affixes can be sought out.

• Concrete affix + function information

Page 16: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 16

Access

• Indexing by source language: lemma and example content, forward and reverse

• Indexing by target language

• Inter-linking strategies

• Automated transliteration

Page 17: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 17

Indexing by source language: lemma and example content,

forward and reverse• D

• http://www.ling.helsinki.fi/~rueter/PaasonenReperl/Link-WordCtn_01.xsl

• http://www.ling.helsinki.fi/~rueter/PaasonenReperl/rsc/FilterLinks1Result.pl

Page 18: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 18

Indexing by target language

• Indexing by target language

Page 19: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 19

Inter-linking strategies

• i

Page 20: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 20

Automated transliteration

• a

Page 21: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 21

Tämän hetkinen työvaihe ja sen tavoitteet

• Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä:

• Tarkennetaan xsd-kielisen scheman määritelmiä.

Page 22: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 22

Tämän hetkinen työvaihe ja sen tavoitteet

• Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä:

• Tarkennetaan xsd-kielisen scheman määritelmiä. • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-

skriptejä.

Page 23: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 23

Tämän hetkinen työvaihe ja sen tavoitteet

• Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä:

• Tarkennetaan xsd-kielisen scheman määritelmiä. • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-

skriptejä.• Tietokannan xsd-validointi ei takaa sataprosenttista

varmuutta tietokannan eheydestä.

Page 24: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 24

Tämän hetkinen työvaihe ja sen tavoitteet

• Tarkennetaan xsd-kielisen scheman määritelmiä:– Esiintyykö kunkintyyppinen xml-elementti oikeassa

ympäristössä– Onko tieto oikeanlaatuinen

Page 25: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 25

Tämän hetkinen työvaihe ja sen tavoitteet

• Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä.– Pidetään (lue muutetaan) koko tietokannan

kaikkien tiedostojen xml-elementtejä samalla ajantasolla:

• Tiedot foneettisen tekstiosuuden editoijasta tallennetaan tällä hetkellä xml-elementin attribuutiarvona.

• Transkriptiossa oleva foneettinen muoto jaetaan foneemeihin toisenlaisten transkriptioiden rinnakkaiskäytön mahdollistamiseksi.

Page 26: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 26

Tämän hetkinen työvaihe ja sen tavoitteet

• Tietokannan xsd-validointi ei takaa sataprosenttista varmuutta tietokannan eheydestä.

– kaikki tiedot ovat vain määriteltyinä elementtisisältöinä tai attribuuttiarvoina

– Tehdään suhteellista eheyttä tarkastavia hakuja, esimerkiksi taulukoiden avulla, ks. http://www.ling.helsinki.fi/~rueter/Paasonen2007

Page 27: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 27

Tämän hetkinen työvaihe ja sen tavoitteet

• Ongelmia ja syyt

Page 28: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 28

Tämän hetkinen työvaihe ja sen tavoitteet

• Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään

• On kirjallisuuslähdetietoja alkuperäisen kursiivi-tunnisteen vieressäRatkaisu: etsitään jäljellä olevat kursiivi-tunnisteet eri elementtityypeistä erikseen ja kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin.

Page 29: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 29

Tämän hetkinen työvaihe ja sen tavoitteet

• Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään

• On lähdetaivutusmuotoja, jotka eivät sijoitu oikeaan paikkaanRatkaisu: kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin.

Page 30: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 30

Tämän hetkinen työvaihe ja sen tavoitteet

• Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään

• On derivaatio- tai taivutustietoja, jotka saattavat esiintyä myös foneettisen tai esimerkkiosan sisälläRatkaisu: korvataan ne käsin.

Page 31: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 31

Tämän hetkinen työvaihe ja sen tavoitteet

• Kirjallisuuslähde- tai asutustiedot puuttuuvat

• Tiedot ovat väärässä ympäristössäRatkaisu: kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin

Page 32: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 32

Tämän hetkinen työvaihe ja sen tavoitteet

• Kirjallisuuslähde- tai asutustiedot puuttuuvat

• XSLT-transformaatiossa on varauduttu etsimään vierussisaruselementin tietoja, mutta ei ole vielä laajennettu XSLT-transformaatioiden when-lausekkeiden etsintäkenttää sisältämään vierussisaruselementtien vieruselementtien tietoja (useampi askel vasemmalle tai oikealle).Ratkaisu: XSLT-stylesheetin laajennus, mikä sinänsä on rajapinnan tekemistä.

Page 33: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 33

Tämän hetkinen työvaihe ja sen tavoitteet

• Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä:

• Tarkennetaan xsd-kielisen scheman määritelmiä siitä, missä kunkintyyppinen xml-elementti voi esiintyä tietokannassa.

• Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä, joilla pidetään (lue muutetaan) koko tietokannan kaikkien tiedostojen xml-elementtejä samalla ajantasolla.

• Tietokannan xsd-validointi ei takaa sataprosenttista varmuutta tietokannan eheydestä.

Page 34: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 34

Tavoitteet

• Eheä tietokanta, johon voidaan lisätä uusiakin aineistoja

• Rakenne, joka mahdollistaa:– Monikielisiä hakuja esim.

• ersä, mokša, saksa, venäjä jne.

Page 35: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 35

Tavoitteet

• Rakenne, joka mahdollistaa:– Useamman elementin samanaikaista käyttöä

määritelmissä esim. • lemma, muoto-oppi, selitys, esimerkki, etymologia • Keruupaikka, kieli

Page 36: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 36

Tulevaisuuden varalle

• Ohjelmointirajapinta (engl. Application programming interface, API) on käyttöliittymä jolla eri ohjelmat voivat tehdä pyyntöjä ja vaihtaa tietoja eli keskustella keskenään.:

– Saada samanaikaisesti näkymään saman yhdyssanan eriosien tietoja

• Sanakirjan sisäisiä linkkejä• Ulkoisia linkkejä• Hakukielien (tässä: saksan ja venäjän)

thesaurusfiltteri, jonka avulla voisi hakea esim. koira-sanaa ja tulos sisältäisi myös sanoja: hurtta, rakki, piski, peni, pentu yms.

Page 37: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 37

Elektroninen mordvan murresanakirja

• Elektronisen sanakirjan lopullinen sijoitus – Kotuksen verkkosivuille– SUS:n verkkosivuille– CSC: Kielipankin yhteyteen– Yliopiston verkkosivuille

Page 38: H. Paasonen’s dialect dictionary of the Mordvin languages

Suk pirine!

Kiitos!

Page 39: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 39

Page 40: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 40

Elektroninen mordvan murresanakirja

• Alkuperäiset tavoitteet ja niiden toteutuminen– 1.1. Quark-tunnisteinen teksti muunnetaan xml-tunnisteiseksi tyyliä esittäväksi

tiedostoksi (lihavointi, kursivointi, yläindeksointi),– 1.2. Quark-dokumenteissa käytettävät fonttiratkaisut muunnetaan UNICODE-

ratkaisuiksi (tarkekirjoituksessa käytetyt tarke+peruskirjain –muodot => peruskirjain+tarke -muodoiksi; UNICODE:n kyrilliset kirjaimet käyttöön),

– 1.3. Artikkeleiden muuntamista XML-tunnisteiseen muotoon.– 2.1. Ersän- ja mokšankielisiä hakusanoja täydennetään kirjakielisillä muodoilla ja

kahden uuden rajapinnan muodostamista linkityksineen (n. 56 000 sanaa);– 2.2. Hakusanat merkitään sanaluokkien tunnisteilla, mikä voidaan tehdä verbien

osalta automaattisesti (adjektiivi, adverbi, gerundi, interjektio, konjunktio, kvantti, partikkeli, partisiippi, postpositio, substantiivi, verbi);

– 2.3. Luoda ersän ja mokšan kielten morfologiseen analyysiin tarkoitettuja kaksitasomalleja, joilla voidaan tunnistaa sanakirja-aineistoissa esiintyviä sanamuotoja. Kaksitasomalleja tavallisesti luodaan kirjakielisiä tekstejä varten, mutta niitä voidaan myös laajentaa käsittämään sekä murteellisia että eri ortografioiden mukaisia muotoja.

Page 41: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 41

Elektroninen mordvan murresanakirja

• Sanakirjan elektroninen versio– XML-muotoinen tietokanta– Käyttöliittymä

Page 43: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 43

Elektroninen mordvan murresanakirja

• Mitä materiaalilla voidaan tehdä tällä hetkellä?– Linkkilistojen avulla pääsee sana-artikkeleihin

käsiksi• Aakkosjärjestyksen mukaan• Käänteisaakkosjärjestyksen mukaan

Page 44: H. Paasonen’s dialect dictionary of the Mordvin languages

Tallinn 13-14.11.2008 Jack Rueter [email protected] 44

Elektroninen mordvan murresanakirja

• Elektroninen vastassaan painettu julkaisu– Kukin kombinatorinen sana-artikkeli on

omanakokonaisuutena– Aakkoselliset ja käänteislinkkilistat