exocorriges.comexocorriges.com/doc/42572.doc · web viewtudáskezelő labor. eredmények. bodnár...
TRANSCRIPT
Tudáskezelő LaborEredmények
Bodnár Tamás
Tartalomjegyzék
1. Cikk kivonatok..........................................................................................................................................3
1.1. The 20th Century Press Archives as Linked Data Application...................................................3
1.2. Twitris 2.0 : Semantically Empowered System for Understanding Perceptions From Social Data..................................................................................................................................8
1.3. Exploring Your Research: Sprinkling some Saron on Semantic Web Dog Food.....................12
1.4. Interactive Exploration of Web Datasets with VisiNav............................................................15
1.5. TrialX: Using semantic technologies to match patients to relevant clinical trials based on their Personal Health Records..............................................................................................18
1.6. Egy nyelvészeti UIMA-folyamat a kézi annotálástól az eredmények megjelenítéséig............22
1.7. Valós idejű szövegosztályozás a Wikipédia szolgálatában.......................................................25
1.8. asdA graph-based approach to measuring semantic relatedness in ontologies.........................27
2. WordNet - OracleText.............................................................................................................................33
2.1. Oracle Text alapján valamilyen mértékben hasonló fogalmak és a WordNet alapján mért távolságok között van-e összefüggés?..............................................................................33
3. Google API..............................................................................................................................................39
3.1. Google Fordító Java API..........................................................................................................39
4. NLP csomagok........................................................................................................................................42
4.1. Apache OpenNLP.....................................................................................................................42
4.2. Stanford NLP............................................................................................................................44
4.3. Phrasal (Stanford NLP gépi fordítója)......................................................................................45
4.4. GATE és SharpNLP..................................................................................................................52
The 20th Century Press Archives as Linked Data ApplicationJoachim Neubert
German National Library of Economics (ZBW) – Leibniz Centre for Economics
Neuer Jungfernstieg 21, 20347 Hamburg, Germany
KivonatBodnár Tamás
A Gazdasági Német Nemzeti Könyvtár (German National Library of Economics (ZBW) ) 20th Century Press Archives ( 20. századi sajtóarchívum ) egy hatalmas újsággyűjtemény, mely személyekről, vállalatokról, termékekről és általános közérdekű dolgokról tartalmaz információt az 1826-tól 2005-ig tartó időszakból, tematikus rendbe csoportosítva.
Bevezetés A 20. század kezdetén a Hamburgi Gyarmatügyi Intézet Központi Osztálya (1919-től Hamburgi Nemzetközi Gazdasági Intézet) és a Kieli Világgazdasági Intézet Gazdasági Archívuma elkezdett politikai és nemzetközi gazdasági információkat gyűjteni. Ez több, mint 1300 újság forrásait felhasználva egy hatalmas adatmennyiséget eredményezett. A tárolt dokumentumok száma kb. 30 millió (ebből eddig kb. 5.7 millió van digitalizálva). Ma ez a ZBW (German National Library of Economics) kezelésében van.
Az alkalmazás fejlesztésének céljai
A P20 alkalmazás (http://zbw.eu/beta/p20) online hozzáférést biztosít 6,800 dossziéhoz és 250,000 személyekhez és vállalatokhoz köthető dokumentumhoz. A jelenleg béta verziójú alkalmazás a fent említett web-alkalmazást egészíti ki.
Az új alkalmazás főbb céljai a következők voltak:
1. Minden gyűjteménynek, dossziénak, dokumentumnak, oldalnak és még a keresési eredményhalmazoknak is egy állandó azonosítót ad
2. A web metaadatokból keretet adjon a felhasználónak és kapcsolódjon más, a domainnek releváns adatforrásokhoz
3. Támogassa a felhasználónak ismerős szabványos kép és metaadat megjelenítését (a METS/MODS–on alapulva)
4. Megkönnyítse az automatikus adatbányászatot és az adat újrafelhasználását
Általános tervezési döntések
Mivel az archívum adatainak minél könnyebb elérése és felhasználása volt a cél, valamint külső Linked Open Data forrásokat kellett bevonni, ezért betartották a Linked Data Principles-t („Összekapcsolt Adatok Alapelvei”).
A meglévő adatokhoz elég kevés metaadat állt rendelkezésre; az alapinformációt az adatgyűjtemény tematikus csoportosítása jelenti (időrendi sorrendbe rendezve).
A 20th Century Press Archives, mint Linked Data Application
OAI-ORE, mint az adatmodell gerinceOpen Archives Initiative Object Reuse and Exchange (OAI-ORE) a Web források aggregációinak leírására és cseréjére fogalmaz meg szabványokat.
Ez a szabvány teljesen megfelel az itt levő adatok struktúrájához, sőt az alkalmazás 1. célja (azonosítók kiosztása még a dinamikusan generált eredményhalmazoknak is) meg is valósítható az OAI-ORE használatával.
Az ORE-OAI szótár a hatékony adatbányászat elősegítésének figyelembe vételével lett kialakítva, és a szabvány egyéb struktúrált elemeivel a 4. célt is meg lehet valósítani (adatbányászat megkönnyítése).
Fig. 1 RDF elemek és más P20 web erőforrások és kapcsolatok a LOD felhővel
RDFa egy egyszerű megjelenítésre
Mivel az alkalmazás főleg végfelhasználóknak szól, RDFa egy természetes választás volt az aggregációk sorba rendezésére és (X)HTML oldalakba való beágyazására.
URI koncepcióA P20-ban két szerepe van az URI-knak.
Állandó azonosítók, nem hivatkozható HTTP-n keresztül, a Kapcsolt Adat Alapelveknek megfelelően és egyben felhasználói interfész is, mint a P20 web szolgáltatásának az API-ja.
Aggregációs URI:
p20:{collection_name}(/{dossier_key}(/{document_number}(/{page_number})?)?)?
Forrás Térkép URI:
p20:{aggregation_uri_part}/about(.{language}.({format})?)?
A felhasználó kiválaszthatja a megjelenítés nyelvét. Jelenleg a német (de) és angol (en) támogatott. A jelenleg támogatott kimeneti formátumok RDFa (html) és – dossziékhoz és dokumentumokhoz - METS/MODS (xml).
Megjelenítési URI:
p20:{collection_name}/{dossier_key}(/document_number})?/view(.{language})?
A megjelenítési URI-k a DFG-Viewer webszolgáltatás hívásához paraméterként vannak hozzárendelve a dossziék és dokumentumok METS/MODS XML reprezentációjának URI-jával együtt.
Keresési URI:
Keresés eredményhalmazoknak hivatkozhatónak kell lenni az URI-k által. Az aggregációs URI-k
p20:{collection_name}/searchresult(/{language})?\?q={query}
átirányítódnak (303-redirected):
p20:{collection_name}/searchresult/about(/{language})?\?q={query}
Ez jelenleg implementálva van a Vállalati doszziékra (cím keresése szövegként).
RészletekA Német Nemzeti Könyvtár nemrég adta ki a Német Személyinév hatósági fájlokat (German Personal Name Authority Files), mint kapcsolt adatok, ezáltal képesek voltak ezt összekapcsolni az életrajzi dossziéval és a DBpedia-val, amin keresztül Wikipedia linkeket is be tudtak tölteni az oldalakra. Ezzel az angol nyelvű rész kész is volt, bár a dokumentumok csak német nyelvűek.
A Linked Data növeli az Életrajzi Dosszié Keresési hatékonyságát Az életrajzi dosszié keresési funkciója kapcsolt adatokat használ közbevetve egy webszolgáltatást, ami más neveket is a keresési listához ad, és továbbítja a tényleges dossziénak a keresés elvégzéséhez:
Netto, Henrique M. -> Coelho Neto, Henrique M.; 1864−1934
Reiling, Netty -> Seghers, Anna; 1900−1983
A hatósági fájlok és thesaurusok használata nagyban növeli a hatékonyságot, mivel olyan szinonímákat is hozzávesz a kereséshez, amik szintaktikailag nem kapxsolódnak egymáshoz, de ugyanazt a személyt vagy fogalmat jelölik.
Keresési eredmények: OAI-ORE kiterjesztése dinamikus aggregációkkáAz ORE eleve azért lett használva, hogy a keresési eredméynekre is lehessen hivatkozásokat létrehozni, és ezekben keresni, ami így dinamikusan felépített aggregáció lesz. Ez a Vállalati dossziéknál van használva, ahol csak a dosszié címkéje ismert.
METS/MODS, DFG-ViewerA DFG-Viewer való a dokumentumok nézegetésére és böngészésére. Ez METS/MODS XML fájlokat dolgoz fel. Mivel nem találtak megfelelő szabványos jelölőrendszert, ezért egy egyedi rendszert használnak, ami az adatok struktúráltságából adódik, és állandó azonosítókat használ.
Nagy aggregációk felosztása Mivel a dossziék szintjén az aggregációk túl nagyok weboldalon történő böngészéshez vagy hatékony adatbányászathoz, ezért bevezettek egy középső réteget egy kezdeti hash-eléssel(lásd Fig. 1). A struktúra azt a szándékot fejezi ki, hogy egy olyan logikus navigálású utat készítsen, aminek nincs meg az a hátránya, hogy nagy mennyiségű linket kell kezelnie.
Technikai Implementáció A fejlesztés Perl környezetben történt, az alkalmazás egy Apache webszerveren fut. Az implementációs struktúra egy relációs adatbázisra (Postgresql), egy osztály-relációs rétegre (DBIx::Class), egy "business objects" rétegre(ZBW::Resource::* osztályok, melyek a különböző RDF osztályokat és azok property-jeit fejezi ki felhasználva az RDF::Query::Client-t a kapcsolt adatok web-elérésére), egy irányító komponensre (CGI::Application, URI tárolással, amit a CGI::Application::Dispatch::Regex Plugin végez) és egy megjelenítő komponensre épít, ahol a tényleges RDFa oldalak készülnek (HTML::Template). A felhasználói felület YUI CSS és Javascript keretrendszerekkel készült.
Az OAI-ORE beágyazott struktúrája lehetővé teszi a kód újra felhasználását eljárásokon keresztül, mint pl. a get_children_data(), ami az aggregáció minden szintjén meghívható.
LicenszAz adathalmazok licenszének kérdése még mindig nyitott, mivel a metaadatok (a rendezettség) jogát a ZBW, míg a dokumentumokét több tízezer szerző birtokolja. Ezeket a The 20th Century Press Archives as Linked Data Application nem tudja garantálni.
ÖsszegzésA semantikus webtechnológiák és a kapcsolt adattechnikák (Linked Data Techniques) nagyban megnövelték a
mélyen beágyazott digitális adatok hozzáférhetőségét. Az OAI-ORE/RDFa a nem semantikus webeszközökkel a felhasználók számára nyújtott nagy segítséget.
Sok archívumban a metaadatok mennyisége még kisebb, mint a 20th Century Press Archives-ba, ezért az eredeti rendezettség megőrzése nagyon fontos. Emiatt az OAI-ORE felvázolt egy lehetőséget a klasszikus archívumok tárolására és keresésére.
Referenciák [1] Huck, T.S., Wannags, M.: Die Pressearchive von HWWA und ZBW - Retrodigitalisierung der Altbestände von 1900 bis 1930. In: Burckhardt, D. (ed.) .hist 2006: Geschichte im Netz: Praxis, Chancen, Visionen: Beiträge der Tagung .hist 2006, pp. 430-445, Berlin (2007).
[2] Open Archives Initiative Protocol - Object Exchange and Reuse, http://www.openarchives.org/ore/.
[3] Neubert, J.: Bringing the “Thesaurus for Economics” on to the Web of Linked Data. Proc. WWW Workshop on Linked Data on the Web (LDOW 2009), Madrid, Spain. (2009).
[4] Habing, T., Cole, T.: Candidate approaches for describing ORE Aggregations in METS, http://ratri.grainger.uiuc.edu/oremets/.
[5] Sanderson, R., Llewellyn, C., Jones, R.: Evaluation of OAI-ORE via large-scale information topology visualization. Proceedings of the 9th ACM/IEEE-CS joint conference on Digital libraries. pp. 441-442ACM, Austin, TX, USA (2009).
[6] Kaplan, D., Sauer, A., Wilczek, E.: Archival description in OAI-ORE. Presented at the Open Repositories 2010, Madrid (2010).
Submission to the Semantic Web Challenge 2010 at the 9th International Semantic Web Conference (ISWC2010), Shanghai, China, 7-11 Nov 2010
Twitris 2.0 : Semantically Empowered System
for Understanding Perceptions From Social Data
Ashutosh Jadhav, Hemant Purohit, Pavan Kapanipathi, Pramod Ananthram,
Ajith Ranabahu, Vinh Nguyen, Pablo N. Mendes, Alan Gary Smith, Michael
Cooney, and Amit Sheth
KivonatBodnár Tamás
BevezetésA közösségi oldalaknak köszönhetően már az egyszerű polgárok is képesek akár az egész világgal információt megosztani. Mivel a közzétett adatmennyiség hirtelen jelentősen megnőtt, az adatok kiértékelése egyre nagyobb kihívást jelent. Az információ jelentésének meghatározása, valamint az, hogy mi, hol, mikor történt még nehezebb feladat, hiszen ugyanarról az eseményről esetleg többen több – sokszor ellentétes – nézőpontból tudósítanak.
A Twitris a közösségi média adatainak feldolgozására lett létrehozva, legfőképpen a térbeli, időbeli, tematikus információkra, a felhasználói benyomásokra és a hálózati viselkedésre összpontosítva.
Twitris 2.0 leírás Twitris 2.0 egy többrétegű rendszer, ahol minden rész egy pipeline-ba illeszkedik.
Tweet-ek kigyűjtése
Az adatok kinyerése szinte valós időben történik, amihez a Twitter Search API-t használja a program. Egy folyamatos témafelismerő és frissítő folyamat fut :
4.5. az eseményhez fogalmak keresése a DBPedia-ban, az így azonosított fogalmak egy kulcsszó csoportot alkotnak
4.6. ezeket a Google Insights for Search (Google keresési trendek) által visszaadott kulcsszavakkal egészítik ki (ez regionális, kategorikus eredményeket ad)
Az adatokat RDF formátumban közzéteszik az SSD (Semantic Social Data) részeként a LOD-ban.
Tweet feldolgozás
egy eseményt körülvevő tweet-ek térbeli-időbeli csoportosítása
TFIDF (súlyozás) számolása a csoportokra az n-gram-ok elkészítéséhez
súlyozás javítása a térbeli, időbeli és tematikus kapcsolatokat bevonva, az eseményleírók kontextusát is figyelembe véve
a Doozer segítségével domain modellek létrehozása figyelembe véve az esemény kontextusát és a kapcsolódó eseményeket
Tweet forgalom figyelése
A Twitris 2.0 Egy eseményhez kapcsolódó napi tweet-eket is számon tartja. Minden eseményhez egy gráf tartozik, ami ezt megjeleníti.
Szemantikai környezet vizsgálata
A Twitter-ben három fajta kontextusból lehet jelentést kivonni:
internal context : az adatokat közvetlenül a tweet-ekből nyeri ki
képek, videók, cikkek : a kigyűjtött URL követése:
az oldal neve, címe
entitások gyűjtése OpenCalais-val
további szemantikusan kapcsolódó képek, videók gyűjtése az éppen megfelelő API segítségével (pl. youtube videóknál youtube API)
az eseményhez kapcsolódó többi tweet összegyűjtése
szemantikusan annotált entitások kigyűjtése, melyek a tweetben találhatóak a NER segítségével (Named Entity Recognition). Ezekhez a DBPedia-ból keres háttérinformációkat
external context : külső forrásokból gyűjtött (google news, wikipedia, stb.), a tweet témájához kötődő adatok
mined internal context : az internal context-ből kibányászott adatok
az eseményhez kapcsolódó tweet-ek „érzés-vizsgálata” : negatív, pozitív, semleges vagy tárgyilagos az információ.
Egy entitás-kapcsolati gráf létrehozása a szemantikusan annotált DBPedia entitásokat felhasználva. Ezeket a RelFinderrel jeleníti meg.
Technikai információk
php, Java a háttérfunkciókhoz és a feldolgozáshoz
Virtuoso a SPARQL végpontjaként (teljesítmény-összehasonlítások után ez adta a legjobb eredményt a többi nyílt forrású megoldáshoz viszonyítva)
MySQL az adatok tárolásához
JavaScript
Webszolgáltatások : Twitter, Yahoo! BOSS, Google News, twitpic, Youtube, DBpedia
és Wikipedia
Statisztika
Total number of extracted tweets 17.5 million
Processed Tweets 8 million
Cached unique location geocodes 595,3
Cached author locations 2.4 million
Extracted event descriptors 3.7 million
Extracted DBpedia entities 1.3 million
Extracted external URLs 649,17
References
1. Gruhl, D., Nagarajan, M., Pieper, J., Robson, C., Sheth, A.: Context and domain
knowledge enhanced entity spotting in informal text. The SemanticWeb-ISWC 2009 pp. 260{276 (2009)
2. Mendes, P., Passant, A., Kapanipathi, P., Sheth, A.: Linked Open Social Signals.
In: IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent
Agent Technology, 2010. WI-IAT'10. (2010)
3. Nagarajan, M., Baid, K., Sheth, A., Wang, S.: Monetizing User Activity on Social Networks-Challenges and Experiences. In: Web Intelligence and Intelligent Agent Technologies, 2009. WI-IAT'09. IEEE/WIC/ACM International Joint Conferences on. vol. 1, pp. 92{99. IEEE (2009)
4. Nagarajan, M., Gomadam, K., Sheth, A., Ranabahu, A., Mutharaju, R., Jadhav,
A.: Spatio-temporal-thematic analysis of citizen sensor data: Challenges and experiences. Web Information Systems Engineering-WISE 2009 pp. 539{553 (2009)
5. Nagarajan, M., Purohit, H., Sheth, A.: A Qualitative Examination of Topical Tweet and Retweet Practices (2010),
http://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/view/1484
6. Sheth, A.: Citizen sensing, social signals, and enriching human experience. Internet Computing, IEEE 13(4), 87{92 (2009)
7. Thomas, C., Mehra, P., Brooks, R., Sheth, A.: Growing
elds of interest-using an expand and reduce strategy for domain model extraction. In: Web Intelligence and Intelligent Agent Technology, 2008. WI-IAT'08. IEEE/WIC/ACM International Conference on. vol. 1, pp. 496{502. IEEE (2009)
Exploring Your Research: Sprinkling
some Saron on Semantic Web Dog Food
Fergal Monaghan, Georgeta Bordea, Krystian Samp, and Paul Buitelaar
KivonatBodnár Tamás
Bevezetés
A Saffron egy alkalmazás, amely betekintést enged a kutatócsoportok közösségébe, szervezeteibe és az általuk végzett munkákba.
A felhasználó egy webes felületen keresztül keresgélhet az adatbázisban található kutatók munkái között, melyekre akár témakörük szerint is gyorsan rá lehet keresni. A munkák és szerzőik is kapcsolódhatnak más munkákhoz és szerzőkhöz, így egy hálózatot alkotnak.
Ez segíthet a felhasználónak a saját kutatásához megfelelő információ összegyűjtésében vagy a téma szakértőinek felkutatásában. Külön figyelmet fordít a kapcsolatfelvételt könnyítő funkciókra.
Kutatási téma kivonása
Az egyes kutatások besorolásra kerülnek ún. expertise topic-okba (kutatási téma) a bennük található főnév kifejezések és statisztikák alapján.
Az eredményeket a szövegkörnyezettől függően rangsorolja. Ehhez a Sindice Semantic Web engine-t használja.
Adatforrások
A Saffron több forrást is használ:
Semantic Web Dog Food (SWDF) : információ a munkákról (pl. URL egy pdf-ben levő publikációhoz), a részt vevő emberekről, konferenciákról
SWDF publikációk pdf fájlból kinyert információi ( NLP segítségével (Natural Language Processing))
DBPedia : kutatási területek leírásáról URI-k
LOD (Linked Open Data) Web: információ emberekeről az SWDF-ből kinyert URL-ek alapján (pl. seeAlso linkek alapján)
Az adatokat a Semantic Web Technology konferenciák anyagaiból nyerték ki (2006-2010).
747 kiadványhoz van pdf link.
A linkeket két mélységig nyeri ki (crawl1, crawl2), majd pedig konszolidálja őket a CanonConsolidator segítségével.
(a) Corpus numbers
tokens papers people topics
5,285,870 747 2,19 45,72
Triples Papers People knows
swdf 91241 1589 3812 0
crawl1 105325 1604 4664 858
crawl2 141753 1854 6941 3926
consolidated 140649 1854 5513 2660
A jelentés szerepe
Az adatok jelentését RDF, RDFS és OWL ontológiák jelenítik meg. A kutatók közötti kapcsolatok lekérdezéséhez SPARQL-t használnak.
Minden egyes „kutatási témához” hozzá akarnak rendelni egy URI-t a LOD-ból. Jelenleg a DBPedia-ból keresnek megfelelő URI-kat. Már 1823 kutatási területet azonosítottak DBPedia URI-val.
A jövőben az összes adatot át akarják alakítani RDF hármasokra, mert jelenleg az általuk gyűjtött információ csak a saját felhasználói felületükön keresztül böngészhető.
References
1. D. M. Blei, A. Y. Ng, M. I. Jordan, J. Laerty, Latent dirichlet allocation, Journal of Machine Learning Research 3 (2003) 2003.
2. G. Bordea, P. Buitelaar, DERIUNLP: A Context Based Approach to Automatic Keyphrase Extraction, in: Proceedings of the ACL 2010 Workshop on Evaluation Exercises on Semantic Evaluation (SemEval 2010),
2010.
3. G. Bordea, P. Buitelaar, Expertise mining, in: AICS 2010: Proceedings of the 21 st National Conference on Articial Intelligence and Cognitive Science, 2010.
4. S. N. Kim, A. Medelyan, M.-Y. Kan, T. Baldwin, SemEval-2010 Task 5: Automatic Keyphrase Extraction from Scientic Articles, in: Proceedings of the ACL 2010 Workshop on Evaluation Exercises on Semantic Evaluation (SemEval 2010), 2010.
5. F. Monaghan, Context-aware photograph annotation on the social Semantic Web, Ph.D. thesis, National University of Ireland, Galway (December 2008).
6. J. Tang, J. Zhang, L. Yao, J. Li, L. Zhang, Z. Su, Arnetminer: Extraction and mining of academic social networks.
7. G. Tummarello, R. Delbru, E. Oren, Sindice.com: weaving the open linked data, in: ISWC'07/ASWC'07: Proceedings of the 6th international The semantic web and 2nd Asian conference on Asian semantic web conference, Springer-Verlag, Berlin, Heidelberg, 2007.
Interactive Exploration of Web Datasets with VisiNav
Andreas Harth
Institut für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB)
Karlsruhe Institut für Technologie (KIT)
KivonatBodnár Tamás
Bevezetés
http://visinav.deri.org/
A VisiNav RDF adatbázisokat térképez fel, és ezeken hajt végre kereséseket.
Lekérdező műveletek
Négy alapvető művelet:
1. keyword search (kulcsszavak alapján történő keresés)
2. object focus (egy objektumra koncentrál)
3. path traversal (egy út bejárása)
4. facet selection (tényező-kiválasztás)
Keyword search:
A kereső a megadott kulcsszavak alapján objektumok egy rangsorolt listáját adja eredményül.
Object focus:
A felhasználó kiemelhet egy objektumot egy kattintással. Ekkor megjelennek az objektum tulajdonságai, valamint a hozzá kapcsolódó más objektumokra mutató linkek.
Path traversal:
A felhasználó linkek segítségével bejárhat egy utat (pl. a „knows” linkkel). Ezzel egy új eredményhalmazt kap, ahonnan tovább mehet vagy megtekintheti az egyik eredményobjektumot.
Facet selection:
A felhasználó tovább szűkítheti a kapott eredmény egyes tényezők kiválasztásával (pl. a helyek halmazát szűkítheti az Európa „parentFeature” tényező segítségével).
Ezek a műveletek RDF alapműveletek kombinációi (Athanasis, Christophides, and Kotzinos 2004), valamint tényezőre való szűkítés alapművelet (Yee et al. 2003).
Interakciós folyamat
A felhasználó egy kulcsszó megadásával kezdheti a lekérdezést, majd az eredményt a fent vázolt műveletekkel böngészheti tovább. Az adatok megjelenítése az információ típusától függően változhat. Az új kereséseket vagy szűkítéseket megkönnyíti a drag&drop használata.
Megjelenítés
A megjelenítéshez szükséges információt az adatsémából nyeri ki.
térkép megjelenítés a geo-grafikus pontok megjelenítéséhez
időcsík időpontokhoz
táblázat-, gráf-megjelenítés
A különböző nézetekhez különböző exportálási lehetőségek vannak:
általános objektum nézethez RDF
lista-nézethez RSS feed
térképekhez KML formátum, időpontokhoz iCal
Kép: A VisiNav
gráfmegjelenítő része
Méretek: 3 millió objektum
28 millió RDF hármas
References
[1] Athanasis, N.; Christophides, V.; and Kotzinos, D. 2004. Generating On the Fly Queries for the Semantic Web: The ICS-FORTH Graphical RQL Interface (GRQL). In Proceedings of the 3rd International Semantic Web Conference, 486–501.
[2] Harth, A.; Kinsella, S.; and Decker, S. 2009. Using naming authority to rank data and ontologies for web search. In 8th International Semantic Web Conference.
[3] Hogan, A.; Harth, A.; and Polleres, A. 2009. Scalable authoritative owl reasoning for the web. International Journal on Semantic Web & Information Systems 5(2):49–90.
[4] Yee, K.-P.; Swearingen, K.; Li, K.; and Hearst, M. 2003.
Faceted metadata for image search and browsing. In Proceedings of the SIGCHI Conference, 401–408.
TrialX: Using semantic technologies to match
patients to relevant clinical trials based on their
Personal Health Records
Chintan Patel, Sharib Khan, and Karthik Gomadam
Applied Informatics Inc, New York, New York{chintan, sharib, karthik}@trialx.com
KivonatBodnár Tamás
BevezetésA gyógyszerkutatás utolsó lépése az állatokon, majd pedig az embereken végzett vizsgálat. Sok kutatás azért késik, mert nincs elegendő számú jelentkező a kísérletekre. Ennek több oka van:
A jelentkezőket úgynevezett nyomozó szervezi be
A jelentkezőnek pontosan megfelelő egészségi állapotban kell lennie ( valamilyen betegség )
A legtöbb ember nem is tud ezekről a lehetőségekről
A TrialX azt a célt szolgálja, hogy a beteg egészségügyi adatait felhasználva egy megfelelő kísérlethez lehessen irányítani a jelentkezőt. Ehhez elengedhetetlen egy olyan központi rendszer, mely a betegek egészségügyi adatait tárolja, és szükség esetén hozzáférhetővé is teszi (természetesen betartva a hatályos személyiségi jogokat). Ezeket a rendszereket PHR (Personal Health Records) rendszereknek nevezik. Ilyen pl. az USA-ban a Microsoft Health Vault vagy a Google Health.
TrialX adatáramlása
A TrialX kapcsolatban van három PHR rendszerrel:
MHV (Microsoft Health Vault)
GH (Google Health)
Indivo
Ezek a rendszerek különböző kórházakkal vannak kapcsolatban, ahonnan a páciens lekérheti a saját egészségügyi adatait. Miután azt megtette különböző alkalmazásokat engedélyezhet, hogy az adataival
számításokat végezzen. Ilyen alkalmazás a TrialX, ami a páciens adatait felhasználva neki megfelelő gyógyszerkísérleteket keres, és a találatokat a TrialX.com oldalon teszi elérhetővé.
A TrialX felépítése:
Felépítés:
Az alkalmazás három lépést végez:
1. PHR integráció : a különböző PHR rendszerekből származó egészségügyi adatok integrálása
2. Az adatok semantikus modellekbe szervezése: Ezt az alkalmazásba épített TripleX komponens hajtja végre
3. A páciens és a kísérletek adatainak összevetése: Ezt az Xoperator komponens végzi, feladata, hogy szemantikusan kibővítse a lekérdezést.
A TrialX lényegét a CMT (Colombus Matching Technology) alkotja. A CMT klinikai adatokon alapuló összehasonlítást végez a résztvevők és a kísérletek között. Ehhez szemantikus és NLP technikákat használ. A páciens kulcsfontosságú adatait hasonlítja össze a kísérletben megadott kritériumokkal. A kritériumokat az NLP segítségével nyerik ki a kísérlet leírásából és UMLS (Unified Medical Language System) fogalmakhoz kapcsolja őket. (olyasmi, mint a WordNet Synset)
Az eredmények megjelenítése mátrix-formában történik. A mátrix oszlopainak sorrendje megegyezik az oszlopok fontosságával.
References
1. M. Barrett. erecruiting for clinical trials. 2001.
2. Centerwatch. An Industry in Evolution. Centerwatch, 2003.
3. M. Foundation. Connecting americans to their healthcare. Markle Foundation Connecting for Health, page 48, 2004.
4. M. A. Lindberg DA, Humphreys BL. he unified medical language system. T Methods Inf Med., 32:281–291, 1993.
5. K. I. Mandl KD. Tectonic shifts in the health information economy. N Engl J Med., 358:1732–1737, 2008.
6. B. D. O. J. S. D. Tang PC, Ash JS. Personal health records: definitions, benefits, and strategies for overcoming barriers to adoption. J Am Med Inform Assoc., 13:121–126, 2006.
7. P. C. Trusts”. The online health care revolution: How the web helps americans take better care of themselves. 2006.
8. K. S. Valerie M. Online information about cancer clinical trials: Evaluating the web sites of comprehensive cancer centers. AMIA Annu Symp Proc, pages 470–474, 2003.
9. R. Winn. Obstacles to the accrual of patients to clinical trials in the community setting. Semin Oncol, 21(4):112–117, 1994.
UMLS:
http://www.nlm.nih.gov/research/umls/licensedcontent/downloads.html
Widget-szerkesztő:
https://trialx.com/widget/
Egy nyelvészeti UIMA-folyamat a kézi annotálástól az
eredmények megjelenítéséigKiss Márton, Nagy Ágoston
Szegedi Tudományegyetem, Informatikai TanszékcsoportH-6720 Szeged, Árpád tér 2.
{mkiss, nagyagoston}@inf.u-szeged.hu
KivonatBodnár Tamás
UIMA: szabvány struktúrálatlan adatok kezelésére
BevezetésA nyelvészeti kutatások hatékony támogatására fejlesztettek ki néhány UIMA modult és segédprogramot.
Tanulókorpusz építése (Word-UIMA, Word-TXT konverter), gépi- és kézi annotációk összehasonlítása (AnnotationComparator), eredmény vizuális megjelenítése (HTMLViewer).
Word-UIMA XMI konverter:
Word dokumentum annotálása kézzel, pl. a háttérszín megváltoztatásával
A kijelölt részek kiexportálása egy XML fájlba (Word makró segítségével)
XML-ből perl scripttel konfigurációs fájlok létrehozása (annotációk + karakterpozíciók)
egy UIMA modul segítségével konfigurációs fájlokból annotációk
Word-TXT konverter: gépi annotálás
Word makró segítségével egy könyvtár (itt egy korpusz) összes dokumentumát TXT formátumra alakít
Annotációk összehasonlítása:
A gépi algoritmus hatékonyságát a pontosság, a fedés és az F-mérték alapján kapják
pontosság: mennyi helyes, fedés: mennyit talált meg
F-mérték: pontosság és fedés súlyozott harmonikus közepe
Választható illeszkedések:
teljes: két annotáció teljesen megegyezik
tartalmaz: egyik lehet csak része a másiknak
Megjelenítés:
Kétféle megjelenítő:
UIMA InLine XML megjelenítésére XSL-t (azokhoz az adatokhoz, amik fastruktúrában vannak)
UIMA XMI megjelenítésére pedig HTML (UIMA+Perl+HTML)
Az alkalmazás felépítése
Bibliográfia1. Kano, Y., Nguyen, N., Sćtre, R., Yoshida, K., Miyao, Y., Tsuruoka, Y., Matsubayashi, Y., Ananiadou, S., Tsujii, J.: Filling the gaps between tools and users: a tool comparator, using protein-protein interaction as an example. In: Proceedings of Pacific Symposium on Biocomputing (PSB), 13 (2008) 616–627
2. Ferrucci, D., Lally ,A.: Building an example application with the Unstructured Information Management Architecture. IBM Systems Journal Vol. 43 No. 3 (2004) 455–475
3. Kano, Y. et al.: U-Compare: share and compare text mining tools with UIMA. Bioinformatics, doi: 10.1093/bioinformatics/btp289 (2009)
4. D. Ferrucci, A. Lally: UIMA: An Architectural Approach to Unstructured Information Processing in the Corporate Research Environment. Journal of Natural Language Engineering Vol. 10 No. 3-4 (2004) 327–348
5. Kunze, M., Rösner, D.: Tools for UIMA Teaching and Development. University of Magdeburg, Germany (2008)
Valós idejű szövegosztályozás
a Wikipédia szolgálatában
Solt Illés, Héder Mihály, Tikk Domonkos
KivonatBodnár Tamás
Bevezetés
A Wikipedia cikkeit kategóriákba sorolják, hogy egy rendszeren belül legyenek a hasonló cikkek.
A szerkesztők nem mindig tudhatják, hogy egy cikknek melyik a legmegfelelőbb kategória, ezért fel lehet használni egy olyan alkalmazást, mely a cikk szövege alapján kategória-ajánlásokat tesz. Ezt a szövegosztályozó eljárás segítségével teszi meg.
A szövegosztályozó eljárás:
Nyers szöveggé alakítás (dokumentum → szöveg)
Nyelvi feldolgozás (szöveg → szófolyam): szavakra bontás, szótövezés, zajszavak
eltávolítása
Indexelés (szófolyam → egész vektor): egyedi szavak előfordulásainak összeszámlálása,a korpuszban túl gyakori vagy túl ritka szavak eltávolítása
Súlyozás (egész vektor → valós vektor): a szavak dokumentumra vonatkozó fontosságának meghatározása
Predikció (valós vektor → súlyozott kategóriák): betanított/felépített osztályozómodell
alkalmazása
Az újítást nem az előző lépések megváltoztatása adja, hanem a megközelítés. A cél az, hogy egy dokumentumra szinte valós időben el lehessen végezni az eljárást, így nem a megszokott pipeline struktúrával építi fel, ahol inkább az átlagos feldolgozási idő számít.
A kategóriajavaslat mellett evidenciát is szolgáltat a releváns szavak kijelölésével. (Miért javasolja ezt a kategóriát.)
Megvalósítás: Nyelvi előfeldolgozás, indexelés: Apache Lucene
Súlyozás: Apache Mahout
Osztályozás: HITEC osztályozó
Nyers szöveggé alakítás: Devijver-féle elemző módosított változata
Osztályozó HTTP REST felületen érhető el, kimenet lehet HTML vagy XML
A rendszer válaszideje 10 kB méretű dokumentumra kb. 150 ms.
Megvalósítás: http://categorizer.tmit.bme.hu/trac/wiki/HITEC-java
Apache Lucene: http://lucene.apache.org/
Apache Mahout: http://mahout.apache.org/
HITEC: http://categorizer.tmit.bme.hu/trac/
Devijver: http://code.google.com/p/java-wikipedia-parser/
Hivatkozások1. Sebastiani, F.: Machine learning in automated text categorization. ACM Computing Surveys 2002; 34(1): 1–47.
2. Tikk D., Biró Gy., Törcsvári A.: A hierarchical online classifier for patent categorization. Emerging Technologies of Text Mining: Techniques and Applications 2007; 244–67.
A graph-based approach to measuring semantic relatedness in ontologiesAhmad Hawalah, Maria Fasli
KivonatBodnár Tamás
Bevezetés
A feladat egy olyan metódus kifejlesztése, ami két fogalom szemantikus hasonlóságának, kapcsolatának a mértékét képes megállapítani úgy, hogy akár többfajta kapcsolatot is figyelembe vesz.
3 fő kérdés:
hogy számítsuk ki két fogalom szemantikus hasonlóságát, ha többfajta kapcsolat is létezik?
Hogy aknázzuk ki az ontológiában kifejezett rejtett információt?
milyen tulajdonságokat kell figyelembe venni a hasonlóság számításakor?
Megelőző munkák
Előzőleg három fajta mérési modell volt használatban:
Edge-based (élalapú), legrövidebb út :
alapgondolat: minél közelebb van két fogalom, annál nagyobb a hasonlóság
több megvalósítása van:
csak a fogalmak közti élek száma számít
a fogalmak mélysége szerint vagy figyelembe lehet venni a hálózat mélységét is
két fogalom legkisebb közös ősétől való távolságok alapján is lehet számolni (Wu és Palmer)
probléma: az éleknek megegyezik a súlya
Information Content Model
alapötlet: minél több információ oszlik meg két fogalom között, annál jobban hasonlítanak
ezt egy magasan specifikált közös ős információ tartalma alapján lehet megállapítani
Information Theoretic Model
az előző kettő csak olyan hálózatokra alkalmazható, ahol csak egyféle kapcsolat (is-a) található
alkalmas hierarchikus és nem-hierarchikus fogalmak összehasonlítására is
több alaplépés szükséges
a többi modellhez képest jobb eredmények(pl. 1. alapsúlyok kiszámítása minden kapcsolathoz, 2. tranzitív kapcsolatok értékének kiszámítása, 3. „fuzzy membership” mátrix kiszámítása, 4. szemantikus hasonlóság )
ez sem vesz figyelembe több használható tulajdonságot
Szemantikus kapcsolatok mérése:
Figyelembe vett tulajdonságok:
1. Identity Property: ha megegyezik két fogalom, akkor a hasonlóság értéke a lehető legnagyobb
2. Symmetrical and non-symmetrical properties:
1. Szimmetrikus: ha két fogalom között csak egyfajta kapcsolat van(itt lényegtelen az irány)
2. Nem szimmetrikus: ha két fogalom között több kapcsolat is van
3. Positive Property: két fogalom kapcsolata nemnegatív és értéke a [0,1] intervallumban van
4. Hierarchal and non-hierarchal Relations Property: minden kapcsolatnak különböző jelentése van, ezért minden kapcsolathoz különböző súlyú él tartozik
5. Minimal Distance Property: két fogalom közti legkisebb út hossza
6. Depth-Relative Property: a mélyebben lévő fogalmak jobban kapcsolódnak egymáshoz, mint a felül lévők. A fogalom mélységét nem a gyökérhez képest számítják, hanem minden fogalomhoz a leszármazottjaihoz viszonyítva.
7. Multiply Paths Property: két fogalom között több kapcsolat (vagy út) lehet, de csak a legnagyobb értékűt kell figyelembe venni
8. Transitivity Property: tranzitivitásnál a nem-hierarchikus kapcsolatoknál csak az első mélységig megy le
9. A Concept's Maximum Depth Property: a legmélyebben lévő levél-leszármazottjának a mélysége
Gráf-alapú szemantikus kapcsolatok számítása
Hat lépés, minden lépés után eláll egy mátrix, az utolsó lépésben ezeket komponáljuk:
1. Concepts' relation types: különböző kapcsolatokhoz különböző súlyok hozzárendelése a [0,1] intervallumból, azonos fogalmak kapcsolata 1 értékű, az összes többi kisebb. Az eredmény egy W mátrix
2. Computing Semantic Relatedness for Direct-related Concepts: ha két fogalom között egy kapcsolat (hierarchikus vagy nem hierarchikus) áll fennA D eredmény-mátrix a következő:
3. Computing Semantic Relatedness for Transitive-related Concepts: csak a hierarchikus kapcsolatokat és a nem-hierarchikus kapcsolatok első mélységét veszi figyelembeA T eredmény-mátrix a következőképpen épül fel:Minden fogalompárhoz ki kell számítani a következő értéket:
4. Computing Semantic Relatedness for Sibling-related Concepts: testvérek azok a fogalmak, amik legalább egy közös őssel rendelkeznek. Az eredmény az S mátrix
5. Computing Semantic Relatedness for Parent-related Concepts: ez akkor áll fenn, ha két fogalom rendelkezik közös alfogalmakkal, és egyik sem őse a másiknak. Az eredmény a P mátrix.
6. Aggregating Adjacency Matrices:
Komponáljuk a kapott mátrixokat.
Kísérletek:A kísérletek jó eredményt mutattak az eddig használt eljárásokhoz képest.
REFERENCES[1] Mitra, M., Singhal, A. and Buckley, C. 1998. Improving automatic query expansion. In Proc. of 21st Annual
International ACM-SIGIR Conference on Research and Development in Information Retrieval. pp. 206-214.
[2] Vlez, B., Wiess, R., Sheldon, M. And Gifford, D. 1997. Fast and effective query refinement. In Proc. of 20th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval. pp. 6-15.
[3] Matsuo, Y., Mori, J., Hamasaki, M., Ishida, K., Nishimura, T., Takeda, H., Hasida, K. and Ishizuka, I. 2005. Polyphonet: An advanced social network extraction system. In Proc. Of 15th International World Wide Web Conference.
[4] Mika, P. 2005. Ontologies are us: A unified model of social networks and semantics. In Proc. of ISWC2005.
[5] Resnik, P. 1999. Semantic similarity in a taxonomy: An information based measure and its application to problems of ambiguity in natural language. Journal of Artificial Intelligence Research. pp. 95-130.
[6] Rosenfield, R. 1996. A maximum entropy approach to adaptive statistical modelling. Computer Speech and Language. pp. 187-228.
[7] Ge, J. and Qiu, Y. 2008. Concept Similarity Matching Based on Semantic Distance. In Proc. of 4th International Conference on Semantic, Knowledge and Grid.
[8] Rada, R., Mili, H., Bicknell, E. and Blettner, M. 1998. Development and Application of a Metric on Semantic Nets. IEEE Trans. on Systems, Man, and Cybernetics,19(1). pp.17–30.
[9] Razmerita, L. and Lytras, M. 2008. Ontology-Based User Modelling Personalization: Analyzing the Requirements of a Semantic Learning Portal. Lecture Notes in Artificial Intelligence; Vol. 5288, pp. 354 – 363.
[10] Cross, V. 2004. Fuzzy semantic distance measures between ontological concepts. Fuzzy Information. 04, IEEE Annual Meeting of the Volume 2.
[11] Sussna, M. 1993. Word Sense Disambiguation for Free-text Indexing Using a Massive Semantic Network. Proceedings of the Second International Conference on Information and Knowledge Management, CIKM’93. pp. 67-74.
[12] Knappe, R. 2005. Measures of Semantic Similarity and Relatedness for Use in Ontology-based Information Retrieval. PhD. Roskilde University
[13] Jiang J. and Conrath, D. 1997. Semantic similarity based on corpus statistics and lexical taxonomy. In Proceedings of International Conference on Research in Computational Linguistics, Taiwan.
[14] Wu, Z. and Palmer, M. 1994. Verb Semantics and Lexical Selection. 32nd Annual Meeting of the Association for Computational Linguistics. pp. 133-138.
[15] Richardson, R., Smeaton, A. F., and Murphy, J. 1994. Using WordNet as a knowledge base for measuring semantic similarity between words. Working paper CA 1294, Dublin City University, School of Computer Applications, Dublin, Ireland.
[16] Kim, Y. and Kim, J. 1990. A Model of Knowledge Based Information Retrieval with Hierarchical Concept Graph, Journal of Documentation, Vol. 46 (2). pp.113–136.
[17] Lin, D. 1998. An Information-Theoretic Definition of Similarity. 15th International Conference on Machine Learning, pp. 296-304.
[18] Maguitman, A. and Mencze, F. 2005. Algorithmic detection of semantic similarity. In Proceedings of the 14th International Conference on World Wide Web (WWW 2005)). Chiba, Japan.
[19] Open Directory Project (ODP). 2010. http://www.dmoz.org/ September 2010.
[20] Song, L., Ma, J., Liu, H., Lian, L. and Zhang, D. 2007. Fuzzy Semantic Similarity Between Ontological Concepts. In Advances and Innovations in Systems, Computing Sciences and Software Engineering. pp.275-280.
[21] Leacock, C. and Chodorow, M. (1998). Combining local context and wordnet similarity for word sense identification. In Fellbaum, C., ed.: WordNet: An electronic lexical database. MIT Press. pp. 265–283.
[22] Miller, G. and Charles, W. 1991. Contextual Correlates of Semantic Similarity. Language and Cognitive Processes. pp. 1–28.
[23] WordNet. 2010. http://wordnet.princeton.edu/. November 2010.
[24] Hirst, G. and St-Onge, D. 1998. Lexical chains as representations of context for the detection and correction of malapropisms. In Fellbaum. pp. 305–332.
Oracle Text alapján valamilyen mértékben hasonló fogalmak és a WordNet alapján mért távolságok között van-e összefüggés?
Bodnár Tamás
Oracle Text Knowledge Base:
Az Oracle Text a téma alapú kereséseknél a fogalmak összehasonlítását a saját tudásbázisa (Knowledge Base) alapján végzi. Ez alapból csak angol és francia nyelven van beépítve, de saját tudásbázist is fel lehet építeni pl. tezauruszok segítségével (akár más nyelven is).
A tudásbázis felépítésének egy részlete, mely bővebben elérhető a http://download.oracle.com/docs/cd/B10500_01/text.920/a96518/aknow.htm#38806 oldalon.
Branch 1: science and technology[1] communications [2] journalism
[3] broadcast journalism
[3] photojournalism
[3] print journalism
[4] newspapers
[2] public speaking
[2] publishing industry
[3] desktop publishing
[3] periodicals
[4] business publications
[3] printing
[2] telecommunications industry
[3] computer networking
[4] Internet technology
[5] Internet providers
[5] Web browsers
[5] search engines
[3] data transmission
[3] fiber optics
[3] telephone service
[1] formal education [2] colleges and universities
[3] academic degrees
[3] business education
[2] curricula and methods
….
[1] hard sciences
….
[2] computer industry
[3] computer hardware industry
[4] computer components
[5] computer memory
[5] microprocessors
[4] computer peripherals
[5] data storage devices
[4] hand-held computers
[4] laptop computers
[4] mainframes
[4] personal computers
[4] workstations
[3] computer science
[4] artificial intelligence
[3] computer security and data encryption
[4] computer viruses and protection
[3] computer software industry
[4] CAD-CAM
[4] client-server software
[4] computer programming
[5] programming development tools
[5] programming languages
[4] operating systems
[3] computer standards
[3] cyberculture
[3] human-computer interaction
[3] information technology
[4] computer multimedia
[5] computer graphics
[5] computer sound
[5] computer video
[4] databases
[4] document management
[4] natural language processing
[4] spreadsheets
[3] network computing
[3] supercomputing and parallel computing
[3] virtual reality
[2] electrical engineering
[2] electronics
[3] consumer electronics
[4] audio electronics
[4] video electronics
[3] electronic circuits and components
[4] microelectronics
[4] semiconductors and superconductors
[3] radar technology
[2] energy industry
[3] electric power industry
[3] energy sources
[4] alternative energy sources
[4] fossil fuels industry
[5] coal industry
[5] petroleum products industry
[4] nuclear power industry
WordNet fogalmak:
Nouns:
hypernyms : Y is a hypernym of X if every X is a (kind of) Y (canine(kutyaféle) is a hypernym of dog, because every dog is a member of the larger category of canines)
hyponyms : Y is a hyponym of X if every Y is a (kind of) X (dog is a hyponym of canine)
coordinate terms: Y is a coordinate term of X if X and Y share a hypernym (wolf is a coordinate term of dog, and dog is a coordinate term of wolf)
holonym : Y is a holonym of X if X is a part of Y (building is a holonym of window)
meronym : Y is a meronym of X if Y is a part of X (window is a meronym of building)
Verbs
hypernym: the verb Y is a hypernym of the verb X if the activity X is a (kind of) Y (to perceive is an hypernym of to listen)
troponym : the verb Y is a troponym of the verb X if the activity Y is doing X in some manner (to lisp is a troponym of to talk)
entailment : the verb Y is entailed by X if by doing X you must be doing Y (to sleep is entailed by to snore)
coordinate terms: those verbs sharing a common hypernym (to lisp and to yell)
Adjectives
related nouns (kapcsolódó főnevek)
similar to (hasonló)
participle of verb (egy ige igeneve, angolban igék „-ing”-es alakja)
Adverbs
root adjectives
Példa WordNet felépítésére (a dog első jelentésének hypernym hierarchiája):
dog, domestic dog, Canis familiaris
=> canine, canid
=> carnivore
=> placental, placental mammal, eutherian, eutherian mammal
=> mammal
=> vertebrate, craniate
=> chordate
=> animal, animate being, beast, brute, creature, fauna
=> ...
Hasonló téma az Oracle Text tudásbázisából
[8] canines
[7] carnivores
[6] mammals
[5] vertebrates
[4] zoology
[3] biology
[2] life sciences
[1] hard sciences
A felépítés között van hasonlóság, de az Oracle Text tudásbázisa és a WordNet más irányból közelíti meg a csoportosítást, mivel az Oracle Text nagyobb témakörök szerint csoportosítja a fogalmakat, míg a WordNet csak a fogalmak közti kapcsolatokat tárolja, valójában nem is csoportosít.
A távolságok jelentése mindkét rendszerben hasonló ( ha a WordNetből csak a hyponym-hypernym hierarchiát vesszük).
Oracle thesaurusok:
A WordNet synsetjeiben szinonímák találhatóak, amit a thesauruszoknál lehet felhasználni.
begin
CTX_THES.CREATE_RELATION('thes','dog','SYN','Canis familiaris');
CTX_THES.CREATE_RELATION('thes','dog','SYN','domestic dog');
end;
Ugyanígy a különböző kapcsolatokat is meg lehet adni, de itt meg kell gondolni, hogy a WordNetből melyik kapcsolatokat érdemes figyelembe venni ( pl. érdemes-e belevenni az igék troponym vagy entailment kapcsolatait).
begin
CTX_THES.CREATE_RELATION('thes','dog','BT','canine');
end;
begin
CTX_THES.CREATE_RELATION('thes','carnivore','NT','canine');
end;
Összességében tehát elmondható, hogy a WordNetből elő lehet állítani thesauruszokat (itt mindenképpen meg kell gondolni, hogy a WordNet melyik részét lehet megfelelően felhasználni), amiből akár egy saját tudásbázist is fel lehet építeni.
Thesaurusokat a ctxload parancs segítségével lehet betölteni egy fájlból.
Ha a medical thesaurus a med.thes fájlban található, akkor ezt, mint medthes thesaurus-t a következőképpen lehet betölteni a ctxload használatával:
ctxload -thes -thescase y -name medthes -file med.thes -user ctxsys/ctxsys
A tudásbázishoz a ctxkbtc-vel lehet hozzákapcsolni.
Ahhoz, hogy a betöltött medthes thesaurus-t a tudásbázishoz csatoljuk, a ctxkbtc parancsot kell használni:
ctxkbtc -user ctxsys/ctxsys -name medthes
Irodalomjegyzék:WordNet:
http://en.wikipedia.org/wiki/WordNet
Working with a thesaurus, Oracle Text doc:http://download.oracle.com/docs/cd/B10500_01/text.920/a96517/cthes.htm#464
CTX_THES package, Oracle Text doc:
http://download.oracle.com/docs/cd/B10500_01/text.920/a96518/cthes.htm#73729
Google Fordító API
Bodnár Tamás
http://code.google.com/intl/hu-HU/apis/language/translate/v1/using_rest_translate.html
Java API:
http://code.google.com/p/google-api-translate-java/
https://github.com/richmidwinter/google-api-translate-java
GNU Lesser GPL licenc
Valójában egy nemhivatalos Java wrapper a Google Fordítóhoz
Működése egyszerű:
szükséges a google-api-translate-java-0.95.jar a projekthez csatolva
Példa:
import com.google.api.translate.Language;
import com.google.api.translate.Translate;
public class Main {
public static void main(String[] args) throws Exception {
// Set the HTTP referrer to your website address.
Translate.setHttpReferrer("http://sajatweboldal.hu");
String translatedText = Translate.execute("Hey dude, where is my car?", Language.ENGLISH, Language.HUNGARIAN);
System.out.println(translatedText);
}
}
Kipróbáltam, működik. Itt nincs szükség a Google-tól igényelt kódra, anélkül is működik.
Egy paranccsal több nyelvről több nyelvre vagy több szöveget is lehet fordítani.
Probléma:
The Google Translate API must be used for user-generated translations. Automated or batched queries of any kind are strictly prohibited.
Nem lehet automatizált lekérdezéseket végezni.
Apache OpenNLP
Bodnár Tamás
Apache OpenNLP: az NLP-hez kötődő nyílt forráskódú csomagok
Megtalálható java-alapú eszközök: mondatfelismerő, tokenizáló, pos-tagger, tagoló(chunker) és elemző(parser), név-felismerő, coreference-felismerés (pl. Mary said she would help me. → Mary és she ugyanúgy Mary-re utal), ezeket lehet tanítani is.
Jelenleg elérhető nyelvek: dán, német, angol, spanyol, holland, portugál
Először mindig be kell tölteni egy megfelelő modellt, amit le lehet tölteni.
Mondatfelismerő:
Az API itt
String tömböt ad vissza.
Magyar mondatfelisemrés:
Egy általam tanított (rövid cikk alapján) magyar mondatfelismerő eredménye:
Tokenizálás:
Háromfajta eljárás:
1. Whitespace Tokenizer
2. Simple Tokenizer : karakterosztály alapján
3. Learnable Tokenizer: valószínűségi modell alapján
Lehetséges az újraegyesítés (detokenizálás) és a tanítás.
Névfelismerés:
Valójában név- és számfelismerő
Ezt is lehet tanítani.
Dokumentumkategorizáló:Még nincs kezelési-útmutató, de az API-ból használható.
Linkek:http://incubator.apache.org/opennlp/index.html
http://incubator.apache.org/opennlp/documentation/manual/opennlp.html
Letöltés:
http://incubator.apache.org/opennlp/download.cgi
Modellek letöltése:
http://opennlp.sourceforge.net/models-1.5/
The Stanford Natural Language Processing Group
Bodnár Tamás
NLP program csomagok angol nyelvű szöveg feldolgozására. Néhány csomagban más nyelvekre adoptált modellek is találhatók a forrásba beépítve (legtöbbször német, kínai, arab).
Több csomagot is kiadtak full GPL licenc alatt, mindegyik Java-ban:
Stanford CoreNLP: integrálja a POS tagger-t, parser-t, név- és hivatkozásfelismerőt (a hivatkozás itt a mondaton belüli entitásokra való hivatkozást jelenti). A lényege, hogy egy puszta szövegből egy teljesen elemzett szöveget készít. A különböző funkciókat akár ki is lehet kapcsolni. Bővebben itt: http://nlp.stanford.edu/software/corenlp.shtml
Stanford Parser: Mondatelemző. Az angol mellett más nyelvekre is adaptálható(melyek be vannak építve). Online parser: http://nlp.stanford.edu:8080/parser/
Stanford POS Tagger: Feladata a szavak típusának a megállapítása
Named Entity Recognizer(NER): Névfelismerő (pl. személyek, vállalatok, gének, proteinek neveinek felismerése)
Chinese Word Segmenter
Stanford Classifier: valószínűség alapján működő osztályozó. Az API-n kívül parancssoros hozzáférése is van.
Tregex and Tsurgeon: A Tregex egy mintaillesztő, ami fákon dolgozik. Rengeteg hasznos funkciót tartalmaz a Natural Language fákhoz. Ehhez is található parancssoros hozzáférés(TregexPattern). Az 1.2 verziótól kezdve használja a Tsurgeon nyelvet, ami egy fa-transzformációs nyelv.
Topic Modelling Toolbox: 0.3.3 a jelenlegi verzió. Olyan adathalmazok analizálására alkalmas eszköz, melyek egy vagy több szöveges komponens is tartalmaznak.
Phrasal: Korszerű kifejezés alapú gépi fordító. Jelenleg béta fázisban jár. Akár angol-magyar fordításra is rá lehet venni a European Parliament Proceedings Parallel Corpus felhasználásával(be kell tanítani a fordítót).
Linkek:
http://nlp.stanford.edu/software/index.shtml
http://nlp.stanford.edu/software/corenlp.shtml
http://nlp.stanford.edu/software/phrasal/
Phrasal
Bodnár Tamás
Letöltés:http://www-nlp.stanford.edu/software/phrasal/
http://www-nlp.stanford.edu/software/corenlp.shtml
+ SRILM (az útmutatóban megtalálható a link)
Telepítés-útmutató:http://www-nlp.stanford.edu/wiki/Software/Phrasal
Lépések:1. Telepítés: SRILM + Phrasal
2. Betanítás:
1. Adatok tokenizálása egy adott perl scripttel
2. Nyelvi modell építése egy szövegből a SRILM használatával
3. A kétnyelvű szöveg vizsgálata, összehasonlítása (ez tart a legtovább, nekem egy 5000 soros szöveggel több, mint fél óra), szükséges egy konfigurációs fájl (aligner.conf)
4. Kifejezések kivonása a forrásszövegből, itt is van egy konfigurációs fájl (phrasal.conf)
5. A modell hangolása – ez nem sikerült eddig, de a közben végzett fordítás eredményei megtalálhatóak
3. Tesztelés, fordítás:
1. Forrásszövegből a kifejezések kigyűjtése
2. Fordítás (script/decode script segítségével)
3. Tesztelés esetén az eredmény összehasonlítása a célnyelvű szöveggel
„Részeredmények”:
Egy rossz fordítás:
Translating(0): i. az erőkifejtési szintek mindegyik tagállam számára lehetővé teszik -valamennyi halászterület esetében - hogy annak teljes halászati lehetőségeit kimerítsék , vagyis a teljes kifogható
mennyiség alá tartozó fajokat , akár meghatározott területre , akár nem , csakúgy , mint az ilyen korlátozás alá nem eső fajokat ;
Translation options: 436
Decoding with 2 threads
Decoding loop time: 5,057000 s
7
Stack for hierarchical reordering (length of input sentence: 47)
block[1] cs={0} sz=1 (M,S)=(1,0) (M,S)=(0,0)
block[2] cs={0-1} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[3] cs={0-3} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[4] cs={0-4} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[5] cs={0-5} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[6] cs={0-6} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[7] cs={0-8} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[8] cs={0-10} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[9] cs={0-11} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[10] cs={0-12} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[11] cs={0-14} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[12] cs={0-15} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[13] cs={0-16} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[14] cs={0-19} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[15] cs={0-20} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[16] cs={0-21} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[17] cs={0-22} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[18] cs={0-28} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[19] cs={0-29} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[20] cs={0-30} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[21] cs={0-31} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[22] cs={0-32} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[23] cs={0-33} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[24] cs={0-34} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[25] cs={0-37} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[26] cs={0-38} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[27] cs={0-40} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[28] cs={0-42} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[29] cs={0-43} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[30] cs={0-46} sz=1 (M,S)=(1,0) (M,S)=(1,0)
Best Translation: i. the erőkifejtési szintek each member states to allow -valamennyi halászterület was - its its fishing lehetőségeit kimerítsék , is, the total kifogható mennyiség alá tartozó fajokat , or specific areas , or not , csakúgy , as the korlátozás alá not eső fajokat ;
Final score: -4217,296
Coverage: {}
Time: 6,254000 seconds
Final Translation: i. the erőkifejtési szintek each member states to allow -valamennyi halászterület was - its its fishing lehetőségeit kimerítsék , is, the total kifogható mennyiség alá tartozó fajokat , or specific areas , or not , csakúgy , as the korlátozás alá not eső fajokat ;
Score: -4217,296572
Egy jól sikerült fordítás:
Translating(0): ez a rendelet teljes egészében kötelező és közvetlenül alkalmazandó valamennyi tagállamban .
Translation options: 163
Decoding with 2 threads
Decoding loop time: 1,017000 s
7
Stack for hierarchical reordering (length of input sentence: 12)
block[1] cs={0-1} sz=1 (M,S)=(1,0) (M,S)=(0,0)
block[2] cs={0-2} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[3] cs={0-4} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[4] cs={0-5} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[5] cs={0-6} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[6] cs={0-7} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[7] cs={0-8} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[8] cs={0-9} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[9] cs={0-10} sz=1 (M,S)=(1,0) (M,S)=(1,0)
block[10] cs={0-11} sz=1 (M,S)=(1,0) (M,S)=(1,0)
Best Translation: this regulation entirely binding and directly applicable in all member states .
Final score: -176,051
Coverage: {}
Time: 1,165000 seconds
Final Translation: this regulation entirely binding and directly applicable in all member states .
Score: -176,050620
Kifejezésekhez rendelt jelentések a tanítása után(példák):
mezőgazdaság entropy 3,022 nTrans 91 sum 1,000000
large,: 0,180991
tourism,: 0,179327
grazing: 0,096668
agriculture.: 0,066121
yield.: 0,051018
agriculture: 0,040941
crops,: 0,030146
swedish: 0,024219
confined: 0,022212
year's: 0,019119
experienced: 0,017720
severely: 0,015349
type: 0,015229
valamelyest entropy 0,467 nTrans 10 sum 1,000000
obscured: 0,886358
somewhat: 0,079732
down: 0,018616
years.: 0,006312
last: 0,005369
three: 0,002143
been: 0,000886
has: 0,000486
the: 0,000089
of: 0,000009
tegnapi entropy 1,534 nTrans 36 sum 1,000000
yesterday's: 0,552584
merkel's: 0,140048
encouraging!: 0,140048
event: 0,053910
session.: 0,028162
throughout: 0,024662
example: 0,012079
yesterday: 0,010730
set: 0,008356
let: 0,007748
plenary: 0,007328
union.: 0,005963
one-minute: 0,001488
makes: 0,001287
an: 0,001270
összetettsége entropy 1,329 nTrans 20 sum 1,000000
frequency,: 0,462814
scale,: 0,314222
substantially: 0,109413
complexity: 0,084890
increased: 0,007876
throughout: 0,007437
years.: 0,004074
recent: 0,003254
impact: 0,001850
megállapodások entropy 1,506 nTrans 104 sum 1,000000
agreements: 0,322225
council:: 0,274263
forwarded: 0,265952
texts: 0,108149
minutes: 0,004119
welcome.: 0,004027
see: 0,003662
by: 0,002135
countries?: 0,002018
reflection: 0,001771
end-agreement: 0,001586
warmly: 0,000955
largely: 0,000735
voluntary: 0,000665
twenty-seventh: 0,000618
prudence: 0,000618
expanding: 0,000577
scope: 0,000505
újító entropy 1,699 nTrans 34 sum 1,000000
commended: 0,478566
innovative: 0,180462
scottish: 0,102948
fortunate.: 0,075285
weaker: 0,075285
fate: 0,028498
matter.: 0,012514
taking: 0,006782
strength: 0,006236
ability: 0,005647
depends: 0,005401
sensitive: 0,005015
government: 0,00403
egyszer: entropy 1,213 nTrans 18 sum 1,000000
again:: 0,713655
year.: 0,068548
guarantee: 0,056341
once: 0,041165
end: 0,031377
place: 0,022915
toy: 0,021666
directive: 0,016320
new: 0,008841
safety: 0,008041
by: 0,003416
will: 0,003000
be: 0,001967
this: 0,000996
i: 0,000808
in: 0,000469
the: 0,000330
of: 0,000146
után entropy 3,016 nTrans 504 sum 1,000000
after: 0,519126
years: 0,035162
which,: 0,014333
entry: 0,013735
following: 0,012995
shipyards: 0,011447
pain: 0,010489
hope,: 0,010182
integration,: 0,010123
shortcomings,: 0,009870
astounding: 0,009870
aid.: 0,009083
months': 0,008409
impasse.: 0,007810
inflicted: 0,007200
tough: 0,006827
GATE és SharpNLP
Bodnár Tamás
GATE
http://gate.ac.uk/
Elérhető Linux, Windows, Mac rendszerekre is GNU GPL licenc alatt.
Forrás Java-ban.
Ez is szövegfeldolgozó.
Tulajdonságok:
tokenizer, mondatfelbontó, stb. (ugyan azok, mint az eddigieknél)
letölthető csomagban grafikus felület, mely segít egy szövegfeldolgozó pipeline kialakításában
a forrás is letölthető
pluginok csatlakoztathatóak, ennek segítségével lehet más nyelveket hozzávenni
A GATE
Plugin-kezelő ablaka (több nyelvi modul is található benne, de magyar nem)
Pluginoknál meg kell adni a nyelvtan egyes tulajdonságainak a leírását (pl. a számokat hogyan írják, a neveket, a dátumot hogyan használják stb.), valamint meg lehet adni a városok, országok neveit.
A forrás segítségével az API is felhasználható.
SharpNLPAz OpenNLP (Java) C#-ra portolt változata kiegészítve a szövegfeldolgozás folyamatát támogató kóddal, valamint a WordNethez való kapcsolódást segítő csomaggal, a SharpWordNet-tel.
Grafikus felület is található hozzá.
A SharpNLP
mondatelemzőjének grafikus eredménye
A forrás letölthető: http://sharpnlp.codeplex.com/SourceControl/list/changesets#
Dokumentáció nem található hozzá.