ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ
DESCRIPTION
ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ. Διδάσκων: Καθηγητής Σαράντος Καπιδάκης Εργασία: Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης The PEKING project Γεράσιμος Τουρκογιάννης gtourkog @ cc . uoa . gr. Θεματική Ενότητα :. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/1.jpg)
11
ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Διδάσκων: Καθηγητής Σαράντος Διδάσκων: Καθηγητής Σαράντος
ΚαπιδάκηςΚαπιδάκης Εργασία:Εργασία: Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε
πολυγλωσσικό περιβάλλον Ψηφιακής πολυγλωσσικό περιβάλλον Ψηφιακής ΒιβλιοθήκηςΒιβλιοθήκης
The PEKING projectThe PEKING project Γεράσιμος ΤουρκογιάννηςΓεράσιμος Τουρκογιάννης gtourkoggtourkog@@cccc..uoauoa..grgr
![Page 2: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/2.jpg)
22
Θεματική Ενότητα :Θεματική Ενότητα :Αυτόματη Ταξινόμηση και Αυτόματη Ταξινόμηση και
ΕυρετηρίασηΕυρετηρίαση
![Page 3: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/3.jpg)
33
ECDL2003-Session 3bECDL2003-Session 3bNorwayNorway
Automatic classification and Automatic classification and indexingindexing
![Page 4: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/4.jpg)
44
Automatic classification and Automatic classification and indexingindexingΆρθρα και παρουσιάσεις από το ΣυνέδριοΆρθρα και παρουσιάσεις από το Συνέδριο
• Cross-Lingual Text Categorization. Cross-Lingual Text Categorization. Nuria Nuria Bel, Cornelis H.A.Koster and Marta Bel, Cornelis H.A.Koster and Marta VillegasVillegas
• Automatic multi-label subject indexing in Automatic multi-label subject indexing in a multilingual environment. a multilingual environment. Boris Lauser Boris Lauser and Andreas Hotho and Andreas Hotho
![Page 5: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/5.jpg)
55
Automatic classification and Automatic classification and indexingindexing• Αυτοματοποιημένη κατηγοριοποίηση Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό κειμένου σε πολυγλωσσικό
περιβάλλονπεριβάλλον Ψηφιακής ΒιβλιοθήκηςΨηφιακής Βιβλιοθήκης.. Automated Text Categorization (ATC)Automated Text Categorization (ATC)
![Page 6: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/6.jpg)
66
Περιεχόμενα ΠαρουσίασηςΠεριεχόμενα Παρουσίασης
• ΟρισμοίΟρισμοί• ΕφαρμογήΕφαρμογή• ΑρχιτεκτονικήΑρχιτεκτονική• Τρέχουσες εφαρμογέςΤρέχουσες εφαρμογές• Σχόλια - Παρατηρήσεις – ερωτήσειςΣχόλια - Παρατηρήσεις – ερωτήσεις• ΣυμπεράσματαΣυμπεράσματα
![Page 7: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/7.jpg)
77
σχηματικό πλαίσιο εννοιώνσχηματικό πλαίσιο εννοιών ευρετηρίαση—ταξινόμηση ευρετηρίαση—ταξινόμηση (κατηγοριοποίηση με γλωσσική ανάλυση κειμένων)(κατηγοριοποίηση με γλωσσική ανάλυση κειμένων)
αναζήτηση πληροφορίαςαναζήτηση πληροφορίας ανάκτησηανάκτηση
ακρίβεια και ανάκλησηακρίβεια και ανάκληση
![Page 8: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/8.jpg)
88
Σχηματική παράσταση Σχηματική παράσταση διεργασιώνδιεργασιών
![Page 9: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/9.jpg)
99
Αυτοματοποιημένη κατηγοριοποίηση Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονκειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής ΒιβλιοθήκηςΨηφιακής ΒιβλιοθήκηςΤι είναι;Τι είναι;• η η αυτόματη ευρετηρίασηαυτόματη ευρετηρίαση είναι η απλή είναι η απλή
προέλευση των λέξεων κλειδιών από έναπροέλευση των λέξεων κλειδιών από ένα κείμενο και η παροχή πρόσβασης σε όλες κείμενο και η παροχή πρόσβασης σε όλες εκείνες τις λέξεις.εκείνες τις λέξεις.
• τα πιο σύνθετα τα πιο σύνθετα αυτόματα συστήματα αυτόματα συστήματα ευρετηρίασηςευρετηρίασης προσπαθούν να επιλέξουν τους προσπαθούν να επιλέξουν τους ελεγχόμενους όρους λεξιλογίου (ελεγχόμενους όρους λεξιλογίου (θησαυρόςθησαυρός) ) βασισμένους στους όρους του κειμένου.βασισμένους στους όρους του κειμένου.
![Page 10: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/10.jpg)
1010
Αυτοματοποιημένη κατηγοριοποίηση Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονκειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής ΒιβλιοθήκηςΨηφιακής Βιβλιοθήκης
Τι είναι;Τι είναι;• Η Η αυτόματη ταξινόμησηαυτόματη ταξινόμηση προσπαθεί να προσπαθεί να ομαδοποιήσει αυτόματα παρόμοια κείμενα ομαδοποιήσει αυτόματα παρόμοια κείμενα χρησιμοποιώντας είτε : χρησιμοποιώντας είτε :
1. μια πλήρως αυτόματη μέθοδο 1. μια πλήρως αυτόματη μέθοδο clusteringclustering
2. ένα καθιερωμένο σχήμα ταξινόμησης και 2. ένα καθιερωμένο σχήμα ταξινόμησης και ένα σύνολοένα σύνολο κειμένων που είναι ήδη κειμένων που είναι ήδη ευρετηριασμένα από το σχήμαευρετηριασμένα από το σχήμα
![Page 11: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/11.jpg)
1111
Αυτοματοποιημένη κατηγοριοποίηση Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονκειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής ΒιβλιοθήκηςΨηφιακής Βιβλιοθήκης
Τι είναι;Τι είναι;• η η αυτοματοποιημένη κατηγοριοποίηση κειμένωναυτοματοποιημένη κατηγοριοποίηση κειμένων είναι είναι
η διαδικασία της δημιουργίας εργαλείων λογισμικού η διαδικασία της δημιουργίας εργαλείων λογισμικού ικανών να ταξινομούν τα κείμενα ή τα υπερκείμενα ικανών να ταξινομούν τα κείμενα ή τα υπερκείμενα ((hypertexts) hypertexts) κάτω από προκαθορισμένες κατηγορίες ή κάτω από προκαθορισμένες κατηγορίες ή θεματικούς κώδικες θεματικούς κώδικες
• ClusteringClustering είναι η διαδικασία της ομαδοποίησης είναι η διαδικασία της ομαδοποίησης κειμένων βασισμένων στην ομοιότητα των λέξεων ή κειμένων βασισμένων στην ομοιότητα των λέξεων ή των εννοιών των τεκμηρίων όπως ερμηνεύεται από των εννοιών των τεκμηρίων όπως ερμηνεύεται από μια αναλυτική μηχανή. Αυτές οι μηχανές μια αναλυτική μηχανή. Αυτές οι μηχανές χρησιμοποιούν σύνθετους αλγορίθμους όπως χρησιμοποιούν σύνθετους αλγορίθμους όπως Επεξεργασία Φυσικής Γλώσσας (Επεξεργασία Φυσικής Γλώσσας (Natural Language Natural Language ProcessingProcessing), ), Latent Semantic Analysis, Bayesian Latent Semantic Analysis, Bayesian statistical analysisstatistical analysis και άλλους.και άλλους.
![Page 12: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/12.jpg)
1212
Αυτοματοποιημένη κατηγοριοποίηση Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονκειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής ΒιβλιοθήκηςΨηφιακής ΒιβλιοθήκηςΓιατί;Γιατί;• Αντιμετωπίζοντας την Αντιμετωπίζοντας την υπερπληροφόρησηυπερπληροφόρηση με την με την
κατηγοριοποίηση κειμένωνκατηγοριοποίηση κειμένωνΕίτεΕίτε• Δημιουργώντας υψηλής ποιότητας εργαλεία για Δημιουργώντας υψηλής ποιότητας εργαλεία για αναζήτησηαναζήτηση
σε μια μη δομημένη βάση τεκμηρίων π.χ. σε μια μη δομημένη βάση τεκμηρίων π.χ. WebWeb. Αυτή είναι η . Αυτή είναι η συνήθης απάντηση από την συνήθης απάντηση από την αναζήτηση ενός κειμένουαναζήτηση ενός κειμένου μέσω μέσω crawlercrawler
ΕίτεΕίτε• Δημιουργώντας υψηλής ποιότητας εργαλεία για τη Δημιουργώντας υψηλής ποιότητας εργαλεία για τη δόμησηδόμηση
μιας βάσης τεκμηρίων σε μια Ψηφιακή Βιβλιοθήκη. Αυτή μιας βάσης τεκμηρίων σε μια Ψηφιακή Βιβλιοθήκη. Αυτή είναι η απάντηση από την είναι η απάντηση από την αυτοματοποιημένη αυτοματοποιημένη κατηγοριοποίηση κειμένου κατηγοριοποίηση κειμένου (ATC)(ATC)
![Page 13: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/13.jpg)
1313
Αυτοματοποιημένη κατηγοριοποίηση Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονκειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής ΒιβλιοθήκηςΨηφιακής Βιβλιοθήκης
Πώς;Πώς;Με τρέχουσες εφαρμογές π.χ.:Με τρέχουσες εφαρμογές π.χ.:PEKINGPEKING projectprojectΑκρωνύμιο τουΑκρωνύμιο τουPEPEople and ople and KKnowledge Cross-Lingual nowledge Cross-Lingual
ININformation formation GGatheringathering
www.interpeking.comwww.interpeking.com
![Page 14: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/14.jpg)
1414
επεξεργασία εγγράφουεπεξεργασία εγγράφου
![Page 15: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/15.jpg)
1515
Γλωσσολογική Διαχείριση Γλωσσολογική Διαχείριση ΓνώσηςΓνώσης
![Page 16: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/16.jpg)
1616
PEKINGPEKING (1/ (1/66))
ΓενικάΓενικά• Είναι ένα σύστημα, πρόγραμμα, έργο Ψηφιακής ΒιβλιοθήκηςΕίναι ένα σύστημα, πρόγραμμα, έργο Ψηφιακής Βιβλιοθήκης• Μια πρωτοβουλία Μια πρωτοβουλία ((Initiative)Initiative) στην Ε.Ε.στην Ε.Ε.• Συνεργάτες από Ισπανία, Ιταλία και Ολλανδία σε τομείς όπως: Συνεργάτες από Ισπανία, Ιταλία και Ολλανδία σε τομείς όπως: κέντρα τεκμηρίωσης κέντρα τεκμηρίωσης διαχείρισης πληροφοριών διαχείρισης πληροφοριών προμηθευτές τεχνολογίαςπρομηθευτές τεχνολογίας• Γλωσσική Διαχείριση Γνώσης Γλωσσική Διαχείριση Γνώσης ((KM)KM) 11.. Γλωσσική Κατηγοριοποίηση κειμένου Γλωσσική Κατηγοριοποίηση κειμένου (Document (Document
Management)Management) 2.2. Διαγλωσσική επεξεργασία Διαγλωσσική επεξεργασία 3. 3. Σιωπηρή γνώση χρηστώνΣιωπηρή γνώση χρηστών ( (Tacit Knowledge)Tacit Knowledge) 4. 4. Πλατφόρμα ανάπτυξης για διαγλωσσική συλλογή πληροφοριών και Πλατφόρμα ανάπτυξης για διαγλωσσική συλλογή πληροφοριών και
διαχείριση γνώσηςδιαχείριση γνώσης
![Page 17: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/17.jpg)
1717
PEKING (2/6)PEKING (2/6)Σκοπός:Σκοπός:
• Διαγλωσσική Ανάκτηση Πληροφοριών Διαγλωσσική Ανάκτηση Πληροφοριών Cross-Lingual Information Retrieval Cross-Lingual Information Retrieval
(CLIR)(CLIR)
![Page 18: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/18.jpg)
1818
PEKING (3/6)PEKING (3/6)• Διαγλωσσική Κατηγοριοποίηση ΚειμένωνΔιαγλωσσική Κατηγοριοποίηση Κειμένων Cross-Lingual Text Categorization (CLTC)Cross-Lingual Text Categorization (CLTC) με 3 πολιτικές μετάφρασης:με 3 πολιτικές μετάφρασης:1.1. Μετάφραση εγγράφουΜετάφραση εγγράφου2.2. Μετάφραση ορολογίαςΜετάφραση ορολογίας3.3. Μετάφραση κατ’ επιλογή Μετάφραση κατ’ επιλογή με 2 πρακτικές μοντέλων:με 2 πρακτικές μοντέλων:1.1. Πολύγλωσση εκπαίδευση μηχανήςΠολύγλωσση εκπαίδευση μηχανής2.2. Διαγλωσσική εκπαίδευση μηχανήςΔιαγλωσσική εκπαίδευση μηχανής
![Page 19: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/19.jpg)
1919
PEKING (4/6)PEKING (4/6)• Ένας ταξινομητής Ένας ταξινομητής ((classifier)classifier) είναι είναι
εκπαιδευμένος να ταξινομεί έγγραφα σε εκπαιδευμένος να ταξινομεί έγγραφα σε πολλές γλώσσεςπολλές γλώσσες
• LCS LCS ((Linguistic Classification System) Linguistic Classification System) μηχανή ταξινόμησηςμηχανή ταξινόμησης
• ““ΠολύΠολύ--ταξινόμησηταξινόμηση”” έναντι έναντι ““μονόμονό--ταξινόμησηςταξινόμησης””• Με τη βοήθεια 2 αλγόριθμων των Με τη βοήθεια 2 αλγόριθμων των Winnow Winnow και και
RocchioRocchio
![Page 20: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/20.jpg)
2020
• LCS LCS ((Linguistic Classification System) Linguistic Classification System) μηχανή ταξινόμησηςμηχανή ταξινόμησης
Another example: the infamous noun phraseAnother example: the infamous noun phrase'the Hillary Clinton health care bill proposal'the Hillary Clinton health care bill proposal', resulting', resulting(with some effort) in the HM frame (with some effort) in the HM frame [[proposal, [bill, [care, health]]], [Clinton, Hillary]] which [[proposal, [bill, [care, health]]], [Clinton, Hillary]] which
(omitting the single heads) will be unnested to the set of (omitting the single heads) will be unnested to the set of HM pairs HM pairs
[ "proposal", "bill" ] [ "bill", "care" ] [ "care", "health" ] [ "proposal", "bill" ] [ "bill", "care" ] [ "care", "health" ] [ "proposal", "Clinton" ] [ "Clinton", "Hillary" ] [ "proposal", "Clinton" ] [ "Clinton", "Hillary" ]
![Page 21: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/21.jpg)
2121
PEKINGPEKING ( (55//66))ΕΦΑΡΜΟΓΗ σε ποιο υλικό;ΕΦΑΡΜΟΓΗ σε ποιο υλικό;• ILO corpusILO corpus : : International LaborInternational Labor Organization Organization ((Σώμα κειμένωνΣώμα κειμένων του Διεθνούς Οργανισμού Εργασίας)του Διεθνούς Οργανισμού Εργασίας)• 2165 έγγραφα στην αγγλική και 2165 έγγραφα στην αγγλική και • 1590 έγγραφα στην ισπανική γλώσσα1590 έγγραφα στην ισπανική γλώσσα• Επισκόπηση Επισκόπηση ILOILO
![Page 22: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/22.jpg)
2222
12 κατηγορίες ταξινόμησης12 κατηγορίες ταξινόμησης ((μια για κάθε έγγραφο)μια για κάθε έγγραφο)
![Page 23: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/23.jpg)
2323
PEKING (6/6)PEKING (6/6)Επεξεργασία φυσικής γλώσσας (Επεξεργασία φυσικής γλώσσας (NLP) NLP) στο κείμενο-στο κείμενο-
πηγή που χαρακτηρίζεται γραμματικώς και πηγή που χαρακτηρίζεται γραμματικώς και λημματοποιείται, πώς; λημματοποιείται, πώς;
• Μορφολογική ανάλυσηΜορφολογική ανάλυση ( (τύπος του όρου, ρήμα κλπ)τύπος του όρου, ρήμα κλπ)• Λεξική ανάλυση (τι μέρος του λόγου, γραμματικός Λεξική ανάλυση (τι μέρος του λόγου, γραμματικός
χαρακτηριστής - χαρακτηριστής - tagger)tagger) • Συντακτική ανάλυση Συντακτική ανάλυση • Φρασεολογική ανάλυση Φρασεολογική ανάλυση • Σημασιολογική ανάλυσηΣημασιολογική ανάλυση• Πραγματολογική ανάλυσηΠραγματολογική ανάλυση
![Page 24: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/24.jpg)
2424
Αυτόματη Κατηγοριοποίηση Κειμένου Αυτόματη Κατηγοριοποίηση Κειμένου ((ATC)ATC)Επεξεργασία με τις ακόλουθες τεχνολογίες:Επεξεργασία με τις ακόλουθες τεχνολογίες:• Γλωσσολογικές μέθοδοιΓλωσσολογικές μέθοδοι για για Ακρίβεια στην Ανάκτηση ΠληροφοριώνΑκρίβεια στην Ανάκτηση Πληροφοριών (IR) (IR)και στην Εξαγωγή Πληροφορίας (και στην Εξαγωγή Πληροφορίας (Information Extraction)Information Extraction)• Υπολογιστική γλωσσολογία Υπολογιστική γλωσσολογία (Computational Linguistics)(Computational Linguistics)• Μηχανική Μετάφραση Μηχανική Μετάφραση (Machine Translation)(Machine Translation)• Γλωσσική Τεχνολογία (Γλωσσική Τεχνολογία (Language Technology)Language Technology)• Ικανότητα μηχανών για εκμάθηση (Ικανότητα μηχανών για εκμάθηση (Machine Learning Methods)Machine Learning Methods)• Διαδικασία λέξεων διανύσματος (Διαδικασία λέξεων διανύσματος (word vector word vector
processing)processing)
![Page 25: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/25.jpg)
2525
Από το ελληνικό έργο Από το ελληνικό έργο «Σχηματοποίηση»«Σχηματοποίηση» γλωσσικός έλεγχος γλωσσικός έλεγχος
![Page 26: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/26.jpg)
2626
Λεξική ανάλυσηΛεξική ανάλυση (tokens) (tokens)
![Page 27: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/27.jpg)
2727
Γραμματικός και συντακτικός χαρακτηρισμός Γραμματικός και συντακτικός χαρακτηρισμός κειμένουκειμένου
![Page 28: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/28.jpg)
2828
Από το έργο «Έλλογον»Από το έργο «Έλλογον»
![Page 29: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/29.jpg)
2929
Δενδρική γλωσσολογική ανάλυση Δενδρική γλωσσολογική ανάλυση πρότασηςπρότασης
![Page 30: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/30.jpg)
3030
Σχηματική γλωσσολογική Σχηματική γλωσσολογική ανάλυσηανάλυση
![Page 31: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/31.jpg)
FAO of the UN
Library and Documentation
Systems Division
ECDL 2003Trondheim
August 2003
Automatic Text CategorizationWord Vector Representation
The rice production……India…farmers grow…water irrigation…produce rice flour and…new productionlines…
Document
TheRiceProducIndiaFarmerGrowWaterIrrigationFlourAndNew Line
123111111111
Word Vector
Wordstemming
Introduction
AutomaticIndexing
Evaluation
Outlook
Discussion
![Page 32: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/32.jpg)
FAO of the UN
Library and Documentation
Systems Division
ECDL 2003Trondheim
August 2003
Automatic Text Categorization
Class c
Class ĉ
Document word vectors
Maximum Margin Hyperplane
Binary Support Vector Machines
Introduction
AutomaticIndexing
Evaluation
Outlook
Discussion
![Page 33: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/33.jpg)
FAO of the UN
Library and Documentation
Systems Division
ECDL 2003Trondheim
August 2003
Automatic Text CategorizationWord Vector Processing
TheRiceProducIndiaFarmerGrowWaterIrrigationFlourAndNew Line
123111111111
Word Vector
RiceProducIndiaFarmerGrowWaterIrrigationFlourLine
231111111
Word Vector
RiceProduc
23
Word Vector
PruningStopwords
Introduction
AutomaticIndexing
Evaluation
Outlook
Discussion
![Page 34: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/34.jpg)
FAO of the UN
Library and Documentation
Systems Division
ECDL 2003Trondheim
August 2003
Automatic Text CategorizationIntegration of Background Knowledge
Word vector with ontology integration
RiceProduc
23
RiceProducRiceCerealsRice flour
23222
Concepts!Add
Other strategies:• Replace• Only (document is represented only by its concepts language independent!)
ParameterMaximum Integration Depth: 1
Integrationstrategy
Introduction
AutomaticIndexing
Evaluation
Outlook
Discussion
![Page 35: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/35.jpg)
3535
Ευρωπαϊκά έργα στην Γλωσσική Τεχνολογία Ευρωπαϊκά έργα στην Γλωσσική Τεχνολογία (1/2)(1/2)
![Page 36: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/36.jpg)
3636
Ευρωπαϊκά έργα στην Γλωσσική Τεχνολογία Ευρωπαϊκά έργα στην Γλωσσική Τεχνολογία (2/2) τεχνολογίες φωνής, επεξεργασίας (2/2) τεχνολογίες φωνής, επεξεργασίας κειμένου και ΔΓ στην παγκόσμια αγοράκειμένου και ΔΓ στην παγκόσμια αγορά
![Page 37: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/37.jpg)
3737
Ελληνικοί οργανισμοί που Ελληνικοί οργανισμοί που συμμετέχουν στην Γλωσσική συμμετέχουν στην Γλωσσική Τεχνολογία με έργαΤεχνολογία με έργα• Ινστιτούτο Επεξεργασία του Λόγου Ινστιτούτο Επεξεργασία του Λόγου
(οικΟΝΟΜίΑ, (οικΟΝΟΜίΑ, METIS, UNL, EuroMATMETIS, UNL, EuroMAT))• Γενική Γραμματεία Έρευνας και Γενική Γραμματεία Έρευνας και
Τεχνολογίας Τεχνολογίας • ΕΚΕΦΕ «Δημόκριτος» ΕΚΕΦΕ «Δημόκριτος»
(Σχηματοποίηση,(Σχηματοποίηση, Ellogon, Ellogon, ΜΙΤΟΣ, ΜΙΤΟΣ, Greek Information Extraction GUIGreek Information Extraction GUI))
![Page 38: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/38.jpg)
3838
Γλωσσική Τεχνολογία με Ελληνικές Γλωσσική Τεχνολογία με Ελληνικές εφαρμογές : ελληνικό εστιακό σημείοεφαρμογές : ελληνικό εστιακό σημείο
![Page 39: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/39.jpg)
3939
Το παράδειγμα του Εργαστηρίου Το παράδειγμα του Εργαστηρίου Τεχνολογίας γνώσεων και λογισμικού (Τεχνολογίας γνώσεων και λογισμικού (SKEL) SKEL) ΔημόκριτοςΔημόκριτος
![Page 40: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/40.jpg)
4040
Ελληνική εμπορική ιδιωτική Ελληνική εμπορική ιδιωτική πρωτοβουλία πρωτοβουλία intargetintarget
![Page 41: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/41.jpg)
4141
WebliographyWebliography• www.htlcentral.orgwww.htlcentral.org• www.interpeking.comwww.interpeking.com• http://www.iit.demokritos.gr/skel/Ellogon/http://www.iit.demokritos.gr/skel/Ellogon/• http://www.cs.kun.nl/peking/ecdl03.pdfhttp://www.cs.kun.nl/peking/ecdl03.pdf• http://www.aifb.uni-karlsruhe.de/WBS/aho/pub/lauhttp://www.aifb.uni-karlsruhe.de/WBS/aho/pub/lau
serhothoecdl03.pdfserhothoecdl03.pdf• http://www.ilsp.gr/euromap.htmlhttp://www.ilsp.gr/euromap.html• http://194.219.21.163/index/ie/index.asphttp://194.219.21.163/index/ie/index.asp• www.cs.kun.nl/pekingwww.cs.kun.nl/peking
![Page 42: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/42.jpg)
4242
Ευχαριστίες στον καθηγητή Ευχαριστίες στον καθηγητή Kees Kees KosterKoster
![Page 43: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/43.jpg)
4343
σας ευχαριστώ!
![Page 44: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/44.jpg)
4444
Προβληματισμοί-συζήτησηΠροβληματισμοί-συζήτηση• Αποτελεί απειλή για τον επιστήμονα της Αποτελεί απειλή για τον επιστήμονα της
πληροφόρησης ο αυτόματος ταξινομητής / πληροφόρησης ο αυτόματος ταξινομητής / ευρετηριαστής ενός συστήματος;ευρετηριαστής ενός συστήματος;
• Στην κοινωνία της πληροφόρησης που όλα Στην κοινωνία της πληροφόρησης που όλα αλλάζουν το προσωπικό και τα εργαλεία των αλλάζουν το προσωπικό και τα εργαλεία των βιβλιοθηκών προσαρμόζονται σε νέες βιβλιοθηκών προσαρμόζονται σε νέες διαγλωσσικές τεχνολογίες;διαγλωσσικές τεχνολογίες;
• Στο πολυγλωσσικό περιβάλλον της Ε.Ε. η Στο πολυγλωσσικό περιβάλλον της Ε.Ε. η ελληνική γλώσσα θα παραμείνει ανεπηρέαστη ελληνική γλώσσα θα παραμείνει ανεπηρέαστη στη διαχείριση / ανταλλαγή της γνώσης; στη διαχείριση / ανταλλαγή της γνώσης;
![Page 45: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ](https://reader035.vdocuments.us/reader035/viewer/2022070503/5681563e550346895dc3e6b1/html5/thumbnails/45.jpg)
4545
•Τελικά το χάσμα μεταξύ των γλωσσών θα Τελικά το χάσμα μεταξύ των γλωσσών θα γεφυρωθεί;γεφυρωθεί;