u n i v e r s i t Ä t h e i d e l b e r g kommentiertes … · 2014. 2. 24. · u n i v e r s i t...

U N I V E R S I T Ä T H E I D E L B E R G

Sommer 2014

Kommentiertes Verzeichnis der Lehrveranstaltungen

Computerlinguistik

(Stand: 24.2.2014)

Die ausführliche Darstellung der Veranstaltungen findet sichunter http://lsf.uni-heidelberg.de

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 2

Computerlinguistik

Zusätzliche Lehrveranstaltungen und weitere Informationen werden auf unseren Internetseiten unterhttp://www.cl.uni-heidelberg.de bekanntgegeben.

Bei Fragen zum Studium der Computerlinguistik wenden Sie sich bitte an die folgenden Adressen:

• Studienberatung (Magister): Éva Mújdricza-Maydt([email protected])

• Studienberatung (Bachelor): Éva Mújdricza-Maydt, Madeline Remse([email protected])

• Studienberatung (Master): Schigehiko Schamoni([email protected])

• Allgemeine Fragen: [email protected]

Weitere Informationen zur fachbezogenenen Studienberatung finden Sie unterhttp://www.cl.uni-heidelberg.de/studies/beratung.mhtml

Vorbereitungskurse

Einführung in die Nutzung computerlinguistischer Ressourcen

09-160-00-02; Übung; SWS: 2

Block; 09:00 - 17:00; 07.04.2014 - 11.04.2014; INF 325 / PCPool; Chersoni, E. Inhalt Der Vorkurs gibt Grundlagen in der Nutzung von GNU/Linux-basierten

(computerlinguistischen) Tools sowie der vorhandenen Korpora. Dabei geht es sowohlum allgemeine Grundlagen der Shell (wie z.B. Ein-/Ausgabeumleitung) als auch umeinzelne Toolkits im Speziellen. Wir werden uns anschauen, wie bestimmte Toolszu benutzen sind, was man aus ihnen herausbekommt (und was nicht) und wieman solche Ausgaben automatisch weiterverarbeiten kann (und zum Beispiel andas nächste Tool weiterverfüttert). Zudem umfasst der Kurs eine Kurzeinführung inMapReduce und den am Institut vorhandenen Hadoop Cluster.

Leistungsnachweis Regelmäßige Teilnahme und Bearbeitung von Übungsaufgaben.

Die erfolgreiche Teilnahme am Blockkurs ist Voraussetzung für die Teilnahme amSoftwareprojekt.

Voraussetzung Programmieren 1 (P I), Grundlagen der Linux/Unix-Bedienung.

To register, please send an e-mail to the lecturer (better in English) Literatur Literatur wird zu Beginn der Veranstaltung bekanntgegeben.

Mathematischer Vorkurs

09-160-00-01; Vorlesung / Übung; SWS: 2

Block; 09:00 - 17:00; 07.04.2014 - 11.04.2014; INF 325 / SR 23; Nghiem, T. Kommentar Leistungsbewertung:

ÜK: 2 LP Inhalt Der mathematische Vorkurs dient der Vorbereitung auf verschiedene

Lehrveranstaltungen, die grundlegende Mathematikkenntnisse erfordern (z.B.Algorithmen und Datenstrukturen, Statistical Methods for Computational Linguistics)und ist vor allem denjenigen Studierenden zu empfehlen, die vor Besuch dieser Kurse

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 3

ihre Mathematikkenntnisse auffrischen und vertiefen wollen. Der Vorkurs ist auch fürangehende Erstsemester geeignet. Themenbereiche des Kurses sind unter anderem

• Grundbegriffe der Mathematik und Logik• Vektoren, Vektorräume und Matrizenrechnung• Ableitungen• Graphen• Verbände• Statistik

Leistungsnachweis Regelmäßige und aktive Teilnahme, Bearbeitung von Übungsaufgaben. Literatur Vorkurs-Niveau:

• Kemnitz: Mathematik zum Studienbeginn. Vieweg+Teubner, 2006.• Schäfer, Georgi, Tippler: Mathematik Vorkurs. Übungs- und Arbeitsbuch für

Studienanfänger. Teubner, 2006

Weiterführend:

• beliebige Einführung in die lineare Algebra• beliebige Einführung in die Analysis

Bachelor (NBA; BA-2010)

Formale Grundlagen der Computerlinguistik: Mathematische Grundlagen - FF-FM


Mi; wöch; 11:15 - 12:45; ab 23.04.2014; INF 306 / SR 13; Versley, Y. Kommentar Leistungsbewertung:

BA-2010 (FF-FM): 6 LPNBA (FF-FM): 6 LP

Inhalt Die Veranstaltung vermittelt eine Einführung in die formalen Methoden, die für die

Modellierung von computerlinguistischen Problemen grundlegend sind, und ihreAnwendung auf ausgewählte Probleme in der Computerlinguistik.

Voraussichtlicher Inhalt:

• Diskrete Strukturen• Wahrscheinlichkeitsverteilungen, statistische Tests• Folgen, Konvergenz, Stetigkeit• Ableitungen mehrdimensionaler Funktionen, Skalarprodukte, Eigenwerte• Probabilistische Graphische Modelle

Leistungsnachweis • aktive Teilnahme

• erfolgreiche Bearbeitung der Übungsaufgaben• Bestehen der Klausur

Voraussetzung keine

(empfohlen: Einführung in die Computerlinguistik, Einführung in die Logik) Literatur Zur Anschaffung empfohlen:

• Florian Modler, Martin Kreh. Tutorium Analysis 1 und Lineare Algebra 1• Chris Manning, Hinrich Schütze. Foundations of Statistical Natural Language

Processing

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 4

Programmieren II: Fortgeschrittene (Java) - PII


Mi; wöch; 14:15 - 15:45; ab 23.04.2014; INF 306 / SR 19; Fraser, A.Do; wöch; 14:15 - 15:45; ab 24.04.2014; INF 328 / SR 25; Fraser, A. Kommentar Leistungsbewertung:

BA-2010 (PII): 6 LPNBA (PII): 6 LP

Inhalt In der Vorlesung werden die in "Programmieren I" erworbenen Grundkenntnisse

anhand einer zweiten Programmiersprache und der Entwicklung von elementarenKenntnissen der Softwareentwicklung erweitert und vertieft. Neben einer Einführungin objektorientierte Programmierung in der Programmiersprache Java wird dabeiauch in allgemeine Themen der Softwaretechnik eingeführt; u.a. zentrale Methodenund Vorgehensweisen der Softwareentwicklung wie z.B. (objektorientiertes) Design,Software-Dokumentation, Testing, Parallelisierung, Deployment. Diese Themen werdenanhand typischer Anwendungsprobleme der Computerlinguistik behandelt.

Leistungsnachweis • Übungsaufgaben

• Bestehen der Abschlussklausur• Erfolgreiches Bearbeiten von mindestens 50% der Übungsaufgaben zur Zulassung

zur Abschlussklausur Voraussetzung Erfolgreicher Abschluss des Kurses "Programmieren I". Literatur • K. Sierra & B. Bates (2005). "Head First Java". O'Reilly.

• B. Eckel (2006). "Thinking in Java, 4th edition". Prentice Hall• E. Gamma et al. (1994). "Design Patterns. Elements of Reusable Object-Oriented

Software". Addison-Wesley Longman• E. Freeman et al. (2004). "Head First Design Patterns". O'Reilly.• Java API: http://docs.oracle.com/javase/7/docs/api/• J. Bloch (2008). "Effective Java". Addison-Wesley.

Formale Syntax - FSyn


Di; wöch; 11:15 - 12:45; ab 22.04.2014; INF 350 / OMZ R U013; Frank, A.Do; wöch; 11:15 - 12:45; ab 24.04.2014; INF 350 / OMZ R U013; Frank, A. Kommentar Leistungsbewertung:

BA-2010 (FSyn): 6 LPNBA (FSyn): 6 LP

Inhalt Die Vorlesung vermittelt vertiefte Kenntnisse der syntaktischen Sprachbeschreibung am

Beispiel eines theoretisch fundierten Grammatikformalismus.Wir konzentrieren uns insbesondere auf die formalen Grundlagen derLexikalisch-funktionalen Grammatik (LFG), als einen der bedeutenden lexikalischenconstraint-basierten Grammatikformalismen.Die Vorlesung gibt einen Überblick über die Kernbereiche und einige speziellePhänomene der syntaktischen Analyse und ihrer formalen Beschreibung im Rahmender Lexikalisch-funktionalen Grammatik.Den Abschluss bildet ein Überblick über verwandte Grammatikformalismen: HPSG(Head-driven Phrase Structure Grammar), CCG (Combinatory Categorial Grammar),TAG (Tree Adjoining Grammar), Dependenzgrammatik).

Leistungsnachweis • Regelmäßige und aktive Teilnahme

• Erfolgreiche Bearbeitung der Übungsaufgaben

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 5

• Bestehen der Klausur Voraussetzung Einführungen in die CL und Sprachwissenschaft Literatur • Yehuda Falk (2001): Lexical-Functional Grammar. An Introduction to Parallel

Constraint-Based Syntax. University of Chicago Press.• Joan Bresnan (2001). Lexical-Functional Syntax. Oxford: Blackwell.• Mary Dalrymple (2001). Lexical Functional Grammar. Volume 34, Syntax and

Semantics. Academic Press.• Peter Sells (1985). Lectures on Contemporary Syntactic Theories. An Introduction

to Government-Binding Theory, Generalized Phrase Structure Grammar, andLexical-Functional Grammar. CSLI Lecture Notes No. 3, CSLI Publications, Stanford,CA. (Chapter 3)

• Tracy Holloway King, Stefanie Dipper, Anette Frank, Jonas Kuhn, John Maxwell(2004): "Ambiguity Management in Grammar Writing". In Research on Language andComputation, 2 (2): 259-280, Kluwer Academic Publications.

Weitere Literatur wird im Laufe des Semesters bekannt gegeben.

Text Mining - CS-CL, BS-CL, BS-AC

09-160-10-32; Vorlesung; SWS: 2

Fr; wöch; 11:15 - 12:45; ab 25.04.2014; INF 325 / SR 23; Zielinski, A. Kommentar Leistungsbewertung:

BA-2010[100%|75%] (CS-CL): 6 LPBA-2010[50%] (BS-CL): 6 LPBA-2010[25%] (BS-AC): 4 LPNBA[100%|75%] (CS-CL): 6 LPNBA[50%|25%] (BS-CL, BS-AC): 4 LP

Inhalt Im Text Mining werden Data-Mining Verfahren (wie z.B. Klassifikation, Clustering,

Trend-Analyse) eingesetzt, um nicht bekannte Informationen in natürlich-sprachlichenTexten aufzufinden. Die Vorlesung führt in das Spektrum der vorhandenen Methoden(regelbasiert, wissensbasiert oder statistisch) ein und bietet einen Überblick übermögliche Anwendungsgebiete wie z.B. Social Media Monitoring, Plagiatserkennungsowie Informationsrecherche in den Life Sciences.

Leistungsnachweis • Regelmäßige Teilnahme an Vorlesung und Übung

• Bearbeitung von übungsaufgaben• Klausur• Aktive Teilnahme an den Veranstaltungen• Seminarvortrag (ca. 20 min)

Voraussetzung Grundbegriffe in Statistik Literatur • Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008). Introduction

to Information Retrieval. Cambridge University Press.• Bing Liu (2007). Web Data Mining. Springer. Second Edition.• Ian H. Witten, Eibe Frank, and Mark A. Hall (2011). Web Data Mining. Springer• Data Mining: Practical Machine Learning Tools and Techniques (Third Edition).

http://www.cs.waikato.ac.nz/ml/weka/book.html

NLP-Werkstatt: Arbeiten mit linguistisch annotierten Korpora - CS-CL, BS-CL, BS-AC

09-160-10-41; Proseminar

Mi; wöch; 16:15 - 17:45; ab 23.04.2014; INF 325 / SR 23; Mújdricza-Maydt, É. Kommentar Leistungsbewertung:

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 6


Inhalt Im Seminar werden Sie - unterstützt durch praktische Übungen - notwendige

Kenntnisse in der Erstellung und Weiterverarbeitung annotierter Korpora erwerben.Die Übungen werden einzeln oder in kleinen Gruppen durchgeführt. Lernziel ist es,im Laufe des Semesters Fertigkeiten für eine sicher(er)e und zielgerichtete Arbeitmit Korpora zu erwerben und für die spätere Anwendung wiederverwendbare underweiterbare Programme zur Verarbeitung annotierter Korpora zu erstellen.

In diesem Semester konzentriert sich das Seminar auf die (manuelle und automatische)Annotation computerlinguistischer Informationen und deren Extraktion aus Korpora. Wirwerden uns v.a. auf die folgenden Fragestellungen und Fertigkeiten konzentrieren:

• Korpusauswahl und -vorverarbeitung• Wie beeinflussen Menge, Format, Sauberkeit der zugrundeliegenden Daten die

Vorgehensweise?• Wie säubert man Korpora, wie geht man um mit Formaten, Encodings, wie führt

man Formatkonversionen durch?• Manuelle und automatische Annotation und ihre Auswertung

• Wie stellt man Guidelines auf und wie folgt man ihnen?• Welche Vorannotierungen und Tools sind hilfreich?• Wie misst man die Qualität der Annotation?• Welche (halb)automatischen oder interaktiven Annotierungstools eignen sich für

welche Aufgabenstellungen? Wie verwendet man sie, welche Anpassungen derFormate muss man ggf. vornehmen?

• Wie visualisiert man quantitative Eigenschaften der Daten bzw. Ergebnisse?• Extraktion und Weiterverarbeitung von Informationen

• Welche Formate gibt es?• Welche Tools oder Skripts existieren für die Verarbeitung der Formate?• Wie kann man eigene, wiederverwendbare Extrahierungsprogramme schreiben?

Leistungsnachweis • regelmäßige und aktive Teilnahme

• Übungsaufgaben• Präsentation und Diskussion der Lösungen

Voraussetzung Programmieren I

Parallele und vergleichbare Korpora für NLP - CS-CL, BS-CL, BS-AC

09-160-10-42; Proseminar / Übung

Do; wöch; 14:15 - 15:45; ab 24.04.2014; INF 325 / SR 23; Seminar; Frank, A.Mi; wöch; 11:15 - 12:45; ab 30.04.2014; INF 325 / PCPool; Übung; Mújdricza-Maydt, É. Kommentar Leistungsbewertung:


Inhalt Der Einsatz paralleler oder vergleichbarer Korpora stellt eine etablierte und flexible

Methode zur Ressourcengewinnung in der Sprachverarbeitung dar.

Mithilfe paralleler (Übersetzungs)Korpora werden durch automatische Wortalignierungbilinguale Lexika oder Paraphrasen induziert. Durch Annotationsprojektionwerden statistische Modelle für Part-of-Speech Tagging, Dependenzparsing,

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 7

Relationserkennung oder Semantic Role Labeling für neue Sprachen induziert.Jedoch sind verfügbare große Übersetzungskorpora oft beschränkt auf bestimmteSprachpaare, Textsorten oder Domänen (z.B. Parlamentsdebatten, Gesetzestexte).

Bilinguale oder monolinguale Korpora vergleichbaren Inhalts (comparable corpora),wie Nachrichtentexte zu denselben Ereignissen oder Personen, Reviews, etc. eignensich zur schwach überwachten Induktion von Paraphrasen (z.B. zum Ausdruck vonSentiment, Opinion). Die Erkennung identischer Ereignisse in vergleichbaren Korpora(event coreference resolution) bildet eine Grundlage für Inhaltssuche (Search) undMulti-Document-Summarization.

Das Seminar vermittelt Methodenwissen zum Einsatz paralleler und vergleichbarerKorpora in der maschinellen Sprachverarbeitung und illustriert eine Anwendung anhandausgewählter Beispiele aus der Literatur.Die erlernten Methoden werden in Implementierungsprojekten erprobt, die einzelnoder in Kleingruppen durchgeführt werden. Zur Begleitung der Projekte wird einezweistündige Übung resp. Tutorium angeboten.


• Kurzreferat mit Ausarbeitung (Exzerpt zum Inhalt und der Diskussionen im Seminar)• Erfolgreiche Umsetzung praktischer Übungsaufgaben• Abgeschlossenes Programmierprojekt aus Aufgabenstellungen oder schriftliche

Ausarbeitung zum Referatsthema Voraussetzung Programmieren I und II, Mathematische Grundlagen

Anmeldung per Email an frank(at)cl.uni-heidelberg.de bis zum 31.03.2014 Literatur • Philip Resnik. Exploiting Hidden Meanings: Using Bilingual Text for Monolingual

Annotation. In Alexander Gelbukh (ed.) Lecture Notes in Computer Science2945: Computational Linguistics and Intelligent Text Processing. Springer. 2004.pp.283-299.

• Rebecca Hwa, Philip Resnik, Amy Weinberg, Clara Cabezas, and Okan Kolak.Bootstrapping Parsers via Syntactic Projection across Parallel Texts. NaturalLanguage Engineering. Volume 11, Issue 03. September 2005. pp. 311-325.

• Jörg Tiedemann (2011). Bitext Alignment. Synthesis Lectures on Human LanguageTechnologies. May 2011. Vol. 4, No. 2.

• Horacio Saggion and Sandra Szasz (2012). The CONCISUS Corpus of EventSummaries. Proceedings of LREC. pp 2031-2037.

Weitere Literatur wird zu Beginn des Seminars bekanntgegeben. Kurzkommentar Nach Rücksprache kann das Seminar mit angepassten Leistungsanforderungen als

Hauptseminar belegt werden.

Parallel Programming Paradigms - CS-CL, BS-CL, BS-AC

09-160-10-43; Proseminar; SWS: 2

Mo; wöch; 11:15 - 12:45; ab 21.04.2014; INF 325 / SR 23; Schamoni, S. Kommentar Leisungsbewertung:


Inhalt Der enorme technische Fortschritt der letzten Jahre eröffnet völlig neue Möglichkeiten

zur Verarbeitung großer Datenmengen. Die effiziente Nutzung dieser modernenRechnerarchitekturen erfordert jedoch spezielle Programmieransätze. Diese

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 8

Veranstaltung vermittelt einen Überblick über die wichtigsten Programmierparadigmenfür parallele Architekturen:

• Shared-Memory (Posix-/Java-Threads, OpenMP)• Distributed Memory (Message Passing)• GPGPU-Programming (CUDA)• MapReduce

Die MapReduce-Architektur Hadoop und die Verarbeitung und Analyse großerTextkorpora bilden die Schwerpunkte der Veranstaltung:

• Hadoop, MapReduce-Architektur• MapReduce Design-Patterns• Data-intensive Text Processing

Lernziele:

Die Studierenden kennen die Unterschiede aktueller Rechnerarchitekturen undkönnen beurteilen, welcher Ansatz für welches Problem geeignet ist. Sie wendendie wichtigsten Design-Patterns für MapReduce-Programmierung an und entwickelnselbstständig Hadoop-Applikationen

Leistungsnachweis • regelmäßige Teilnahme

• Programmierübungen• Projekt (Implementierung)

Voraussetzung Erfolgreiche Teilnahme an den Kursen "Programmieren I" und "Programmieren II" Literatur • Abney (2008). Semisupervised Learning for Computational Linguistics. Chapman &

Hall/CRC.• Lin and Dyer (2010). Data-Intensive Text Processing with MapReduce. Morgan &

Claypool.• Hennesey and Patterson (2011). Computer Architectures - A Quantitative Approach

(5th Edition). Elsevier, Morgan Kaufmann.

Begleitveranstaltung zum Softwareprojekt - SP

09-160-12-01; Seminar; SWS: 2

Di; wöch; 14:15 - 15:45; ab 22.04.2014; INF 325 / SR 23; Versley, Y.Di; wöch; 16:15 - 17:45; ab 22.04.2014; INF 325 / SR 23; Versley, Y. Kommentar Leistungsbewertung:

BA-2010 (SP): 6 LP + 4 LP ÜKNBA (SP): 6 LP + 4 LP ÜK

Inhalt Im Softwareprojekt soll eine computerlinguistische Aufgabenstellung weitgehend

eigenverantwortlich und in Teamarbeit geplant, softwaretechnisch durchgeführt,dokumentiert und abschließend präsentiert werden. Neben der Vertiefung praktischerProgrammierkenntnisse (Techniken und Werkzeuge für verteilte Programmerstellung,Testverfahren und Qualitätskontrolle, Dokumentation, etc.) sollen Teamfähigkeit undplanerische Fähigkeiten geübt werden. Daneben werden grundlegende Techniken undMethoden wissenschaftlichen Arbeitens vermittelt.

Leistungsnachweis Teilnahme an allen Einführungsvorlesungen, Projekt-Spezifikationsvortrag,

Projektpräsentation, Demo, Programmdokumentation und Archivierung. Voraussetzung • Erfolgreich abgelegte Programmierprüfung

• Einführung Benutzung computerlinguistischer Ressourcen• Voranmeldung: obligatorisch bis 01.04.2014 an [email protected]

unter Betreff "Anmeldung Programmierprüfung/Softwareprojekt SoSe2014".

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 9

Ereignisse und Einstellungen in der Diskursrepräsentationstheorie - AS-FL, SS-CL, SS-FAL

09-160-20-50; Hauptseminar

Block; 09:15 - 14:30; 28.07.2014 - 01.08.2014; INF 327 / SR 4; Eberle, K. Kommentar Leistungsbewertung:

BA-2010 (AS-FL): 8 LPNBA (AS-FL): 8 LPMaster (SS-CL, SS-FAL): 8 LP

Inhalt Die Diskursrepräsentationstheorie (DRT) stellt mit ihren

Diskursrepräsentationsstrukturen (DRSen) eine ausdrucksstarke Sprache zurVerfügung, mit der der Gehalt von Diskursen logisch detailliert erfasst werden kann,wobei insbesondere den Beziehungen zwischen den Einzelsätzen einer Äußerung odereines Textes Rechnung getragen wird.

In Einführungen der DRT werden dabei vor allem anaphorisch verwendete Pronomenund definite Kennzeichnungen zur Wiederaufnahme von zuvor erwähnten Objekten undIndividuen behandelt. Seit den ersten Formulierungen der DRT stehen aber die im Texterwähnten Ereignisse und Zustände, deren Beziehung zueinander und die sich aus derTextvermittlung ergebenden Informationen über die Einstellungen bei Sprecher undHörer, als Voraussetzung wie als Ergebnis einer Äußerung, mindestens genauso imFokus des erkenntnistheoretischen Interesses.

Ausgehend vom zweiten Teil des Einführungswerks von Hans Kamp und Uwe Reylezur DRT (1993) und dessen Einführung in die Grundlagen der Repräsentation vonEreignissen und Zuständen der DRT soll anhand ausgewählter Artikel die Thematikder Erkennung von Ereignisstrukturen in Texten vertieft werden und begleitend die derRepräsentation der Einstellungen von Äußerungsproduzent und - rezipient und derBeitrag der Einstellungszustände ('attitudinal states') zur Interpretation der Ereignisseund Informationen im Diskurs, wobei Begriffe wie interne und externe Anker undangenommenes 'shared knowledge' eine wichtige Rolle spielen.

Leistungsnachweis Referat oder Abschlussklausur Voraussetzung Vertrautheit mit den Grundlagen der DRT (entspr. der Veranstaltung 'Einführung in die

DRT' WS12/13 oder Ähnlichem)

Anmeldung per Email an k.eberle(at)lingenio.de Literatur • Voraussetzend:

Hans Kamp und Uwe Reyle (1993). From Discourse to Logic. Kluwer, Dordrecht.

Weitere Literatur und Referatsthemen werden 4 Wochen vor Seminarbeginnbekanntgegeben.

Statistical Machine Translation - AS-CL, SS-CL, SS-TAC


Do; wöch; 11:15 - 12:45; ab 24.04.2014; INF 325 / SR 23; Vorlesung; Fraser, A.Mo; wöch; 16:15 - 17:45; ab 28.04.2014; INF 325 / SR 23; Übung; Jehl, L. Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LPNBA (AS-CL): 8 LPMaster (SS-CL, SS-TAC): 8 LPÜK: 4 LP

Inhalt Die Vorlesung stellt zentrale Konzepte der Statistischen Maschinellen Übersetzung vor.

Mögliche Themenbereiche der Vorlesung sind:

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 10

• Alignment• Wort-basierte Modelle• Phrasen-basierte Modelle• Syntax-basierte Modelle• Dekodierung• Sprachmodelle• Evaluierung


• Bearbeitung der Übungsaufgaben• Klausur

Voraussetzung Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus

Mathematischem Grundkurs oder Statistical Methods. Literatur Grundlage der Vorlesung ist

• Koehn (2010). Statistical Machine Translation. Cambridge. Link:http://www.statmt.org/book/

Linguistic Knowledge for Statistical Machine Translation - AS-CL, SS-CL, SS-TAC

09-160-20-49; Hauptseminar; SWS: 2

Di; wöch; 11:15 - 12:45; ab 22.04.2014; INF 325 / SR 23; Fraser, A. Kommentar Leistungsbewertung:

BA-2010 (AS-CL): 8 LPNBA (AS-CL): 8 LPMaster (SS-CL, SS-TAC): 8 LP

Inhalt Phrase-based statistical machine translation (PBSMT) is the state-of-the-art for

machine translation of some language pairs. PBSMT is surprisingly free of explicitlinguistic knowledge, but can be very effective. However, this is not always true. Forinstance, when translating into a morphologically rich language the translation qualityis lacking, particularly when there is also significant syntactic divergence between thetwo languages. The quality of PBSMT is poor in this case because of independenceassumptions made involving morphology and syntax in the translation model that do notreflect linguistic reality.

In this course we will read papers that try to address this problem by adding linguisticknowledge to the translation process in a wide variety of ways. We will start with anintensive focus on morphology. We will then move on to syntax, semantic roles andbeyond. Participants will be encouraged to look at actual translation system output forproblems and we will connect these observations with the work that we discuss.


• Referat• Hausarbeit oder Projekt

Voraussetzung "Statistical Machine Translation" Literatur • Philipp Koehn's textbook Statistical Machine Translation.

Further literature will be specified at the start of the seminar.

Multimodale Semantik - AS-CL, SS-CL, SS-TAC


Mi; wöch; 14:15 - 15:45; ab 23.04.2014; INF 325 / SR 23; Versley, Y.

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 11

Kommentar Leistungsbewertung:


Inhalt Modelle der Wortbedeutung beruhten bis vor wenigen Jahren ausschließlich auf

großen Textkorpora sowie auf manuell erstellten Ontologien. Aus kognitiver Sichtwie auch aus Anwendungssicht ist es plausibel, auch sprachexterne Faktoren -insbesondere die Wahrnehmung von Farbe, Form und Gestalt bei Bildern - in Modelleder Wortbedeutung miteinzubeziehen.

Ziel des Seminars ist es, ein grundlegendes Verständnis von Informationen in anderenModalitäten und deren Verarbeitung zu entwickeln sowie einen Überblick über aktuelleAnsätze zu bekommen, die mehrere Modalitäten (etwa Bild und Text) miteinander inBezug setzen.

Leistungsnachweis • Aktive Teilnahme an den Diskussionen

• Referat und schriftliche Ausarbeitung Voraussetzung • Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra (z.B. aus Statistical

Methods) Literatur Auswahl:

• Eisenstein et al. (2007). Turning Lectures into Comic Books using LinguisticallySalient Gestures.

• Bergsma & Van Durme (2011). Learning Bilingual Lexicons using the Visual Similarityof Labeled Web Images.

• Bruni et al. (2012). Distributional Semantics in Technicolor.




ÜK: 2 LP Inhalt Der mathematische Vorkurs dient der Vorbereitung auf verschiedene

Lehrveranstaltungen, die grundlegende Mathematikkenntnisse erfordern (z.B.Algorithmen und Datenstrukturen, Statistical Methods for Computational Linguistics)und ist vor allem denjenigen Studierenden zu empfehlen, die vor Besuch dieser Kurseihre Mathematikkenntnisse auffrischen und vertiefen wollen. Der Vorkurs ist auch fürangehende Erstsemester geeignet. Themenbereiche des Kurses sind unter anderem





Weiterführend:

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 12



09-160-00-02; Übung; SWS: 2







Abschlusskolloquium - Coll

09-160-20-04; Kolloquium; SWS: 3

Di; wöch; 18:15 - 19:45; ab 22.04.2014; INF 325 / SR 23; Frank, A.;Fraser, A.;Versley, Y. Kommentar Leistungsbewertung:

BA-2010 (Coll): 2 LPNBA (-): Freiwillig, keine LPMaster (Coll): 2 LP

Inhalt Präsentation laufender BA-, MA- und Magisterarbeiten

Das Abschlusskolloquium bietet BA-, MA- und Magisterstudierenden ein Forum für dieVorstellung und Diskussion ihrer Abschlussarbeiten. Die Studierenden präsentieren denaktuellen Stand ihrer Arbeit und erhalten in der Diskussion Anregungen von Seiten derStudierenden und der Dozenten.Externe VorträgeDarüber hinaus bietet das Abschlusskolloquium allen Studierenden durch Vorträgegeladener Gäste Einblicke in aktuelle Forschungsfragen der Computerlinguistik.

Externe Vorträge finden im Rahmen des Computerlinguistischen Kolloquiums statt.

Leistungsnachweis Vortrag (BA-2010, MA) und Ausarbeitung; regelmäßige Präsenz ist Voraussetzung für

den Scheinerwerb.Ein Leistungserwerb ist nur für Examenskandidat/innen im Bachelorstudiengang(BA-2010) und Masterstudiengang (MA) vorgesehen. Jedoch sind alle Studierendeneingeladen, ihre Abschlussarbeiten vorzustellen, den Vorträgen zuzuhören und sichan den Diskussionen zu beteiligen.

Computerlinguistisches Kolloquium

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 13


Do; wöch; 16:15 - 18:30; ab 24.04.2014; INF 328 / SR 25; Frank, A.;Fraser, A.;Versley, Y.;Strube, M. Inhalt Das Kolloquium bietet Doktoranden des Instituts für Computerlinguistik sowie der

Abteilung NLP des HITS (Heidelberg Institute for Theoretical Studies) ein Forum für dieVorstellung und Diskussion ihrer laufenden Doktorarbeiten, sowie gemeinsame Lektüreund Diskussion zu ausgewählten Themenbereichen der Computerlinguistik.Auch Bachelor- und Magisterabsolventen soll hier die Möglichkeit gegeben werden, ihreAbschlussarbeiten vorzustellen.

Im Rahmen des Kolloquiums finden externe Vorträge eingeladener Gastwissenschaftlerdes HITS und des Instituts für Computerlinguistik statt, zu denen interessierteWissenschaftler und Studenten herzlich eingeladen sind.

Master









Leistungsnachweis Referat oder Abschlussklausur Voraussetzung Vertrautheit mit den Grundlagen der DRT (entspr. der Veranstaltung 'Einführung in die

DRT' WS12/13 oder Ähnlichem)



Computerlinguistik

Stand: 24.2.2014 Sommer 2014 14








In this course we will read papers that try to address this problem by adding linguisticknowledge to the translation process in a wide variety of ways. We will start with anintensive focus on morphology. We will then move on to syntax, semantic roles andbeyond. Participants will be encouraged to look at actual translation system output forproblems and we will connect these observations with the work that we discuss.












Computerlinguistik

Stand: 24.2.2014 Sommer 2014 15

Leistungsnachweis • Aktive Teilnahme an den Diskussionen• Referat und schriftliche Ausarbeitung

Voraussetzung • Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra (z.B. aus Statistical





















Computerlinguistik

Stand: 24.2.2014 Sommer 2014 16

Inhalt Präsentation laufender BA-, MA- und MagisterarbeitenDas Abschlusskolloquium bietet BA-, MA- und Magisterstudierenden ein Forum für dieVorstellung und Diskussion ihrer Abschlussarbeiten. Die Studierenden präsentieren denaktuellen Stand ihrer Arbeit und erhalten in der Diskussion Anregungen von Seiten derStudierenden und der Dozenten.Externe VorträgeDarüber hinaus bietet das Abschlusskolloquium allen Studierenden durch Vorträgegeladener Gäste Einblicke in aktuelle Forschungsfragen der Computerlinguistik.









Magister





Inhalt Präsentation laufender BA-, MA- und Magisterarbeiten

Das Abschlusskolloquium bietet BA-, MA- und Magisterstudierenden ein Forum für dieVorstellung und Diskussion ihrer Abschlussarbeiten. Die Studierenden präsentieren denaktuellen Stand ihrer Arbeit und erhalten in der Diskussion Anregungen von Seiten derStudierenden und der Dozenten.Externe VorträgeDarüber hinaus bietet das Abschlusskolloquium allen Studierenden durch Vorträgegeladener Gäste Einblicke in aktuelle Forschungsfragen der Computerlinguistik.


Computerlinguistik

Stand: 24.2.2014 Sommer 2014 17









09-160-00-02; Übung; SWS: 2










ÜK: 2 LP

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 18

Inhalt Der mathematische Vorkurs dient der Vorbereitung auf verschiedeneLehrveranstaltungen, die grundlegende Mathematikkenntnisse erfordern (z.B.Algorithmen und Datenstrukturen, Statistical Methods for Computational Linguistics)und ist vor allem denjenigen Studierenden zu empfehlen, die vor Besuch dieser Kurseihre Mathematikkenntnisse auffrischen und vertiefen wollen. Der Vorkurs ist auch fürangehende Erstsemester geeignet. Themenbereiche des Kurses sind unter anderem





Weiterführend:


Informatik und Programmierpraxis

Programmieren II: Fortgeschrittene (Java) - PII


Mi; wöch; 14:15 - 15:45; ab 23.04.2014; INF 306 / SR 19; Fraser, A.Do; wöch; 14:15 - 15:45; ab 24.04.2014; INF 328 / SR 25; Fraser, A. Kommentar Leistungsbewertung:

BA-2010 (PII): 6 LPNBA (PII): 6 LP

Inhalt In der Vorlesung werden die in "Programmieren I" erworbenen Grundkenntnisse

anhand einer zweiten Programmiersprache und der Entwicklung von elementarenKenntnissen der Softwareentwicklung erweitert und vertieft. Neben einer Einführungin objektorientierte Programmierung in der Programmiersprache Java wird dabeiauch in allgemeine Themen der Softwaretechnik eingeführt; u.a. zentrale Methodenund Vorgehensweisen der Softwareentwicklung wie z.B. (objektorientiertes) Design,Software-Dokumentation, Testing, Parallelisierung, Deployment. Diese Themen werdenanhand typischer Anwendungsprobleme der Computerlinguistik behandelt.

Leistungsnachweis • Übungsaufgaben

• Bestehen der Abschlussklausur• Erfolgreiches Bearbeiten von mindestens 50% der Übungsaufgaben zur Zulassung

zur Abschlussklausur Voraussetzung Erfolgreicher Abschluss des Kurses "Programmieren I". Literatur • K. Sierra & B. Bates (2005). "Head First Java". O'Reilly.

• B. Eckel (2006). "Thinking in Java, 4th edition". Prentice Hall• E. Gamma et al. (1994). "Design Patterns. Elements of Reusable Object-Oriented

Software". Addison-Wesley Longman

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 19

• E. Freeman et al. (2004). "Head First Design Patterns". O'Reilly.• Java API: http://docs.oracle.com/javase/7/docs/api/• J. Bloch (2008). "Effective Java". Addison-Wesley.

Begleitveranstaltung zum Softwareprojekt - SP

09-160-12-01; Seminar; SWS: 2

Di; wöch; 14:15 - 15:45; ab 22.04.2014; INF 325 / SR 23; Versley, Y.Di; wöch; 16:15 - 17:45; ab 22.04.2014; INF 325 / SR 23; Versley, Y. Kommentar Leistungsbewertung:

BA-2010 (SP): 6 LP + 4 LP ÜKNBA (SP): 6 LP + 4 LP ÜK

Inhalt Im Softwareprojekt soll eine computerlinguistische Aufgabenstellung weitgehend

eigenverantwortlich und in Teamarbeit geplant, softwaretechnisch durchgeführt,dokumentiert und abschließend präsentiert werden. Neben der Vertiefung praktischerProgrammierkenntnisse (Techniken und Werkzeuge für verteilte Programmerstellung,Testverfahren und Qualitätskontrolle, Dokumentation, etc.) sollen Teamfähigkeit undplanerische Fähigkeiten geübt werden. Daneben werden grundlegende Techniken undMethoden wissenschaftlichen Arbeitens vermittelt.

Leistungsnachweis Teilnahme an allen Einführungsvorlesungen, Projekt-Spezifikationsvortrag,

Projektpräsentation, Demo, Programmdokumentation und Archivierung. Voraussetzung • Erfolgreich abgelegte Programmierprüfung

• Einführung Benutzung computerlinguistischer Ressourcen• Voranmeldung: obligatorisch bis 01.04.2014 an [email protected]

unter Betreff "Anmeldung Programmierprüfung/Softwareprojekt SoSe2014".

Parallel Programming Paradigms - CS-CL, BS-CL, BS-AC

09-160-10-43; Proseminar; SWS: 2

Mo; wöch; 11:15 - 12:45; ab 21.04.2014; INF 325 / SR 23; Schamoni, S. Kommentar Leisungsbewertung:


Inhalt Der enorme technische Fortschritt der letzten Jahre eröffnet völlig neue Möglichkeiten

zur Verarbeitung großer Datenmengen. Die effiziente Nutzung dieser modernenRechnerarchitekturen erfordert jedoch spezielle Programmieransätze. DieseVeranstaltung vermittelt einen Überblick über die wichtigsten Programmierparadigmenfür parallele Architekturen:

• Shared-Memory (Posix-/Java-Threads, OpenMP)• Distributed Memory (Message Passing)• GPGPU-Programming (CUDA)• MapReduce

Die MapReduce-Architektur Hadoop und die Verarbeitung und Analyse großerTextkorpora bilden die Schwerpunkte der Veranstaltung:

• Hadoop, MapReduce-Architektur• MapReduce Design-Patterns• Data-intensive Text Processing

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 20

Lernziele:

Die Studierenden kennen die Unterschiede aktueller Rechnerarchitekturen undkönnen beurteilen, welcher Ansatz für welches Problem geeignet ist. Sie wendendie wichtigsten Design-Patterns für MapReduce-Programmierung an und entwickelnselbstständig Hadoop-Applikationen

Leistungsnachweis • regelmäßige Teilnahme

• Programmierübungen• Projekt (Implementierung)

Voraussetzung Erfolgreiche Teilnahme an den Kursen "Programmieren I" und "Programmieren II" Literatur • Abney (2008). Semisupervised Learning for Computational Linguistics. Chapman &

Hall/CRC.• Lin and Dyer (2010). Data-Intensive Text Processing with MapReduce. Morgan &

Claypool.• Hennesey and Patterson (2011). Computer Architectures - A Quantitative Approach

(5th Edition). Elsevier, Morgan Kaufmann.

Theoretische und empirische Grundlagen der Linguistik









Leistungsnachweis Referat oder Abschlussklausur

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 21

Voraussetzung Vertrautheit mit den Grundlagen der DRT (entspr. der Veranstaltung 'Einführung in dieDRT' WS12/13 oder Ähnlichem)




Formale Grundlagen der Computerlinguistik: Mathematische Grundlagen - FF-FM



BA-2010 (FF-FM): 6 LPNBA (FF-FM): 6 LP

Inhalt Die Veranstaltung vermittelt eine Einführung in die formalen Methoden, die für die

Modellierung von computerlinguistischen Problemen grundlegend sind, und ihreAnwendung auf ausgewählte Probleme in der Computerlinguistik.

Voraussichtlicher Inhalt:

• Diskrete Strukturen• Wahrscheinlichkeitsverteilungen, statistische Tests• Folgen, Konvergenz, Stetigkeit• Ableitungen mehrdimensionaler Funktionen, Skalarprodukte, Eigenwerte• Probabilistische Graphische Modelle


• erfolgreiche Bearbeitung der Übungsaufgaben• Bestehen der Klausur

Voraussetzung keine

(empfohlen: Einführung in die Computerlinguistik, Einführung in die Logik) Literatur Zur Anschaffung empfohlen:

• Florian Modler, Martin Kreh. Tutorium Analysis 1 und Lineare Algebra 1• Chris Manning, Hinrich Schütze. Foundations of Statistical Natural Language

Processing

Formale Syntax - FSyn


Di; wöch; 11:15 - 12:45; ab 22.04.2014; INF 350 / OMZ R U013; Frank, A.Do; wöch; 11:15 - 12:45; ab 24.04.2014; INF 350 / OMZ R U013; Frank, A. Kommentar Leistungsbewertung:

BA-2010 (FSyn): 6 LPNBA (FSyn): 6 LP

Inhalt Die Vorlesung vermittelt vertiefte Kenntnisse der syntaktischen Sprachbeschreibung am

Beispiel eines theoretisch fundierten Grammatikformalismus.

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 22

Wir konzentrieren uns insbesondere auf die formalen Grundlagen derLexikalisch-funktionalen Grammatik (LFG), als einen der bedeutenden lexikalischenconstraint-basierten Grammatikformalismen.Die Vorlesung gibt einen Überblick über die Kernbereiche und einige speziellePhänomene der syntaktischen Analyse und ihrer formalen Beschreibung im Rahmender Lexikalisch-funktionalen Grammatik.Den Abschluss bildet ein Überblick über verwandte Grammatikformalismen: HPSG(Head-driven Phrase Structure Grammar), CCG (Combinatory Categorial Grammar),TAG (Tree Adjoining Grammar), Dependenzgrammatik).

Leistungsnachweis • Regelmäßige und aktive Teilnahme

• Erfolgreiche Bearbeitung der Übungsaufgaben• Bestehen der Klausur

Voraussetzung Einführungen in die CL und Sprachwissenschaft Literatur • Yehuda Falk (2001): Lexical-Functional Grammar. An Introduction to Parallel

Constraint-Based Syntax. University of Chicago Press.• Joan Bresnan (2001). Lexical-Functional Syntax. Oxford: Blackwell.• Mary Dalrymple (2001). Lexical Functional Grammar. Volume 34, Syntax and

Semantics. Academic Press.• Peter Sells (1985). Lectures on Contemporary Syntactic Theories. An Introduction

to Government-Binding Theory, Generalized Phrase Structure Grammar, andLexical-Functional Grammar. CSLI Lecture Notes No. 3, CSLI Publications, Stanford,CA. (Chapter 3)

• Tracy Holloway King, Stefanie Dipper, Anette Frank, Jonas Kuhn, John Maxwell(2004): "Ambiguity Management in Grammar Writing". In Research on Language andComputation, 2 (2): 259-280, Kluwer Academic Publications.

Weitere Literatur wird im Laufe des Semesters bekannt gegeben.

Parallele und vergleichbare Korpora für NLP - CS-CL, BS-CL, BS-AC

09-160-10-42; Proseminar / Übung

Do; wöch; 14:15 - 15:45; ab 24.04.2014; INF 325 / SR 23; Seminar; Frank, A.Mi; wöch; 11:15 - 12:45; ab 30.04.2014; INF 325 / PCPool; Übung; Mújdricza-Maydt, É. Kommentar Leistungsbewertung:


Inhalt Der Einsatz paralleler oder vergleichbarer Korpora stellt eine etablierte und flexible

Methode zur Ressourcengewinnung in der Sprachverarbeitung dar.

Mithilfe paralleler (Übersetzungs)Korpora werden durch automatische Wortalignierungbilinguale Lexika oder Paraphrasen induziert. Durch Annotationsprojektionwerden statistische Modelle für Part-of-Speech Tagging, Dependenzparsing,Relationserkennung oder Semantic Role Labeling für neue Sprachen induziert.Jedoch sind verfügbare große Übersetzungskorpora oft beschränkt auf bestimmteSprachpaare, Textsorten oder Domänen (z.B. Parlamentsdebatten, Gesetzestexte).

Bilinguale oder monolinguale Korpora vergleichbaren Inhalts (comparable corpora),wie Nachrichtentexte zu denselben Ereignissen oder Personen, Reviews, etc. eignensich zur schwach überwachten Induktion von Paraphrasen (z.B. zum Ausdruck vonSentiment, Opinion). Die Erkennung identischer Ereignisse in vergleichbaren Korpora(event coreference resolution) bildet eine Grundlage für Inhaltssuche (Search) undMulti-Document-Summarization.

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 23

Das Seminar vermittelt Methodenwissen zum Einsatz paralleler und vergleichbarerKorpora in der maschinellen Sprachverarbeitung und illustriert eine Anwendung anhandausgewählter Beispiele aus der Literatur.Die erlernten Methoden werden in Implementierungsprojekten erprobt, die einzelnoder in Kleingruppen durchgeführt werden. Zur Begleitung der Projekte wird einezweistündige Übung resp. Tutorium angeboten.


• Kurzreferat mit Ausarbeitung (Exzerpt zum Inhalt und der Diskussionen im Seminar)• Erfolgreiche Umsetzung praktischer Übungsaufgaben• Abgeschlossenes Programmierprojekt aus Aufgabenstellungen oder schriftliche

Ausarbeitung zum Referatsthema Voraussetzung Programmieren I und II, Mathematische Grundlagen

Anmeldung per Email an frank(at)cl.uni-heidelberg.de bis zum 31.03.2014 Literatur • Philip Resnik. Exploiting Hidden Meanings: Using Bilingual Text for Monolingual

Annotation. In Alexander Gelbukh (ed.) Lecture Notes in Computer Science2945: Computational Linguistics and Intelligent Text Processing. Springer. 2004.pp.283-299.

• Rebecca Hwa, Philip Resnik, Amy Weinberg, Clara Cabezas, and Okan Kolak.Bootstrapping Parsers via Syntactic Projection across Parallel Texts. NaturalLanguage Engineering. Volume 11, Issue 03. September 2005. pp. 311-325.

• Jörg Tiedemann (2011). Bitext Alignment. Synthesis Lectures on Human LanguageTechnologies. May 2011. Vol. 4, No. 2.

• Horacio Saggion and Sandra Szasz (2012). The CONCISUS Corpus of EventSummaries. Proceedings of LREC. pp 2031-2037.

Weitere Literatur wird zu Beginn des Seminars bekanntgegeben. Kurzkommentar Nach Rücksprache kann das Seminar mit angepassten Leistungsanforderungen als

Hauptseminar belegt werden.

Algorithmische Linguistik







In this course we will read papers that try to address this problem by adding linguisticknowledge to the translation process in a wide variety of ways. We will start with anintensive focus on morphology. We will then move on to syntax, semantic roles and

Computerlinguistik

Stand: 24.2.2014 Sommer 2014 24

beyond. Participants will be encouraged to look at actual translation system output forproblems and we will connect these observations with the work that we discuss.












Leistungsnachweis • Aktive Teilnahme an den Diskussionen

• Referat und schriftliche Ausarbeitung Voraussetzung • Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra (z.B. aus Statistical





NLP-Werkstatt: Arbeiten mit linguistisch annotierten Korpora - CS-CL, BS-CL, BS-AC

09-160-10-41; Proseminar

Mi; wöch; 16:15 - 17:45; ab 23.04.2014; INF 325 / SR 23; Mújdricza-Maydt, É. Kommentar Leistungsbewertung:


Computerlinguistik

Stand: 24.2.2014 Sommer 2014 25

Inhalt Im Seminar werden Sie - unterstützt durch praktische Übungen - notwendigeKenntnisse in der Erstellung und Weiterverarbeitung annotierter Korpora erwerben.Die Übungen werden einzeln oder in kleinen Gruppen durchgeführt. Lernziel ist es,im Laufe des Semesters Fertigkeiten für eine sicher(er)e und zielgerichtete Arbeitmit Korpora zu erwerben und für die spätere Anwendung wiederverwendbare underweiterbare Programme zur Verarbeitung annotierter Korpora zu erstellen.

In diesem Semester konzentriert sich das Seminar auf die (manuelle und automatische)Annotation computerlinguistischer Informationen und deren Extraktion aus Korpora. Wirwerden uns v.a. auf die folgenden Fragestellungen und Fertigkeiten konzentrieren:

• Korpusauswahl und -vorverarbeitung• Wie beeinflussen Menge, Format, Sauberkeit der zugrundeliegenden Daten die

Vorgehensweise?• Wie säubert man Korpora, wie geht man um mit Formaten, Encodings, wie führt

man Formatkonversionen durch?• Manuelle und automatische Annotation und ihre Auswertung

• Wie stellt man Guidelines auf und wie folgt man ihnen?• Welche Vorannotierungen und Tools sind hilfreich?• Wie misst man die Qualität der Annotation?• Welche (halb)automatischen oder interaktiven Annotierungstools eignen sich für

welche Aufgabenstellungen? Wie verwendet man sie, welche Anpassungen derFormate muss man ggf. vornehmen?

• Wie visualisiert man quantitative Eigenschaften der Daten bzw. Ergebnisse?• Extraktion und Weiterverarbeitung von Informationen

• Welche Formate gibt es?• Welche Tools oder Skripts existieren für die Verarbeitung der Formate?• Wie kann man eigene, wiederverwendbare Extrahierungsprogramme schreiben?


• Übungsaufgaben• Präsentation und Diskussion der Lösungen

Voraussetzung Programmieren I










Computerlinguistik

Stand: 24.2.2014 Sommer 2014 26




Text Mining - CS-CL, BS-CL, BS-AC

09-160-10-32; Vorlesung; SWS: 2

Fr; wöch; 11:15 - 12:45; ab 25.04.2014; INF 325 / SR 23; Zielinski, A. Kommentar Leistungsbewertung:


Inhalt Im Text Mining werden Data-Mining Verfahren (wie z.B. Klassifikation, Clustering,

Trend-Analyse) eingesetzt, um nicht bekannte Informationen in natürlich-sprachlichenTexten aufzufinden. Die Vorlesung führt in das Spektrum der vorhandenen Methoden(regelbasiert, wissensbasiert oder statistisch) ein und bietet einen Überblick übermögliche Anwendungsgebiete wie z.B. Social Media Monitoring, Plagiatserkennungsowie Informationsrecherche in den Life Sciences.


• Bearbeitung von übungsaufgaben• Klausur• Aktive Teilnahme an den Veranstaltungen• Seminarvortrag (ca. 20 min)

Voraussetzung Grundbegriffe in Statistik Literatur • Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008). Introduction

to Information Retrieval. Cambridge University Press.• Bing Liu (2007). Web Data Mining. Springer. Second Edition.• Ian H. Witten, Eibe Frank, and Mark A. Hall (2011). Web Data Mining. Springer• Data Mining: Practical Machine Learning Tools and Techniques (Third Edition).

http://www.cs.waikato.ac.nz/ml/weka/book.html

u n i v e r s i t Ä t h e i d e l b e r g kommentiertes … · 2014. 2. 24. · u n i v e r s i t...

Documents