u n i v e r s i t Ä t h e i d e l b e r g kommentiertes … · 2014. 2. 24. · u n i v e r s i t...

26
U N I V E R S I T Ä T H E I D E L B E R G Sommer 2014 Kommentiertes Verzeichnis der Lehrveranstaltungen Computerlinguistik (Stand: 24.2.2014) Die ausführliche Darstellung der Veranstaltungen findet sich unter http://lsf.uni-heidelberg.de

Upload: others

Post on 17-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • U N I V E R S I T Ä T H E I D E L B E R G

    Sommer 2014

    Kommentiertes Verzeichnis der Lehrveranstaltungen

    Computerlinguistik

    (Stand: 24.2.2014)

    Die ausführliche Darstellung der Veranstaltungen findet sichunter http://lsf.uni-heidelberg.de

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 2

    Computerlinguistik

    Zusätzliche Lehrveranstaltungen und weitere Informationen werden auf unseren Internetseiten unterhttp://www.cl.uni-heidelberg.de bekanntgegeben.

    Bei Fragen zum Studium der Computerlinguistik wenden Sie sich bitte an die folgenden Adressen:

    • Studienberatung (Magister): Éva Mújdricza-Maydt([email protected])

    • Studienberatung (Bachelor): Éva Mújdricza-Maydt, Madeline Remse([email protected])

    • Studienberatung (Master): Schigehiko Schamoni([email protected])

    • Allgemeine Fragen: [email protected]

    Weitere Informationen zur fachbezogenenen Studienberatung finden Sie unterhttp://www.cl.uni-heidelberg.de/studies/beratung.mhtml

    Vorbereitungskurse 

    Einführung in die Nutzung computerlinguistischer Ressourcen 

    09-160-00-02; Übung; SWS: 2 

    Block; 09:00 - 17:00; 07.04.2014 - 11.04.2014; INF 325 / PCPool; Chersoni, E. Inhalt Der Vorkurs gibt Grundlagen in der Nutzung von GNU/Linux-basierten

    (computerlinguistischen) Tools sowie der vorhandenen Korpora. Dabei geht es sowohlum allgemeine Grundlagen der Shell (wie z.B. Ein-/Ausgabeumleitung) als auch umeinzelne Toolkits im Speziellen. Wir werden uns anschauen, wie bestimmte Toolszu benutzen sind, was man aus ihnen herausbekommt (und was nicht) und wieman solche Ausgaben automatisch weiterverarbeiten kann (und zum Beispiel andas nächste Tool weiterverfüttert). Zudem umfasst der Kurs eine Kurzeinführung inMapReduce und den am Institut vorhandenen Hadoop Cluster.

     Leistungsnachweis Regelmäßige Teilnahme und Bearbeitung von Übungsaufgaben.

    Die erfolgreiche Teilnahme am Blockkurs ist Voraussetzung für die Teilnahme amSoftwareprojekt.

     Voraussetzung Programmieren 1 (P I), Grundlagen der Linux/Unix-Bedienung.

    To register, please send an e-mail to the lecturer (better in English) Literatur Literatur wird zu Beginn der Veranstaltung bekanntgegeben.   

    Mathematischer Vorkurs 

    09-160-00-01; Vorlesung / Übung; SWS: 2 

    Block; 09:00 - 17:00; 07.04.2014 - 11.04.2014; INF 325 / SR 23; Nghiem, T. Kommentar Leistungsbewertung:

    ÜK: 2 LP Inhalt Der mathematische Vorkurs dient der Vorbereitung auf verschiedene

    Lehrveranstaltungen, die grundlegende Mathematikkenntnisse erfordern (z.B.Algorithmen und Datenstrukturen, Statistical Methods for Computational Linguistics)und ist vor allem denjenigen Studierenden zu empfehlen, die vor Besuch dieser Kurse

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 3

    ihre Mathematikkenntnisse auffrischen und vertiefen wollen. Der Vorkurs ist auch fürangehende Erstsemester geeignet. Themenbereiche des Kurses sind unter anderem

    • Grundbegriffe der Mathematik und Logik• Vektoren, Vektorräume und Matrizenrechnung• Ableitungen• Graphen• Verbände• Statistik

     Leistungsnachweis Regelmäßige und aktive Teilnahme, Bearbeitung von Übungsaufgaben. Literatur Vorkurs-Niveau:

    • Kemnitz: Mathematik zum Studienbeginn. Vieweg+Teubner, 2006.• Schäfer, Georgi, Tippler: Mathematik Vorkurs. Übungs- und Arbeitsbuch für

    Studienanfänger. Teubner, 2006

    Weiterführend:

    • beliebige Einführung in die lineare Algebra• beliebige Einführung in die Analysis

      

    Bachelor (NBA; BA-2010) 

    Formale Grundlagen der Computerlinguistik: Mathematische Grundlagen - FF-FM 

    09-160-02-01; Vorlesung / Übung; SWS: 2 

    Mi; wöch; 11:15 - 12:45; ab 23.04.2014; INF 306 / SR 13; Versley, Y. Kommentar Leistungsbewertung:

    BA-2010 (FF-FM): 6 LPNBA (FF-FM): 6 LP

     Inhalt Die Veranstaltung vermittelt eine Einführung in die formalen Methoden, die für die

    Modellierung von computerlinguistischen Problemen grundlegend sind, und ihreAnwendung auf ausgewählte Probleme in der Computerlinguistik.

    Voraussichtlicher Inhalt:

    • Diskrete Strukturen• Wahrscheinlichkeitsverteilungen, statistische Tests• Folgen, Konvergenz, Stetigkeit• Ableitungen mehrdimensionaler Funktionen, Skalarprodukte, Eigenwerte• Probabilistische Graphische Modelle

     Leistungsnachweis • aktive Teilnahme

    • erfolgreiche Bearbeitung der Übungsaufgaben• Bestehen der Klausur

     Voraussetzung keine

    (empfohlen: Einführung in die Computerlinguistik, Einführung in die Logik) Literatur Zur Anschaffung empfohlen:

    • Florian Modler, Martin Kreh. Tutorium Analysis 1 und Lineare Algebra 1• Chris Manning, Hinrich Schütze. Foundations of Statistical Natural Language

    Processing

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 4

       

    Programmieren II: Fortgeschrittene (Java) - PII 

    09-160-05-01; Vorlesung / Übung; SWS: 4 

    Mi; wöch; 14:15 - 15:45; ab 23.04.2014; INF 306 / SR 19; Fraser, A.Do; wöch; 14:15 - 15:45; ab 24.04.2014; INF 328 / SR 25; Fraser, A. Kommentar Leistungsbewertung:

    BA-2010 (PII): 6 LPNBA (PII): 6 LP

     Inhalt In der Vorlesung werden die in "Programmieren I" erworbenen Grundkenntnisse

    anhand einer zweiten Programmiersprache und der Entwicklung von elementarenKenntnissen der Softwareentwicklung erweitert und vertieft. Neben einer Einführungin objektorientierte Programmierung in der Programmiersprache Java wird dabeiauch in allgemeine Themen der Softwaretechnik eingeführt; u.a. zentrale Methodenund Vorgehensweisen der Softwareentwicklung wie z.B. (objektorientiertes) Design,Software-Dokumentation, Testing, Parallelisierung, Deployment. Diese Themen werdenanhand typischer Anwendungsprobleme der Computerlinguistik behandelt.

     Leistungsnachweis • Übungsaufgaben

    • Bestehen der Abschlussklausur• Erfolgreiches Bearbeiten von mindestens 50% der Übungsaufgaben zur Zulassung

    zur Abschlussklausur Voraussetzung Erfolgreicher Abschluss des Kurses "Programmieren I". Literatur • K. Sierra & B. Bates (2005). "Head First Java". O'Reilly.

    • B. Eckel (2006). "Thinking in Java, 4th edition". Prentice Hall• E. Gamma et al. (1994). "Design Patterns. Elements of Reusable Object-Oriented

    Software". Addison-Wesley Longman• E. Freeman et al. (2004). "Head First Design Patterns". O'Reilly.• Java API: http://docs.oracle.com/javase/7/docs/api/• J. Bloch (2008). "Effective Java". Addison-Wesley.

       

    Formale Syntax - FSyn 

    09-160-06-01; Vorlesung / Übung; SWS: 4 

    Di; wöch; 11:15 - 12:45; ab 22.04.2014; INF 350 / OMZ R U013; Frank, A.Do; wöch; 11:15 - 12:45; ab 24.04.2014; INF 350 / OMZ R U013; Frank, A. Kommentar Leistungsbewertung:

    BA-2010 (FSyn): 6 LPNBA (FSyn): 6 LP

     Inhalt Die Vorlesung vermittelt vertiefte Kenntnisse der syntaktischen Sprachbeschreibung am

    Beispiel eines theoretisch fundierten Grammatikformalismus.Wir konzentrieren uns insbesondere auf die formalen Grundlagen derLexikalisch-funktionalen Grammatik (LFG), als einen der bedeutenden lexikalischenconstraint-basierten Grammatikformalismen.Die Vorlesung gibt einen Überblick über die Kernbereiche und einige speziellePhänomene der syntaktischen Analyse und ihrer formalen Beschreibung im Rahmender Lexikalisch-funktionalen Grammatik.Den Abschluss bildet ein Überblick über verwandte Grammatikformalismen: HPSG(Head-driven Phrase Structure Grammar), CCG (Combinatory Categorial Grammar),TAG (Tree Adjoining Grammar), Dependenzgrammatik).

     Leistungsnachweis • Regelmäßige und aktive Teilnahme

    • Erfolgreiche Bearbeitung der Übungsaufgaben

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 5

    • Bestehen der Klausur Voraussetzung Einführungen in die CL und Sprachwissenschaft Literatur • Yehuda Falk (2001): Lexical-Functional Grammar. An Introduction to Parallel

    Constraint-Based Syntax. University of Chicago Press.• Joan Bresnan (2001). Lexical-Functional Syntax. Oxford: Blackwell.• Mary Dalrymple (2001). Lexical Functional Grammar. Volume 34, Syntax and

    Semantics. Academic Press.• Peter Sells (1985). Lectures on Contemporary Syntactic Theories. An Introduction

    to Government-Binding Theory, Generalized Phrase Structure Grammar, andLexical-Functional Grammar. CSLI Lecture Notes No. 3, CSLI Publications, Stanford,CA. (Chapter 3)

    • Tracy Holloway King, Stefanie Dipper, Anette Frank, Jonas Kuhn, John Maxwell(2004): "Ambiguity Management in Grammar Writing". In Research on Language andComputation, 2 (2): 259-280, Kluwer Academic Publications.

    Weitere Literatur wird im Laufe des Semesters bekannt gegeben.   

    Text Mining - CS-CL, BS-CL, BS-AC 

    09-160-10-32; Vorlesung; SWS: 2 

    Fr; wöch; 11:15 - 12:45; ab 25.04.2014; INF 325 / SR 23; Zielinski, A. Kommentar Leistungsbewertung:

    BA-2010[100%|75%] (CS-CL): 6 LPBA-2010[50%] (BS-CL): 6 LPBA-2010[25%] (BS-AC): 4 LPNBA[100%|75%] (CS-CL): 6 LPNBA[50%|25%] (BS-CL, BS-AC): 4 LP

     Inhalt Im Text Mining werden Data-Mining Verfahren (wie z.B. Klassifikation, Clustering,

    Trend-Analyse) eingesetzt, um nicht bekannte Informationen in natürlich-sprachlichenTexten aufzufinden. Die Vorlesung führt in das Spektrum der vorhandenen Methoden(regelbasiert, wissensbasiert oder statistisch) ein und bietet einen Überblick übermögliche Anwendungsgebiete wie z.B. Social Media Monitoring, Plagiatserkennungsowie Informationsrecherche in den Life Sciences.

     Leistungsnachweis • Regelmäßige Teilnahme an Vorlesung und Übung

    • Bearbeitung von übungsaufgaben• Klausur• Aktive Teilnahme an den Veranstaltungen• Seminarvortrag (ca. 20 min)

     Voraussetzung Grundbegriffe in Statistik Literatur • Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008). Introduction

    to Information Retrieval. Cambridge University Press.• Bing Liu (2007). Web Data Mining. Springer. Second Edition.• Ian H. Witten, Eibe Frank, and Mark A. Hall (2011). Web Data Mining. Springer• Data Mining: Practical Machine Learning Tools and Techniques (Third Edition).

    http://www.cs.waikato.ac.nz/ml/weka/book.html    

    NLP-Werkstatt: Arbeiten mit linguistisch annotierten Korpora - CS-CL, BS-CL, BS-AC 

    09-160-10-41; Proseminar 

    Mi; wöch; 16:15 - 17:45; ab 23.04.2014; INF 325 / SR 23; Mújdricza-Maydt, É. Kommentar Leistungsbewertung:

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 6

    BA-2010[100%|75%] (CS-CL): 6 LPBA-2010[50%] (BS-CL): 6 LPBA-2010[25%] (BS-AC): 4 LPNBA[100%|75%] (CS-CL): 6 LPNBA[50%|25%] (BS-CL, BS-AC): 4 LP

     Inhalt Im Seminar werden Sie - unterstützt durch praktische Übungen - notwendige

    Kenntnisse in der Erstellung und Weiterverarbeitung annotierter Korpora erwerben.Die Übungen werden einzeln oder in kleinen Gruppen durchgeführt. Lernziel ist es,im Laufe des Semesters Fertigkeiten für eine sicher(er)e und zielgerichtete Arbeitmit Korpora zu erwerben und für die spätere Anwendung wiederverwendbare underweiterbare Programme zur Verarbeitung annotierter Korpora zu erstellen.

    In diesem Semester konzentriert sich das Seminar auf die (manuelle und automatische)Annotation computerlinguistischer Informationen und deren Extraktion aus Korpora. Wirwerden uns v.a. auf die folgenden Fragestellungen und Fertigkeiten konzentrieren:

    • Korpusauswahl und -vorverarbeitung• Wie beeinflussen Menge, Format, Sauberkeit der zugrundeliegenden Daten die

    Vorgehensweise?• Wie säubert man Korpora, wie geht man um mit Formaten, Encodings, wie führt

    man Formatkonversionen durch?• Manuelle und automatische Annotation und ihre Auswertung

    • Wie stellt man Guidelines auf und wie folgt man ihnen?• Welche Vorannotierungen und Tools sind hilfreich?• Wie misst man die Qualität der Annotation?• Welche (halb)automatischen oder interaktiven Annotierungstools eignen sich für

    welche Aufgabenstellungen? Wie verwendet man sie, welche Anpassungen derFormate muss man ggf. vornehmen?

    • Wie visualisiert man quantitative Eigenschaften der Daten bzw. Ergebnisse?• Extraktion und Weiterverarbeitung von Informationen

    • Welche Formate gibt es?• Welche Tools oder Skripts existieren für die Verarbeitung der Formate?• Wie kann man eigene, wiederverwendbare Extrahierungsprogramme schreiben?

     Leistungsnachweis • regelmäßige und aktive Teilnahme

    • Übungsaufgaben• Präsentation und Diskussion der Lösungen

     Voraussetzung Programmieren I   

    Parallele und vergleichbare Korpora für NLP - CS-CL, BS-CL, BS-AC 

    09-160-10-42; Proseminar / Übung 

    Do; wöch; 14:15 - 15:45; ab 24.04.2014; INF 325 / SR 23; Seminar; Frank, A.Mi; wöch; 11:15 - 12:45; ab 30.04.2014; INF 325 / PCPool; Übung; Mújdricza-Maydt, É. Kommentar Leistungsbewertung:

    BA-2010[100%|75%] (CS-CL): 6 LPBA-2010[50%] (BS-CL): 6 LPBA-2010[25%] (BS-AC): 4 LPNBA[100%|75%] (CS-CL): 6 LPNBA[50%|25%] (BS-CL, BS-AC): 4 LP

     Inhalt Der Einsatz paralleler oder vergleichbarer Korpora stellt eine etablierte und flexible

    Methode zur Ressourcengewinnung in der Sprachverarbeitung dar.

    Mithilfe paralleler (Übersetzungs)Korpora werden durch automatische Wortalignierungbilinguale Lexika oder Paraphrasen induziert. Durch Annotationsprojektionwerden statistische Modelle für Part-of-Speech Tagging, Dependenzparsing,

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 7

    Relationserkennung oder Semantic Role Labeling für neue Sprachen induziert.Jedoch sind verfügbare große Übersetzungskorpora oft beschränkt auf bestimmteSprachpaare, Textsorten oder Domänen (z.B. Parlamentsdebatten, Gesetzestexte).

    Bilinguale oder monolinguale Korpora vergleichbaren Inhalts (comparable corpora),wie Nachrichtentexte zu denselben Ereignissen oder Personen, Reviews, etc. eignensich zur schwach überwachten Induktion von Paraphrasen (z.B. zum Ausdruck vonSentiment, Opinion). Die Erkennung identischer Ereignisse in vergleichbaren Korpora(event coreference resolution) bildet eine Grundlage für Inhaltssuche (Search) undMulti-Document-Summarization.

    Das Seminar vermittelt Methodenwissen zum Einsatz paralleler und vergleichbarerKorpora in der maschinellen Sprachverarbeitung und illustriert eine Anwendung anhandausgewählter Beispiele aus der Literatur.Die erlernten Methoden werden in Implementierungsprojekten erprobt, die einzelnoder in Kleingruppen durchgeführt werden. Zur Begleitung der Projekte wird einezweistündige Übung resp. Tutorium angeboten. 

     Leistungsnachweis • aktive Teilnahme

    • Kurzreferat mit Ausarbeitung (Exzerpt zum Inhalt und der Diskussionen im Seminar)• Erfolgreiche Umsetzung praktischer Übungsaufgaben• Abgeschlossenes Programmierprojekt aus Aufgabenstellungen oder schriftliche

    Ausarbeitung zum Referatsthema Voraussetzung Programmieren I und II, Mathematische Grundlagen

    Anmeldung per Email an frank(at)cl.uni-heidelberg.de bis zum 31.03.2014 Literatur • Philip Resnik. Exploiting Hidden Meanings: Using Bilingual Text for Monolingual

    Annotation. In Alexander Gelbukh (ed.) Lecture Notes in Computer Science2945: Computational Linguistics and Intelligent Text Processing. Springer. 2004.pp.283-299.

    • Rebecca Hwa, Philip Resnik, Amy Weinberg, Clara Cabezas, and Okan Kolak.Bootstrapping Parsers via Syntactic Projection across Parallel Texts. NaturalLanguage Engineering. Volume 11, Issue 03. September 2005. pp. 311-325.

    • Jörg Tiedemann (2011). Bitext Alignment. Synthesis Lectures on Human LanguageTechnologies. May 2011. Vol. 4, No. 2.

    • Horacio Saggion and Sandra Szasz (2012). The CONCISUS Corpus of EventSummaries. Proceedings of LREC. pp 2031-2037.

    Weitere Literatur wird zu Beginn des Seminars bekanntgegeben. Kurzkommentar Nach Rücksprache kann das Seminar mit angepassten Leistungsanforderungen als

    Hauptseminar belegt werden.   

    Parallel Programming Paradigms - CS-CL, BS-CL, BS-AC 

    09-160-10-43; Proseminar; SWS: 2 

    Mo; wöch; 11:15 - 12:45; ab 21.04.2014; INF 325 / SR 23; Schamoni, S. Kommentar Leisungsbewertung:

    BA-2010[100%|75%] (CS-CL): 6 LPBA-2010[50%] (BS-CL): 6 LPBA-2010[25%] (BS-AC): 4 LPNBA[100%|75%] (CS-CL): 6 LPNBA[50%|25%] (BS-CL, BS-AC): 4 LP

     Inhalt Der enorme technische Fortschritt der letzten Jahre eröffnet völlig neue Möglichkeiten

    zur Verarbeitung großer Datenmengen. Die effiziente Nutzung dieser modernenRechnerarchitekturen erfordert jedoch spezielle Programmieransätze. Diese

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 8

    Veranstaltung vermittelt einen Überblick über die wichtigsten Programmierparadigmenfür parallele Architekturen:

    • Shared-Memory (Posix-/Java-Threads, OpenMP)• Distributed Memory (Message Passing)• GPGPU-Programming (CUDA)• MapReduce

    Die MapReduce-Architektur Hadoop und die Verarbeitung und Analyse großerTextkorpora bilden die Schwerpunkte der Veranstaltung:

    • Hadoop, MapReduce-Architektur• MapReduce Design-Patterns• Data-intensive Text Processing

    Lernziele:

    Die Studierenden kennen die Unterschiede aktueller Rechnerarchitekturen undkönnen beurteilen, welcher Ansatz für welches Problem geeignet ist. Sie wendendie wichtigsten Design-Patterns für MapReduce-Programmierung an und entwickelnselbstständig Hadoop-Applikationen

     Leistungsnachweis • regelmäßige Teilnahme

    • Programmierübungen• Projekt (Implementierung)

     Voraussetzung Erfolgreiche Teilnahme an den Kursen "Programmieren I" und "Programmieren II" Literatur • Abney (2008). Semisupervised Learning for Computational Linguistics. Chapman &

    Hall/CRC.• Lin and Dyer (2010). Data-Intensive Text Processing with MapReduce. Morgan &

    Claypool.• Hennesey and Patterson (2011). Computer Architectures - A Quantitative Approach

    (5th Edition). Elsevier, Morgan Kaufmann.   

    Begleitveranstaltung zum Softwareprojekt - SP 

    09-160-12-01; Seminar; SWS: 2 

    Di; wöch; 14:15 - 15:45; ab 22.04.2014; INF 325 / SR 23; Versley, Y.Di; wöch; 16:15 - 17:45; ab 22.04.2014; INF 325 / SR 23; Versley, Y. Kommentar Leistungsbewertung:

    BA-2010 (SP): 6 LP + 4 LP ÜKNBA (SP): 6 LP + 4 LP ÜK

     Inhalt Im Softwareprojekt soll eine computerlinguistische Aufgabenstellung weitgehend

    eigenverantwortlich und in Teamarbeit geplant, softwaretechnisch durchgeführt,dokumentiert und abschließend präsentiert werden. Neben der Vertiefung praktischerProgrammierkenntnisse (Techniken und Werkzeuge für verteilte Programmerstellung,Testverfahren und Qualitätskontrolle, Dokumentation, etc.) sollen Teamfähigkeit undplanerische Fähigkeiten geübt werden. Daneben werden grundlegende Techniken undMethoden wissenschaftlichen Arbeitens vermittelt.

     Leistungsnachweis Teilnahme an allen Einführungsvorlesungen, Projekt-Spezifikationsvortrag,

    Projektpräsentation, Demo, Programmdokumentation und Archivierung. Voraussetzung • Erfolgreich abgelegte Programmierprüfung

    • Einführung Benutzung computerlinguistischer Ressourcen• Voranmeldung: obligatorisch bis 01.04.2014 an [email protected]

    unter Betreff "Anmeldung Programmierprüfung/Softwareprojekt SoSe2014".  

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 9

     

    Ereignisse und Einstellungen in der Diskursrepräsentationstheorie - AS-FL, SS-CL, SS-FAL 

    09-160-20-50; Hauptseminar 

    Block; 09:15 - 14:30; 28.07.2014 - 01.08.2014; INF 327 / SR 4; Eberle, K. Kommentar Leistungsbewertung:

    BA-2010 (AS-FL): 8 LPNBA (AS-FL): 8 LPMaster (SS-CL, SS-FAL): 8 LP

     Inhalt Die Diskursrepräsentationstheorie (DRT) stellt mit ihren

    Diskursrepräsentationsstrukturen (DRSen) eine ausdrucksstarke Sprache zurVerfügung, mit der der Gehalt von Diskursen logisch detailliert erfasst werden kann,wobei insbesondere den Beziehungen zwischen den Einzelsätzen einer Äußerung odereines Textes Rechnung getragen wird.

    In Einführungen der DRT werden dabei vor allem anaphorisch verwendete Pronomenund definite Kennzeichnungen zur Wiederaufnahme von zuvor erwähnten Objekten undIndividuen behandelt. Seit den ersten Formulierungen der DRT stehen aber die im Texterwähnten Ereignisse und Zustände, deren Beziehung zueinander und die sich aus derTextvermittlung ergebenden Informationen über die Einstellungen bei Sprecher undHörer, als Voraussetzung wie als Ergebnis einer Äußerung, mindestens genauso imFokus des erkenntnistheoretischen Interesses.

    Ausgehend vom zweiten Teil des Einführungswerks von Hans Kamp und Uwe Reylezur DRT (1993) und dessen Einführung in die Grundlagen der Repräsentation vonEreignissen und Zuständen der DRT soll anhand ausgewählter Artikel die Thematikder Erkennung von Ereignisstrukturen in Texten vertieft werden und begleitend die derRepräsentation der Einstellungen von Äußerungsproduzent und - rezipient und derBeitrag der Einstellungszustände ('attitudinal states') zur Interpretation der Ereignisseund Informationen im Diskurs, wobei Begriffe wie interne und externe Anker undangenommenes 'shared knowledge' eine wichtige Rolle spielen.

     Leistungsnachweis Referat oder Abschlussklausur Voraussetzung Vertrautheit mit den Grundlagen der DRT (entspr. der Veranstaltung 'Einführung in die

    DRT' WS12/13 oder Ähnlichem)

    Anmeldung per Email an k.eberle(at)lingenio.de Literatur • Voraussetzend:

    Hans Kamp und Uwe Reyle (1993). From Discourse to Logic. Kluwer, Dordrecht. 

    Weitere Literatur und Referatsthemen werden 4 Wochen vor Seminarbeginnbekanntgegeben.

       

    Statistical Machine Translation - AS-CL, SS-CL, SS-TAC 

    09-160-20-24; Vorlesung / Übung; SWS: 4 

    Do; wöch; 11:15 - 12:45; ab 24.04.2014; INF 325 / SR 23; Vorlesung; Fraser, A.Mo; wöch; 16:15 - 17:45; ab 28.04.2014; INF 325 / SR 23; Übung; Jehl, L. Kommentar Leistungsbewertung:

    BA-2010 (AS-CL): 8 LPNBA (AS-CL): 8 LPMaster (SS-CL, SS-TAC): 8 LPÜK: 4 LP

     Inhalt Die Vorlesung stellt zentrale Konzepte der Statistischen Maschinellen Übersetzung vor.

    Mögliche Themenbereiche der Vorlesung sind:

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 10

    • Alignment• Wort-basierte Modelle• Phrasen-basierte Modelle• Syntax-basierte Modelle• Dekodierung• Sprachmodelle• Evaluierung

     Leistungsnachweis • Regelmäßige Teilnahme an Vorlesung und Übung

    • Bearbeitung der Übungsaufgaben• Klausur

     Voraussetzung Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus

    Mathematischem Grundkurs oder Statistical Methods. Literatur Grundlage der Vorlesung ist

    • Koehn (2010). Statistical Machine Translation. Cambridge. Link:http://www.statmt.org/book/

       

    Linguistic Knowledge for Statistical Machine Translation - AS-CL, SS-CL, SS-TAC 

    09-160-20-49; Hauptseminar; SWS: 2 

    Di; wöch; 11:15 - 12:45; ab 22.04.2014; INF 325 / SR 23; Fraser, A. Kommentar Leistungsbewertung:

    BA-2010 (AS-CL): 8 LPNBA (AS-CL): 8 LPMaster (SS-CL, SS-TAC): 8 LP

     Inhalt Phrase-based statistical machine translation (PBSMT) is the state-of-the-art for

    machine translation of some language pairs. PBSMT is surprisingly free of explicitlinguistic knowledge, but can be very effective. However, this is not always true. Forinstance, when translating into a morphologically rich language the translation qualityis lacking, particularly when there is also significant syntactic divergence between thetwo languages. The quality of PBSMT is poor in this case because of independenceassumptions made involving morphology and syntax in the translation model that do notreflect linguistic reality.

    In this course we will read papers that try to address this problem by adding linguisticknowledge to the translation process in a wide variety of ways. We will start with anintensive focus on morphology. We will then move on to syntax, semantic roles andbeyond. Participants will be encouraged to look at actual translation system output forproblems and we will connect these observations with the work that we discuss.

     Leistungsnachweis • regelmäßige und aktive Teilnahme

    • Referat• Hausarbeit oder Projekt

     Voraussetzung "Statistical Machine Translation" Literatur • Philipp Koehn's textbook Statistical Machine Translation.

    Further literature will be specified at the start of the seminar.   

    Multimodale Semantik - AS-CL, SS-CL, SS-TAC 

    09-160-20-43; Hauptseminar; SWS: 2 

    Mi; wöch; 14:15 - 15:45; ab 23.04.2014; INF 325 / SR 23; Versley, Y. 

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 11

    Kommentar Leistungsbewertung:

    BA-2010 (AS-CL): 8 LPNBA (AS-CL): 8 LPMaster (SS-CL, SS-TAC): 8 LP

     Inhalt Modelle der Wortbedeutung beruhten bis vor wenigen Jahren ausschließlich auf

    großen Textkorpora sowie auf manuell erstellten Ontologien. Aus kognitiver Sichtwie auch aus Anwendungssicht ist es plausibel, auch sprachexterne Faktoren -insbesondere die Wahrnehmung von Farbe, Form und Gestalt bei Bildern - in Modelleder Wortbedeutung miteinzubeziehen.

    Ziel des Seminars ist es, ein grundlegendes Verständnis von Informationen in anderenModalitäten und deren Verarbeitung zu entwickeln sowie einen Überblick über aktuelleAnsätze zu bekommen, die mehrere Modalitäten (etwa Bild und Text) miteinander inBezug setzen.

     Leistungsnachweis • Aktive Teilnahme an den Diskussionen

    • Referat und schriftliche Ausarbeitung Voraussetzung • Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra (z.B. aus Statistical

    Methods) Literatur Auswahl:

    • Eisenstein et al. (2007). Turning Lectures into Comic Books using LinguisticallySalient Gestures.

    • Bergsma & Van Durme (2011). Learning Bilingual Lexicons using the Visual Similarityof Labeled Web Images.

    • Bruni et al. (2012). Distributional Semantics in Technicolor.   

    Mathematischer Vorkurs 

    09-160-00-01; Vorlesung / Übung; SWS: 2 

    Block; 09:00 - 17:00; 07.04.2014 - 11.04.2014; INF 325 / SR 23; Nghiem, T. Kommentar Leistungsbewertung:

    ÜK: 2 LP Inhalt Der mathematische Vorkurs dient der Vorbereitung auf verschiedene

    Lehrveranstaltungen, die grundlegende Mathematikkenntnisse erfordern (z.B.Algorithmen und Datenstrukturen, Statistical Methods for Computational Linguistics)und ist vor allem denjenigen Studierenden zu empfehlen, die vor Besuch dieser Kurseihre Mathematikkenntnisse auffrischen und vertiefen wollen. Der Vorkurs ist auch fürangehende Erstsemester geeignet. Themenbereiche des Kurses sind unter anderem

    • Grundbegriffe der Mathematik und Logik• Vektoren, Vektorräume und Matrizenrechnung• Ableitungen• Graphen• Verbände• Statistik

     Leistungsnachweis Regelmäßige und aktive Teilnahme, Bearbeitung von Übungsaufgaben. Literatur Vorkurs-Niveau:

    • Kemnitz: Mathematik zum Studienbeginn. Vieweg+Teubner, 2006.• Schäfer, Georgi, Tippler: Mathematik Vorkurs. Übungs- und Arbeitsbuch für

    Studienanfänger. Teubner, 2006

    Weiterführend:

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 12

    • beliebige Einführung in die lineare Algebra• beliebige Einführung in die Analysis

       

    Einführung in die Nutzung computerlinguistischer Ressourcen 

    09-160-00-02; Übung; SWS: 2 

    Block; 09:00 - 17:00; 07.04.2014 - 11.04.2014; INF 325 / PCPool; Chersoni, E. Inhalt Der Vorkurs gibt Grundlagen in der Nutzung von GNU/Linux-basierten

    (computerlinguistischen) Tools sowie der vorhandenen Korpora. Dabei geht es sowohlum allgemeine Grundlagen der Shell (wie z.B. Ein-/Ausgabeumleitung) als auch umeinzelne Toolkits im Speziellen. Wir werden uns anschauen, wie bestimmte Toolszu benutzen sind, was man aus ihnen herausbekommt (und was nicht) und wieman solche Ausgaben automatisch weiterverarbeiten kann (und zum Beispiel andas nächste Tool weiterverfüttert). Zudem umfasst der Kurs eine Kurzeinführung inMapReduce und den am Institut vorhandenen Hadoop Cluster.

     Leistungsnachweis Regelmäßige Teilnahme und Bearbeitung von Übungsaufgaben.

    Die erfolgreiche Teilnahme am Blockkurs ist Voraussetzung für die Teilnahme amSoftwareprojekt.

     Voraussetzung Programmieren 1 (P I), Grundlagen der Linux/Unix-Bedienung.

    To register, please send an e-mail to the lecturer (better in English) Literatur Literatur wird zu Beginn der Veranstaltung bekanntgegeben.   

    Abschlusskolloquium - Coll 

    09-160-20-04; Kolloquium; SWS: 3 

    Di; wöch; 18:15 - 19:45; ab 22.04.2014; INF 325 / SR 23; Frank, A.;Fraser, A.;Versley, Y. Kommentar Leistungsbewertung:

    BA-2010 (Coll): 2 LPNBA (-): Freiwillig, keine LPMaster (Coll): 2 LP

     Inhalt Präsentation laufender BA-, MA- und Magisterarbeiten

    Das Abschlusskolloquium bietet BA-, MA- und Magisterstudierenden ein Forum für dieVorstellung und Diskussion ihrer Abschlussarbeiten. Die Studierenden präsentieren denaktuellen Stand ihrer Arbeit und erhalten in der Diskussion Anregungen von Seiten derStudierenden und der Dozenten.Externe VorträgeDarüber hinaus bietet das Abschlusskolloquium allen Studierenden durch Vorträgegeladener Gäste Einblicke in aktuelle Forschungsfragen der Computerlinguistik.

    Externe Vorträge finden im Rahmen des Computerlinguistischen Kolloquiums statt.

      Leistungsnachweis Vortrag (BA-2010, MA) und Ausarbeitung; regelmäßige  Präsenz ist Voraussetzung für

    den Scheinerwerb.Ein Leistungserwerb ist nur für Examenskandidat/innen im  Bachelorstudiengang(BA-2010) und Masterstudiengang (MA)  vorgesehen. Jedoch sind alle Studierendeneingeladen, ihre  Abschlussarbeiten vorzustellen, den Vorträgen zuzuhören und sichan  den Diskussionen zu beteiligen.

       

    Computerlinguistisches Kolloquium

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 13

     

    09-160-20-33; Kolloquium; SWS: 2 

    Do; wöch; 16:15 - 18:30; ab 24.04.2014; INF 328 / SR 25; Frank, A.;Fraser, A.;Versley, Y.;Strube, M. Inhalt Das Kolloquium bietet Doktoranden des Instituts für Computerlinguistik sowie der

    Abteilung NLP des HITS (Heidelberg Institute for Theoretical Studies) ein Forum für dieVorstellung und Diskussion ihrer laufenden Doktorarbeiten, sowie gemeinsame Lektüreund Diskussion zu ausgewählten Themenbereichen der Computerlinguistik.Auch Bachelor- und Magisterabsolventen soll hier die Möglichkeit gegeben werden, ihreAbschlussarbeiten vorzustellen.

    Im Rahmen des Kolloquiums finden externe Vorträge eingeladener Gastwissenschaftlerdes HITS und des Instituts für Computerlinguistik statt, zu denen interessierteWissenschaftler und Studenten herzlich eingeladen sind.

      

    Master 

    Ereignisse und Einstellungen in der Diskursrepräsentationstheorie - AS-FL, SS-CL, SS-FAL 

    09-160-20-50; Hauptseminar 

    Block; 09:15 - 14:30; 28.07.2014 - 01.08.2014; INF 327 / SR 4; Eberle, K. Kommentar Leistungsbewertung:

    BA-2010 (AS-FL): 8 LPNBA (AS-FL): 8 LPMaster (SS-CL, SS-FAL): 8 LP

     Inhalt Die Diskursrepräsentationstheorie (DRT) stellt mit ihren

    Diskursrepräsentationsstrukturen (DRSen) eine ausdrucksstarke Sprache zurVerfügung, mit der der Gehalt von Diskursen logisch detailliert erfasst werden kann,wobei insbesondere den Beziehungen zwischen den Einzelsätzen einer Äußerung odereines Textes Rechnung getragen wird.

    In Einführungen der DRT werden dabei vor allem anaphorisch verwendete Pronomenund definite Kennzeichnungen zur Wiederaufnahme von zuvor erwähnten Objekten undIndividuen behandelt. Seit den ersten Formulierungen der DRT stehen aber die im Texterwähnten Ereignisse und Zustände, deren Beziehung zueinander und die sich aus derTextvermittlung ergebenden Informationen über die Einstellungen bei Sprecher undHörer, als Voraussetzung wie als Ergebnis einer Äußerung, mindestens genauso imFokus des erkenntnistheoretischen Interesses.

    Ausgehend vom zweiten Teil des Einführungswerks von Hans Kamp und Uwe Reylezur DRT (1993) und dessen Einführung in die Grundlagen der Repräsentation vonEreignissen und Zuständen der DRT soll anhand ausgewählter Artikel die Thematikder Erkennung von Ereignisstrukturen in Texten vertieft werden und begleitend die derRepräsentation der Einstellungen von Äußerungsproduzent und - rezipient und derBeitrag der Einstellungszustände ('attitudinal states') zur Interpretation der Ereignisseund Informationen im Diskurs, wobei Begriffe wie interne und externe Anker undangenommenes 'shared knowledge' eine wichtige Rolle spielen.

     Leistungsnachweis Referat oder Abschlussklausur Voraussetzung Vertrautheit mit den Grundlagen der DRT (entspr. der Veranstaltung 'Einführung in die

    DRT' WS12/13 oder Ähnlichem)

    Anmeldung per Email an k.eberle(at)lingenio.de Literatur • Voraussetzend:

    Hans Kamp und Uwe Reyle (1993). From Discourse to Logic. Kluwer, Dordrecht. 

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 14

    Weitere Literatur und Referatsthemen werden 4 Wochen vor Seminarbeginnbekanntgegeben.

       

    Linguistic Knowledge for Statistical Machine Translation - AS-CL, SS-CL, SS-TAC 

    09-160-20-49; Hauptseminar; SWS: 2 

    Di; wöch; 11:15 - 12:45; ab 22.04.2014; INF 325 / SR 23; Fraser, A. Kommentar Leistungsbewertung:

    BA-2010 (AS-CL): 8 LPNBA (AS-CL): 8 LPMaster (SS-CL, SS-TAC): 8 LP

     Inhalt Phrase-based statistical machine translation (PBSMT) is the state-of-the-art for

    machine translation of some language pairs. PBSMT is surprisingly free of explicitlinguistic knowledge, but can be very effective. However, this is not always true. Forinstance, when translating into a morphologically rich language the translation qualityis lacking, particularly when there is also significant syntactic divergence between thetwo languages. The quality of PBSMT is poor in this case because of independenceassumptions made involving morphology and syntax in the translation model that do notreflect linguistic reality.

    In this course we will read papers that try to address this problem by adding linguisticknowledge to the translation process in a wide variety of ways. We will start with anintensive focus on morphology. We will then move on to syntax, semantic roles andbeyond. Participants will be encouraged to look at actual translation system output forproblems and we will connect these observations with the work that we discuss.

     Leistungsnachweis • regelmäßige und aktive Teilnahme

    • Referat• Hausarbeit oder Projekt

     Voraussetzung "Statistical Machine Translation" Literatur • Philipp Koehn's textbook Statistical Machine Translation.

    Further literature will be specified at the start of the seminar.   

    Multimodale Semantik - AS-CL, SS-CL, SS-TAC 

    09-160-20-43; Hauptseminar; SWS: 2 

    Mi; wöch; 14:15 - 15:45; ab 23.04.2014; INF 325 / SR 23; Versley, Y. Kommentar Leistungsbewertung:

    BA-2010 (AS-CL): 8 LPNBA (AS-CL): 8 LPMaster (SS-CL, SS-TAC): 8 LP

     Inhalt Modelle der Wortbedeutung beruhten bis vor wenigen Jahren ausschließlich auf

    großen Textkorpora sowie auf manuell erstellten Ontologien. Aus kognitiver Sichtwie auch aus Anwendungssicht ist es plausibel, auch sprachexterne Faktoren -insbesondere die Wahrnehmung von Farbe, Form und Gestalt bei Bildern - in Modelleder Wortbedeutung miteinzubeziehen.

    Ziel des Seminars ist es, ein grundlegendes Verständnis von Informationen in anderenModalitäten und deren Verarbeitung zu entwickeln sowie einen Überblick über aktuelleAnsätze zu bekommen, die mehrere Modalitäten (etwa Bild und Text) miteinander inBezug setzen.

     

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 15

    Leistungsnachweis • Aktive Teilnahme an den Diskussionen• Referat und schriftliche Ausarbeitung

     Voraussetzung • Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra (z.B. aus Statistical

    Methods) Literatur Auswahl:

    • Eisenstein et al. (2007). Turning Lectures into Comic Books using LinguisticallySalient Gestures.

    • Bergsma & Van Durme (2011). Learning Bilingual Lexicons using the Visual Similarityof Labeled Web Images.

    • Bruni et al. (2012). Distributional Semantics in Technicolor.   

    Statistical Machine Translation - AS-CL, SS-CL, SS-TAC 

    09-160-20-24; Vorlesung / Übung; SWS: 4 

    Do; wöch; 11:15 - 12:45; ab 24.04.2014; INF 325 / SR 23; Vorlesung; Fraser, A.Mo; wöch; 16:15 - 17:45; ab 28.04.2014; INF 325 / SR 23; Übung; Jehl, L. Kommentar Leistungsbewertung:

    BA-2010 (AS-CL): 8 LPNBA (AS-CL): 8 LPMaster (SS-CL, SS-TAC): 8 LPÜK: 4 LP

     Inhalt Die Vorlesung stellt zentrale Konzepte der Statistischen Maschinellen Übersetzung vor.

    Mögliche Themenbereiche der Vorlesung sind:

    • Alignment• Wort-basierte Modelle• Phrasen-basierte Modelle• Syntax-basierte Modelle• Dekodierung• Sprachmodelle• Evaluierung

     Leistungsnachweis • Regelmäßige Teilnahme an Vorlesung und Übung

    • Bearbeitung der Übungsaufgaben• Klausur

     Voraussetzung Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus

    Mathematischem Grundkurs oder Statistical Methods. Literatur Grundlage der Vorlesung ist

    • Koehn (2010). Statistical Machine Translation. Cambridge. Link:http://www.statmt.org/book/

       

    Abschlusskolloquium - Coll 

    09-160-20-04; Kolloquium; SWS: 3 

    Di; wöch; 18:15 - 19:45; ab 22.04.2014; INF 325 / SR 23; Frank, A.;Fraser, A.;Versley, Y. Kommentar Leistungsbewertung:

    BA-2010 (Coll): 2 LPNBA (-): Freiwillig, keine LPMaster (Coll): 2 LP

     

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 16

    Inhalt Präsentation laufender BA-, MA- und MagisterarbeitenDas Abschlusskolloquium bietet BA-, MA- und Magisterstudierenden ein Forum für dieVorstellung und Diskussion ihrer Abschlussarbeiten. Die Studierenden präsentieren denaktuellen Stand ihrer Arbeit und erhalten in der Diskussion Anregungen von Seiten derStudierenden und der Dozenten.Externe VorträgeDarüber hinaus bietet das Abschlusskolloquium allen Studierenden durch Vorträgegeladener Gäste Einblicke in aktuelle Forschungsfragen der Computerlinguistik.

    Externe Vorträge finden im Rahmen des Computerlinguistischen Kolloquiums statt.

      Leistungsnachweis Vortrag (BA-2010, MA) und Ausarbeitung; regelmäßige  Präsenz ist Voraussetzung für

    den Scheinerwerb.Ein Leistungserwerb ist nur für Examenskandidat/innen im  Bachelorstudiengang(BA-2010) und Masterstudiengang (MA)  vorgesehen. Jedoch sind alle Studierendeneingeladen, ihre  Abschlussarbeiten vorzustellen, den Vorträgen zuzuhören und sichan  den Diskussionen zu beteiligen.

       

    Computerlinguistisches Kolloquium 

    09-160-20-33; Kolloquium; SWS: 2 

    Do; wöch; 16:15 - 18:30; ab 24.04.2014; INF 328 / SR 25; Frank, A.;Fraser, A.;Versley, Y.;Strube, M. Inhalt Das Kolloquium bietet Doktoranden des Instituts für Computerlinguistik sowie der

    Abteilung NLP des HITS (Heidelberg Institute for Theoretical Studies) ein Forum für dieVorstellung und Diskussion ihrer laufenden Doktorarbeiten, sowie gemeinsame Lektüreund Diskussion zu ausgewählten Themenbereichen der Computerlinguistik.Auch Bachelor- und Magisterabsolventen soll hier die Möglichkeit gegeben werden, ihreAbschlussarbeiten vorzustellen.

    Im Rahmen des Kolloquiums finden externe Vorträge eingeladener Gastwissenschaftlerdes HITS und des Instituts für Computerlinguistik statt, zu denen interessierteWissenschaftler und Studenten herzlich eingeladen sind.

      

    Magister 

    Abschlusskolloquium - Coll 

    09-160-20-04; Kolloquium; SWS: 3 

    Di; wöch; 18:15 - 19:45; ab 22.04.2014; INF 325 / SR 23; Frank, A.;Fraser, A.;Versley, Y. Kommentar Leistungsbewertung:

    BA-2010 (Coll): 2 LPNBA (-): Freiwillig, keine LPMaster (Coll): 2 LP

     Inhalt Präsentation laufender BA-, MA- und Magisterarbeiten

    Das Abschlusskolloquium bietet BA-, MA- und Magisterstudierenden ein Forum für dieVorstellung und Diskussion ihrer Abschlussarbeiten. Die Studierenden präsentieren denaktuellen Stand ihrer Arbeit und erhalten in der Diskussion Anregungen von Seiten derStudierenden und der Dozenten.Externe VorträgeDarüber hinaus bietet das Abschlusskolloquium allen Studierenden durch Vorträgegeladener Gäste Einblicke in aktuelle Forschungsfragen der Computerlinguistik.

    Externe Vorträge finden im Rahmen des Computerlinguistischen Kolloquiums statt.

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 17

     

     Leistungsnachweis Vortrag (BA-2010, MA) und Ausarbeitung; regelmäßige  Präsenz ist Voraussetzung für

    den Scheinerwerb.Ein Leistungserwerb ist nur für Examenskandidat/innen im  Bachelorstudiengang(BA-2010) und Masterstudiengang (MA)  vorgesehen. Jedoch sind alle Studierendeneingeladen, ihre  Abschlussarbeiten vorzustellen, den Vorträgen zuzuhören und sichan  den Diskussionen zu beteiligen.

       

    Computerlinguistisches Kolloquium 

    09-160-20-33; Kolloquium; SWS: 2 

    Do; wöch; 16:15 - 18:30; ab 24.04.2014; INF 328 / SR 25; Frank, A.;Fraser, A.;Versley, Y.;Strube, M. Inhalt Das Kolloquium bietet Doktoranden des Instituts für Computerlinguistik sowie der

    Abteilung NLP des HITS (Heidelberg Institute for Theoretical Studies) ein Forum für dieVorstellung und Diskussion ihrer laufenden Doktorarbeiten, sowie gemeinsame Lektüreund Diskussion zu ausgewählten Themenbereichen der Computerlinguistik.Auch Bachelor- und Magisterabsolventen soll hier die Möglichkeit gegeben werden, ihreAbschlussarbeiten vorzustellen.

    Im Rahmen des Kolloquiums finden externe Vorträge eingeladener Gastwissenschaftlerdes HITS und des Instituts für Computerlinguistik statt, zu denen interessierteWissenschaftler und Studenten herzlich eingeladen sind.

       

    Einführung in die Nutzung computerlinguistischer Ressourcen 

    09-160-00-02; Übung; SWS: 2 

    Block; 09:00 - 17:00; 07.04.2014 - 11.04.2014; INF 325 / PCPool; Chersoni, E. Inhalt Der Vorkurs gibt Grundlagen in der Nutzung von GNU/Linux-basierten

    (computerlinguistischen) Tools sowie der vorhandenen Korpora. Dabei geht es sowohlum allgemeine Grundlagen der Shell (wie z.B. Ein-/Ausgabeumleitung) als auch umeinzelne Toolkits im Speziellen. Wir werden uns anschauen, wie bestimmte Toolszu benutzen sind, was man aus ihnen herausbekommt (und was nicht) und wieman solche Ausgaben automatisch weiterverarbeiten kann (und zum Beispiel andas nächste Tool weiterverfüttert). Zudem umfasst der Kurs eine Kurzeinführung inMapReduce und den am Institut vorhandenen Hadoop Cluster.

     Leistungsnachweis Regelmäßige Teilnahme und Bearbeitung von Übungsaufgaben.

    Die erfolgreiche Teilnahme am Blockkurs ist Voraussetzung für die Teilnahme amSoftwareprojekt.

     Voraussetzung Programmieren 1 (P I), Grundlagen der Linux/Unix-Bedienung.

    To register, please send an e-mail to the lecturer (better in English) Literatur Literatur wird zu Beginn der Veranstaltung bekanntgegeben.   

    Mathematischer Vorkurs 

    09-160-00-01; Vorlesung / Übung; SWS: 2 

    Block; 09:00 - 17:00; 07.04.2014 - 11.04.2014; INF 325 / SR 23; Nghiem, T. Kommentar Leistungsbewertung:

    ÜK: 2 LP 

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 18

    Inhalt Der mathematische Vorkurs dient der Vorbereitung auf verschiedeneLehrveranstaltungen, die grundlegende Mathematikkenntnisse erfordern (z.B.Algorithmen und Datenstrukturen, Statistical Methods for Computational Linguistics)und ist vor allem denjenigen Studierenden zu empfehlen, die vor Besuch dieser Kurseihre Mathematikkenntnisse auffrischen und vertiefen wollen. Der Vorkurs ist auch fürangehende Erstsemester geeignet. Themenbereiche des Kurses sind unter anderem

    • Grundbegriffe der Mathematik und Logik• Vektoren, Vektorräume und Matrizenrechnung• Ableitungen• Graphen• Verbände• Statistik

     Leistungsnachweis Regelmäßige und aktive Teilnahme, Bearbeitung von Übungsaufgaben. Literatur Vorkurs-Niveau:

    • Kemnitz: Mathematik zum Studienbeginn. Vieweg+Teubner, 2006.• Schäfer, Georgi, Tippler: Mathematik Vorkurs. Übungs- und Arbeitsbuch für

    Studienanfänger. Teubner, 2006

    Weiterführend:

    • beliebige Einführung in die lineare Algebra• beliebige Einführung in die Analysis

      

    Informatik und Programmierpraxis 

    Programmieren II: Fortgeschrittene (Java) - PII 

    09-160-05-01; Vorlesung / Übung; SWS: 4 

    Mi; wöch; 14:15 - 15:45; ab 23.04.2014; INF 306 / SR 19; Fraser, A.Do; wöch; 14:15 - 15:45; ab 24.04.2014; INF 328 / SR 25; Fraser, A. Kommentar Leistungsbewertung:

    BA-2010 (PII): 6 LPNBA (PII): 6 LP

     Inhalt In der Vorlesung werden die in "Programmieren I" erworbenen Grundkenntnisse

    anhand einer zweiten Programmiersprache und der Entwicklung von elementarenKenntnissen der Softwareentwicklung erweitert und vertieft. Neben einer Einführungin objektorientierte Programmierung in der Programmiersprache Java wird dabeiauch in allgemeine Themen der Softwaretechnik eingeführt; u.a. zentrale Methodenund Vorgehensweisen der Softwareentwicklung wie z.B. (objektorientiertes) Design,Software-Dokumentation, Testing, Parallelisierung, Deployment. Diese Themen werdenanhand typischer Anwendungsprobleme der Computerlinguistik behandelt.

     Leistungsnachweis • Übungsaufgaben

    • Bestehen der Abschlussklausur• Erfolgreiches Bearbeiten von mindestens 50% der Übungsaufgaben zur Zulassung

    zur Abschlussklausur Voraussetzung Erfolgreicher Abschluss des Kurses "Programmieren I". Literatur • K. Sierra & B. Bates (2005). "Head First Java". O'Reilly.

    • B. Eckel (2006). "Thinking in Java, 4th edition". Prentice Hall• E. Gamma et al. (1994). "Design Patterns. Elements of Reusable Object-Oriented

    Software". Addison-Wesley Longman

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 19

    • E. Freeman et al. (2004). "Head First Design Patterns". O'Reilly.• Java API: http://docs.oracle.com/javase/7/docs/api/• J. Bloch (2008). "Effective Java". Addison-Wesley.

       

    Begleitveranstaltung zum Softwareprojekt - SP 

    09-160-12-01; Seminar; SWS: 2 

    Di; wöch; 14:15 - 15:45; ab 22.04.2014; INF 325 / SR 23; Versley, Y.Di; wöch; 16:15 - 17:45; ab 22.04.2014; INF 325 / SR 23; Versley, Y. Kommentar Leistungsbewertung:

    BA-2010 (SP): 6 LP + 4 LP ÜKNBA (SP): 6 LP + 4 LP ÜK

     Inhalt Im Softwareprojekt soll eine computerlinguistische Aufgabenstellung weitgehend

    eigenverantwortlich und in Teamarbeit geplant, softwaretechnisch durchgeführt,dokumentiert und abschließend präsentiert werden. Neben der Vertiefung praktischerProgrammierkenntnisse (Techniken und Werkzeuge für verteilte Programmerstellung,Testverfahren und Qualitätskontrolle, Dokumentation, etc.) sollen Teamfähigkeit undplanerische Fähigkeiten geübt werden. Daneben werden grundlegende Techniken undMethoden wissenschaftlichen Arbeitens vermittelt.

     Leistungsnachweis Teilnahme an allen Einführungsvorlesungen, Projekt-Spezifikationsvortrag,

    Projektpräsentation, Demo, Programmdokumentation und Archivierung. Voraussetzung • Erfolgreich abgelegte Programmierprüfung

    • Einführung Benutzung computerlinguistischer Ressourcen• Voranmeldung: obligatorisch bis 01.04.2014 an [email protected]

    unter Betreff "Anmeldung Programmierprüfung/Softwareprojekt SoSe2014".   

    Parallel Programming Paradigms - CS-CL, BS-CL, BS-AC 

    09-160-10-43; Proseminar; SWS: 2 

    Mo; wöch; 11:15 - 12:45; ab 21.04.2014; INF 325 / SR 23; Schamoni, S. Kommentar Leisungsbewertung:

    BA-2010[100%|75%] (CS-CL): 6 LPBA-2010[50%] (BS-CL): 6 LPBA-2010[25%] (BS-AC): 4 LPNBA[100%|75%] (CS-CL): 6 LPNBA[50%|25%] (BS-CL, BS-AC): 4 LP

     Inhalt Der enorme technische Fortschritt der letzten Jahre eröffnet völlig neue Möglichkeiten

    zur Verarbeitung großer Datenmengen. Die effiziente Nutzung dieser modernenRechnerarchitekturen erfordert jedoch spezielle Programmieransätze. DieseVeranstaltung vermittelt einen Überblick über die wichtigsten Programmierparadigmenfür parallele Architekturen:

    • Shared-Memory (Posix-/Java-Threads, OpenMP)• Distributed Memory (Message Passing)• GPGPU-Programming (CUDA)• MapReduce

    Die MapReduce-Architektur Hadoop und die Verarbeitung und Analyse großerTextkorpora bilden die Schwerpunkte der Veranstaltung:

    • Hadoop, MapReduce-Architektur• MapReduce Design-Patterns• Data-intensive Text Processing

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 20

    Lernziele:

    Die Studierenden kennen die Unterschiede aktueller Rechnerarchitekturen undkönnen beurteilen, welcher Ansatz für welches Problem geeignet ist. Sie wendendie wichtigsten Design-Patterns für MapReduce-Programmierung an und entwickelnselbstständig Hadoop-Applikationen

     Leistungsnachweis • regelmäßige Teilnahme

    • Programmierübungen• Projekt (Implementierung)

     Voraussetzung Erfolgreiche Teilnahme an den Kursen "Programmieren I" und "Programmieren II" Literatur • Abney (2008). Semisupervised Learning for Computational Linguistics. Chapman &

    Hall/CRC.• Lin and Dyer (2010). Data-Intensive Text Processing with MapReduce. Morgan &

    Claypool.• Hennesey and Patterson (2011). Computer Architectures - A Quantitative Approach

    (5th Edition). Elsevier, Morgan Kaufmann.  

    Theoretische und empirische Grundlagen der Linguistik 

    Ereignisse und Einstellungen in der Diskursrepräsentationstheorie - AS-FL, SS-CL, SS-FAL 

    09-160-20-50; Hauptseminar 

    Block; 09:15 - 14:30; 28.07.2014 - 01.08.2014; INF 327 / SR 4; Eberle, K. Kommentar Leistungsbewertung:

    BA-2010 (AS-FL): 8 LPNBA (AS-FL): 8 LPMaster (SS-CL, SS-FAL): 8 LP

     Inhalt Die Diskursrepräsentationstheorie (DRT) stellt mit ihren

    Diskursrepräsentationsstrukturen (DRSen) eine ausdrucksstarke Sprache zurVerfügung, mit der der Gehalt von Diskursen logisch detailliert erfasst werden kann,wobei insbesondere den Beziehungen zwischen den Einzelsätzen einer Äußerung odereines Textes Rechnung getragen wird.

    In Einführungen der DRT werden dabei vor allem anaphorisch verwendete Pronomenund definite Kennzeichnungen zur Wiederaufnahme von zuvor erwähnten Objekten undIndividuen behandelt. Seit den ersten Formulierungen der DRT stehen aber die im Texterwähnten Ereignisse und Zustände, deren Beziehung zueinander und die sich aus derTextvermittlung ergebenden Informationen über die Einstellungen bei Sprecher undHörer, als Voraussetzung wie als Ergebnis einer Äußerung, mindestens genauso imFokus des erkenntnistheoretischen Interesses.

    Ausgehend vom zweiten Teil des Einführungswerks von Hans Kamp und Uwe Reylezur DRT (1993) und dessen Einführung in die Grundlagen der Repräsentation vonEreignissen und Zuständen der DRT soll anhand ausgewählter Artikel die Thematikder Erkennung von Ereignisstrukturen in Texten vertieft werden und begleitend die derRepräsentation der Einstellungen von Äußerungsproduzent und - rezipient und derBeitrag der Einstellungszustände ('attitudinal states') zur Interpretation der Ereignisseund Informationen im Diskurs, wobei Begriffe wie interne und externe Anker undangenommenes 'shared knowledge' eine wichtige Rolle spielen.

     Leistungsnachweis Referat oder Abschlussklausur 

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 21

    Voraussetzung Vertrautheit mit den Grundlagen der DRT (entspr. der Veranstaltung 'Einführung in dieDRT' WS12/13 oder Ähnlichem)

    Anmeldung per Email an k.eberle(at)lingenio.de Literatur • Voraussetzend:

    Hans Kamp und Uwe Reyle (1993). From Discourse to Logic. Kluwer, Dordrecht. 

    Weitere Literatur und Referatsthemen werden 4 Wochen vor Seminarbeginnbekanntgegeben.

       

    Formale Grundlagen der Computerlinguistik: Mathematische Grundlagen - FF-FM 

    09-160-02-01; Vorlesung / Übung; SWS: 2 

    Mi; wöch; 11:15 - 12:45; ab 23.04.2014; INF 306 / SR 13; Versley, Y. Kommentar Leistungsbewertung:

    BA-2010 (FF-FM): 6 LPNBA (FF-FM): 6 LP

     Inhalt Die Veranstaltung vermittelt eine Einführung in die formalen Methoden, die für die

    Modellierung von computerlinguistischen Problemen grundlegend sind, und ihreAnwendung auf ausgewählte Probleme in der Computerlinguistik.

    Voraussichtlicher Inhalt:

    • Diskrete Strukturen• Wahrscheinlichkeitsverteilungen, statistische Tests• Folgen, Konvergenz, Stetigkeit• Ableitungen mehrdimensionaler Funktionen, Skalarprodukte, Eigenwerte• Probabilistische Graphische Modelle

     Leistungsnachweis • aktive Teilnahme

    • erfolgreiche Bearbeitung der Übungsaufgaben• Bestehen der Klausur

     Voraussetzung keine

    (empfohlen: Einführung in die Computerlinguistik, Einführung in die Logik) Literatur Zur Anschaffung empfohlen:

    • Florian Modler, Martin Kreh. Tutorium Analysis 1 und Lineare Algebra 1• Chris Manning, Hinrich Schütze. Foundations of Statistical Natural Language

    Processing

       

    Formale Syntax - FSyn 

    09-160-06-01; Vorlesung / Übung; SWS: 4 

    Di; wöch; 11:15 - 12:45; ab 22.04.2014; INF 350 / OMZ R U013; Frank, A.Do; wöch; 11:15 - 12:45; ab 24.04.2014; INF 350 / OMZ R U013; Frank, A. Kommentar Leistungsbewertung:

    BA-2010 (FSyn): 6 LPNBA (FSyn): 6 LP

     Inhalt Die Vorlesung vermittelt vertiefte Kenntnisse der syntaktischen Sprachbeschreibung am

    Beispiel eines theoretisch fundierten Grammatikformalismus.

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 22

    Wir konzentrieren uns insbesondere auf die formalen Grundlagen derLexikalisch-funktionalen Grammatik (LFG), als einen der bedeutenden lexikalischenconstraint-basierten Grammatikformalismen.Die Vorlesung gibt einen Überblick über die Kernbereiche und einige speziellePhänomene der syntaktischen Analyse und ihrer formalen Beschreibung im Rahmender Lexikalisch-funktionalen Grammatik.Den Abschluss bildet ein Überblick über verwandte Grammatikformalismen: HPSG(Head-driven Phrase Structure Grammar), CCG (Combinatory Categorial Grammar),TAG (Tree Adjoining Grammar), Dependenzgrammatik).

     Leistungsnachweis • Regelmäßige und aktive Teilnahme

    • Erfolgreiche Bearbeitung der Übungsaufgaben• Bestehen der Klausur

     Voraussetzung Einführungen in die CL und Sprachwissenschaft Literatur • Yehuda Falk (2001): Lexical-Functional Grammar. An Introduction to Parallel

    Constraint-Based Syntax. University of Chicago Press.• Joan Bresnan (2001). Lexical-Functional Syntax. Oxford: Blackwell.• Mary Dalrymple (2001). Lexical Functional Grammar. Volume 34, Syntax and

    Semantics. Academic Press.• Peter Sells (1985). Lectures on Contemporary Syntactic Theories. An Introduction

    to Government-Binding Theory, Generalized Phrase Structure Grammar, andLexical-Functional Grammar. CSLI Lecture Notes No. 3, CSLI Publications, Stanford,CA. (Chapter 3)

    • Tracy Holloway King, Stefanie Dipper, Anette Frank, Jonas Kuhn, John Maxwell(2004): "Ambiguity Management in Grammar Writing". In Research on Language andComputation, 2 (2): 259-280, Kluwer Academic Publications.

    Weitere Literatur wird im Laufe des Semesters bekannt gegeben.   

    Parallele und vergleichbare Korpora für NLP - CS-CL, BS-CL, BS-AC 

    09-160-10-42; Proseminar / Übung 

    Do; wöch; 14:15 - 15:45; ab 24.04.2014; INF 325 / SR 23; Seminar; Frank, A.Mi; wöch; 11:15 - 12:45; ab 30.04.2014; INF 325 / PCPool; Übung; Mújdricza-Maydt, É. Kommentar Leistungsbewertung:

    BA-2010[100%|75%] (CS-CL): 6 LPBA-2010[50%] (BS-CL): 6 LPBA-2010[25%] (BS-AC): 4 LPNBA[100%|75%] (CS-CL): 6 LPNBA[50%|25%] (BS-CL, BS-AC): 4 LP

     Inhalt Der Einsatz paralleler oder vergleichbarer Korpora stellt eine etablierte und flexible

    Methode zur Ressourcengewinnung in der Sprachverarbeitung dar.

    Mithilfe paralleler (Übersetzungs)Korpora werden durch automatische Wortalignierungbilinguale Lexika oder Paraphrasen induziert. Durch Annotationsprojektionwerden statistische Modelle für Part-of-Speech Tagging, Dependenzparsing,Relationserkennung oder Semantic Role Labeling für neue Sprachen induziert.Jedoch sind verfügbare große Übersetzungskorpora oft beschränkt auf bestimmteSprachpaare, Textsorten oder Domänen (z.B. Parlamentsdebatten, Gesetzestexte).

    Bilinguale oder monolinguale Korpora vergleichbaren Inhalts (comparable corpora),wie Nachrichtentexte zu denselben Ereignissen oder Personen, Reviews, etc. eignensich zur schwach überwachten Induktion von Paraphrasen (z.B. zum Ausdruck vonSentiment, Opinion). Die Erkennung identischer Ereignisse in vergleichbaren Korpora(event coreference resolution) bildet eine Grundlage für Inhaltssuche (Search) undMulti-Document-Summarization.

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 23

    Das Seminar vermittelt Methodenwissen zum Einsatz paralleler und vergleichbarerKorpora in der maschinellen Sprachverarbeitung und illustriert eine Anwendung anhandausgewählter Beispiele aus der Literatur.Die erlernten Methoden werden in Implementierungsprojekten erprobt, die einzelnoder in Kleingruppen durchgeführt werden. Zur Begleitung der Projekte wird einezweistündige Übung resp. Tutorium angeboten. 

     Leistungsnachweis • aktive Teilnahme

    • Kurzreferat mit Ausarbeitung (Exzerpt zum Inhalt und der Diskussionen im Seminar)• Erfolgreiche Umsetzung praktischer Übungsaufgaben• Abgeschlossenes Programmierprojekt aus Aufgabenstellungen oder schriftliche

    Ausarbeitung zum Referatsthema Voraussetzung Programmieren I und II, Mathematische Grundlagen

    Anmeldung per Email an frank(at)cl.uni-heidelberg.de bis zum 31.03.2014 Literatur • Philip Resnik. Exploiting Hidden Meanings: Using Bilingual Text for Monolingual

    Annotation. In Alexander Gelbukh (ed.) Lecture Notes in Computer Science2945: Computational Linguistics and Intelligent Text Processing. Springer. 2004.pp.283-299.

    • Rebecca Hwa, Philip Resnik, Amy Weinberg, Clara Cabezas, and Okan Kolak.Bootstrapping Parsers via Syntactic Projection across Parallel Texts. NaturalLanguage Engineering. Volume 11, Issue 03. September 2005. pp. 311-325.

    • Jörg Tiedemann (2011). Bitext Alignment. Synthesis Lectures on Human LanguageTechnologies. May 2011. Vol. 4, No. 2.

    • Horacio Saggion and Sandra Szasz (2012). The CONCISUS Corpus of EventSummaries. Proceedings of LREC. pp 2031-2037.

    Weitere Literatur wird zu Beginn des Seminars bekanntgegeben. Kurzkommentar Nach Rücksprache kann das Seminar mit angepassten Leistungsanforderungen als

    Hauptseminar belegt werden.  

    Algorithmische Linguistik 

    Linguistic Knowledge for Statistical Machine Translation - AS-CL, SS-CL, SS-TAC 

    09-160-20-49; Hauptseminar; SWS: 2 

    Di; wöch; 11:15 - 12:45; ab 22.04.2014; INF 325 / SR 23; Fraser, A. Kommentar Leistungsbewertung:

    BA-2010 (AS-CL): 8 LPNBA (AS-CL): 8 LPMaster (SS-CL, SS-TAC): 8 LP

     Inhalt Phrase-based statistical machine translation (PBSMT) is the state-of-the-art for

    machine translation of some language pairs. PBSMT is surprisingly free of explicitlinguistic knowledge, but can be very effective. However, this is not always true. Forinstance, when translating into a morphologically rich language the translation qualityis lacking, particularly when there is also significant syntactic divergence between thetwo languages. The quality of PBSMT is poor in this case because of independenceassumptions made involving morphology and syntax in the translation model that do notreflect linguistic reality.

    In this course we will read papers that try to address this problem by adding linguisticknowledge to the translation process in a wide variety of ways. We will start with anintensive focus on morphology. We will then move on to syntax, semantic roles and

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 24

    beyond. Participants will be encouraged to look at actual translation system output forproblems and we will connect these observations with the work that we discuss.

     Leistungsnachweis • regelmäßige und aktive Teilnahme

    • Referat• Hausarbeit oder Projekt

     Voraussetzung "Statistical Machine Translation" Literatur • Philipp Koehn's textbook Statistical Machine Translation.

    Further literature will be specified at the start of the seminar.   

    Multimodale Semantik - AS-CL, SS-CL, SS-TAC 

    09-160-20-43; Hauptseminar; SWS: 2 

    Mi; wöch; 14:15 - 15:45; ab 23.04.2014; INF 325 / SR 23; Versley, Y. Kommentar Leistungsbewertung:

    BA-2010 (AS-CL): 8 LPNBA (AS-CL): 8 LPMaster (SS-CL, SS-TAC): 8 LP

     Inhalt Modelle der Wortbedeutung beruhten bis vor wenigen Jahren ausschließlich auf

    großen Textkorpora sowie auf manuell erstellten Ontologien. Aus kognitiver Sichtwie auch aus Anwendungssicht ist es plausibel, auch sprachexterne Faktoren -insbesondere die Wahrnehmung von Farbe, Form und Gestalt bei Bildern - in Modelleder Wortbedeutung miteinzubeziehen.

    Ziel des Seminars ist es, ein grundlegendes Verständnis von Informationen in anderenModalitäten und deren Verarbeitung zu entwickeln sowie einen Überblick über aktuelleAnsätze zu bekommen, die mehrere Modalitäten (etwa Bild und Text) miteinander inBezug setzen.

     Leistungsnachweis • Aktive Teilnahme an den Diskussionen

    • Referat und schriftliche Ausarbeitung Voraussetzung • Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra (z.B. aus Statistical

    Methods) Literatur Auswahl:

    • Eisenstein et al. (2007). Turning Lectures into Comic Books using LinguisticallySalient Gestures.

    • Bergsma & Van Durme (2011). Learning Bilingual Lexicons using the Visual Similarityof Labeled Web Images.

    • Bruni et al. (2012). Distributional Semantics in Technicolor.   

    NLP-Werkstatt: Arbeiten mit linguistisch annotierten Korpora - CS-CL, BS-CL, BS-AC 

    09-160-10-41; Proseminar 

    Mi; wöch; 16:15 - 17:45; ab 23.04.2014; INF 325 / SR 23; Mújdricza-Maydt, É. Kommentar Leistungsbewertung:

    BA-2010[100%|75%] (CS-CL): 6 LPBA-2010[50%] (BS-CL): 6 LPBA-2010[25%] (BS-AC): 4 LPNBA[100%|75%] (CS-CL): 6 LPNBA[50%|25%] (BS-CL, BS-AC): 4 LP

     

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 25

    Inhalt Im Seminar werden Sie - unterstützt durch praktische Übungen - notwendigeKenntnisse in der Erstellung und Weiterverarbeitung annotierter Korpora erwerben.Die Übungen werden einzeln oder in kleinen Gruppen durchgeführt. Lernziel ist es,im Laufe des Semesters Fertigkeiten für eine sicher(er)e und zielgerichtete Arbeitmit Korpora zu erwerben und für die spätere Anwendung wiederverwendbare underweiterbare Programme zur Verarbeitung annotierter Korpora zu erstellen.

    In diesem Semester konzentriert sich das Seminar auf die (manuelle und automatische)Annotation computerlinguistischer Informationen und deren Extraktion aus Korpora. Wirwerden uns v.a. auf die folgenden Fragestellungen und Fertigkeiten konzentrieren:

    • Korpusauswahl und -vorverarbeitung• Wie beeinflussen Menge, Format, Sauberkeit der zugrundeliegenden Daten die

    Vorgehensweise?• Wie säubert man Korpora, wie geht man um mit Formaten, Encodings, wie führt

    man Formatkonversionen durch?• Manuelle und automatische Annotation und ihre Auswertung

    • Wie stellt man Guidelines auf und wie folgt man ihnen?• Welche Vorannotierungen und Tools sind hilfreich?• Wie misst man die Qualität der Annotation?• Welche (halb)automatischen oder interaktiven Annotierungstools eignen sich für

    welche Aufgabenstellungen? Wie verwendet man sie, welche Anpassungen derFormate muss man ggf. vornehmen?

    • Wie visualisiert man quantitative Eigenschaften der Daten bzw. Ergebnisse?• Extraktion und Weiterverarbeitung von Informationen

    • Welche Formate gibt es?• Welche Tools oder Skripts existieren für die Verarbeitung der Formate?• Wie kann man eigene, wiederverwendbare Extrahierungsprogramme schreiben?

     Leistungsnachweis • regelmäßige und aktive Teilnahme

    • Übungsaufgaben• Präsentation und Diskussion der Lösungen

     Voraussetzung Programmieren I   

    Statistical Machine Translation - AS-CL, SS-CL, SS-TAC 

    09-160-20-24; Vorlesung / Übung; SWS: 4 

    Do; wöch; 11:15 - 12:45; ab 24.04.2014; INF 325 / SR 23; Vorlesung; Fraser, A.Mo; wöch; 16:15 - 17:45; ab 28.04.2014; INF 325 / SR 23; Übung; Jehl, L. Kommentar Leistungsbewertung:

    BA-2010 (AS-CL): 8 LPNBA (AS-CL): 8 LPMaster (SS-CL, SS-TAC): 8 LPÜK: 4 LP

     Inhalt Die Vorlesung stellt zentrale Konzepte der Statistischen Maschinellen Übersetzung vor.

    Mögliche Themenbereiche der Vorlesung sind:

    • Alignment• Wort-basierte Modelle• Phrasen-basierte Modelle• Syntax-basierte Modelle• Dekodierung• Sprachmodelle• Evaluierung

     Leistungsnachweis • Regelmäßige Teilnahme an Vorlesung und Übung

    • Bearbeitung der Übungsaufgaben• Klausur

  • Computerlinguistik

    Stand: 24.2.2014 Sommer 2014 26

     Voraussetzung Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus

    Mathematischem Grundkurs oder Statistical Methods. Literatur Grundlage der Vorlesung ist

    • Koehn (2010). Statistical Machine Translation. Cambridge. Link:http://www.statmt.org/book/

       

    Text Mining - CS-CL, BS-CL, BS-AC 

    09-160-10-32; Vorlesung; SWS: 2 

    Fr; wöch; 11:15 - 12:45; ab 25.04.2014; INF 325 / SR 23; Zielinski, A. Kommentar Leistungsbewertung:

    BA-2010[100%|75%] (CS-CL): 6 LPBA-2010[50%] (BS-CL): 6 LPBA-2010[25%] (BS-AC): 4 LPNBA[100%|75%] (CS-CL): 6 LPNBA[50%|25%] (BS-CL, BS-AC): 4 LP

     Inhalt Im Text Mining werden Data-Mining Verfahren (wie z.B. Klassifikation, Clustering,

    Trend-Analyse) eingesetzt, um nicht bekannte Informationen in natürlich-sprachlichenTexten aufzufinden. Die Vorlesung führt in das Spektrum der vorhandenen Methoden(regelbasiert, wissensbasiert oder statistisch) ein und bietet einen Überblick übermögliche Anwendungsgebiete wie z.B. Social Media Monitoring, Plagiatserkennungsowie Informationsrecherche in den Life Sciences.

     Leistungsnachweis • Regelmäßige Teilnahme an Vorlesung und Übung

    • Bearbeitung von übungsaufgaben• Klausur• Aktive Teilnahme an den Veranstaltungen• Seminarvortrag (ca. 20 min)

     Voraussetzung Grundbegriffe in Statistik Literatur • Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008). Introduction

    to Information Retrieval. Cambridge University Press.• Bing Liu (2007). Web Data Mining. Springer. Second Edition.• Ian H. Witten, Eibe Frank, and Mark A. Hall (2011). Web Data Mining. Springer• Data Mining: Practical Machine Learning Tools and Techniques (Third Edition).

    http://www.cs.waikato.ac.nz/ml/weka/book.html