introduction to machine translation 1
TRANSCRIPT
![Page 1: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/1.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Введение в машинныйперевод (продолжение)
Лектор: Кан Дмитрий АлександровичIII курс аспирантуры, СПбГУ, ПМ-ПУ, ТП
![Page 2: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/2.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Темы
Оценки человекомАвтоматические оценкиГибридные системы
![Page 3: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/3.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Оценки человеком
Семантическая инвариантностьПрагматическая инвариантностьЛексическая инвариантностьСтруктурная инвариантностьПространственная инвариантностьБеглостьТочность”Do you get it?”
![Page 4: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/4.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Автоматические оценки
BLEU = Bilingual Evaluation UnderstudyMETEOR = Metric for Evaluation of Translation with Explicit ORderingNIST (metric)Round-trip перевод
![Page 5: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/5.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
BLEU
Требует существования переводов, сделанных человеком (Reference)Оценивает близость численно (worderror rate)N-грамм-сравнение между переводом-кандидатом и 1 или более переводомиз Reference
![Page 6: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/6.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
BLEU
Главная идея: ”the closer a machinetranslation is to a professional humantranslation, the better it is”Взвешенное среднее числасовпадений N-грамм кандидата спереводом человекаИнвариант порядка N-грамм, главноеналичие совпадений
![Page 7: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/7.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики
БыстрыйДешёвыйЯзыко-независимыйВысокая корреляция с оценкойчеловекаЗатраты только при старте: корпуспереводов человеком
![Page 8: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/8.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Страшная формула
Модифицированная точная оценка
c – длина перевода-кандидата
r – длина Referenceкорпуса
База: N=4, wn=1/N
![Page 9: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/9.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Другие метрики
METEOR адресует слабости BLEU, такие, как полнота (компенсируетсяBP), уровень оценки (предложениевместо всей системы), порядок словNIST метрика базируется на BLEU, нос варьируемыми весами: чем реже N-грамм-совпадение, тем выше его вес
![Page 10: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/10.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Доступная всем метрика: рекомендую
Round-trip метрика: перевод сначала водну, а затем в другую сторонуПроверить морфологию, синтаксис исемантикуОдну и ту же мысль можно выразитьразными словами, но разные словамогут исказить мысль
![Page 11: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/11.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Гибридные системы МП
Архитектура
![Page 12: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/12.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Темы
ReorderingСемантическая теорияПрагматика, анализ контекстаМашинный перевод на основеСемантической Теории
![Page 13: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/13.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Reordering
В SMT: чаще на стороне декодера, иногда на стороне шифратораНеобходимость для пар из разныхязыковых групп, таких как английскийи японский:Английский: субъект – глагол – объектЯпонский: субъект – объект – глагол
![Page 14: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/14.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Английский vs Японский
EN: IBM купила Lotus.JP: IBM Lotus купила.
EN: Репортёры сообщили, что IBM купила Lotus.JP: Репортёры IBM Lotus купиласообщили.
![Page 15: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/15.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Методы word reordering
Алгебраический: по контекстнымграмматикам (порождение, NLG)Статистический: по стат. МоделямСинтаксическийИерархический: мереология; Мельчук+ эксперименты
![Page 16: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/16.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Алгебраический метод reordering
Грамматика Бэкуса-НаураКак аукнется, так и откликнется; Что посеешь, то и пожнёшь; Коголюблю, того казнюПравила:<пословица> ::= <голова>, <хвост><голова> ::= <h1> <h2><хвост> ::= <t1> <t2>
![Page 17: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/17.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Алгебраический метод reordering
Вывод (синтез) пословицы Кого люблю, того казню.<пословица><голова>, <хвост><h1> <h2>, <хвост>Кого <h2>, <хвост>Кого люблю, <хвост>Кого люблю, <t1> <t2>Кого люблю, того <t2>Кого люблю, того казню
![Page 18: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/18.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Статистические подходы
SRILM для построения языковоймодели (Language Model, LM)Статистическая модель предложенияПермутацииПоиск N-грамм-совпадений в двухязыковых моделяхОптимизация
![Page 19: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/19.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Архитектура системы
![Page 20: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/20.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Детали
A = [w[0],w[1],…,w[n-1],w[n]], N слов
Матрица из нулей иединиц:
If w[i][j] belongs to SLM
P[i,j]=1
Else
P[i,j]=0
![Page 21: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/21.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Детали #1
Существует ребро между соседними уровнями (i,j) if P(i,j) = 1
![Page 22: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/22.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Синтаксический reordering
PSMT = Phrase-based SMTПеревод последовательностей словвместо отдельных словВозможность локальных перестановоксловТренировка системы нараспознавание синтаксическихструктур
![Page 23: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/23.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Иерархический reordering: мереология
Мереология – теория отношенийчастей:Частей к целомуЧасти внутри частей к целому
Линеаризация – превращениеиерархического представления влинейное
![Page 24: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/24.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Постулаты Мельчука
Предложения с сильной связью: словаопределяют порядок слов, следующихза ними (винительный падеж)Предложения со словами, присоединяющими другие слова(причастные обороты)Слабые связи: слова не влияют навзаимный порядок
![Page 25: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/25.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Следствия
Необходима иерархическая модельпредложенияНеобходим алгоритм иерархическоймодификации дерева предложенияНеобходим алгоритм порожденияпредложения по его(модифицированной) древеснойструктуре
![Page 26: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/26.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Компьютерная семантикарусского языка
ГлаголыПредлогиБазисные функцииМорфологический, синтаксический исемантический анализВектор-функцииПредложение = суперпозиция
![Page 27: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/27.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Роли предлогов
Пространственное взаимоположениеобъектов (стул за столом)Временное отношение объектов ипроцессов (думая во время пробежки)Казуальность (выходной из-запереработки)Логическое противопоставление(плавание против бега)
![Page 28: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/28.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Примеры вывода семантическогоанализатора
любит<X007.004>(@Вин Сашу<X003.002><+СущСущ3+>
(@Вин Умного<X001.001><+Какой:ПрилСущ7+>,@Вин красивого<X002.001><+Однородный:ОднорПрил6+>),
@Им Маша<X006.003><+СущГлаг3+>(@Им интересная<X004.001><+КАКОЙ:ПрилСущ7+>,@Имзамечательная<X005.001><+Однородный:ОднорПрил6+>)
).
![Page 29: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/29.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Визуальное представление
![Page 30: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/30.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Tree in C++ STL style
![Page 31: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/31.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Правила линеаризации (русскийязык)
Узлы подлежат обмену только на одномуровне в семантическом деревеПри синтезе уточняющие прилагательныепредшествуют существительнымПритяжательные местоимения такжепредшетсвуют существительнымПредлоги предшествуют своимподдеревьям в синтезируемомпредложении
![Page 32: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/32.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Псевдо-код
![Page 33: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/33.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Псевдо-код #1
![Page 34: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/34.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Псевдо-код #3
![Page 35: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/35.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Прагматика
Мария любит Джорджа.Он передал коллеге карту.У кошки родилось двое котят – одинбелый и один афроамериканец.Сарай горит.
![Page 36: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/36.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Анализ контекста
Сродни анализу слов в предложенииГипотеза: корень – времяПортрет объектовНа данный момент завершены толькодва этапа анализа текста: анализслова и анализ предложения
![Page 37: Introduction To Machine Translation 1](https://reader030.vdocuments.us/reader030/viewer/2022013115/557c6f41d8b42a494c8b45be/html5/thumbnails/37.jpg)
СПбГУ, ПМ-ПУ, ТП, 2009
Библиография
[1] http://en.wikipedia.org/wiki/Category:Evaluation_of_machine_translation[2] K. Papineni, S. Roukos, T. Ward, W.-J. Zhu: Bleu: a Method for AutomaticEvaluation of Machine Translation. IBM Research Division[3] S. Banerjee, A. Lavie: METEOR: An Automatic Metric for MT Evaluation withImproved Correlation with Human Judgments, Language Technologies Institute[4] Y. Chen, A. Eisele, C. Federmann, E. Hasler, M. Jellinghaus, S. Theison: Multi-Engine Machine Translation with an Open-Source Decoder for StatisticalMachine Translation[5] И. Плашенкова: Гомоморфизм алгебр-моделей контекстно-свободныхподмножеств естественных языков, 2003[6] T. Athanaselis, S. Bakamidis, I. Dologlou: Words Reordering based on Statistical Language Model, 2006[7] J. Elming: Syntactic Reordering Integrated with Phrase-based SMT[8] C. Gerstenberger : Why mereology for the linearization task in NLG?