Введение  · web view2018. 7. 27. · * an insulting word when used towards a man, derived...

131
ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА на тему: Исследование автоматических метрик оценки перевода на материале профессиональных художественных переводов основная образовательная программа магистратуры по направлению подготовки 45.04.02 «Лингвистика» Исполнитель: Обучающаяся 2 курса магистратуры Образовательной программы «Прикладная и экспериментальная лингвистика» очной формы обучения Арутюнова Ирина Аркадьевна Научный руководитель: к.ф.н., доц. Митренина О.В. Рецензент: Степукова А.В., лингвистический программист,

Upload: others

Post on 20-Mar-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ

ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА на тему:

Исследование автоматических метрик оценки перевода на материале профессиональных художественных переводов

основная образовательная программа магистратуры по направлению подготовки 45.04.02 «Лингвистика»

Исполнитель:

Обучающаяся 2 курса магистратурыОбразовательной программы

«Прикладная и экспериментальная лингвистика»

очной формы обученияАрутюнова Ирина Аркадьевна

Научный руководитель:к.ф.н., доц. Митренина О.В.

Рецензент:Степукова А.В.,

лингвистический программист, компания «ПРОМТ»

Санкт-Петербург2018

Page 2: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Оглавление

Введение.........................................................................................................................................3Глава 1. Машинный перевод как разновидность переводческой деятельности.....................6

1.1. Перевод как процесс и его характеристики.....................................................................61.2. Специфика перевода художественного произведения...................................................91.3. Ручной и автоматический перевод..................................................................................121.5. Экспертная и ручная оценка перевода...........................................................................14

1.5.1. Понятия адекватность перевода и эквивалентность оригиналу...........................141.5.2. Экспертная оценка машинного перевода................................................................16

1.6. Автоматическая оценка перевода...................................................................................191.6.1. Автоматическая оценка с использованием эталонного перевода.........................201.6.2. Автоматическая оценка без использования эталонного перевода.......................21

1.7. Различные меры, оценивающие качество перевода......................................................21Выводы к главе 1.....................................................................................................................34

Глава 2. Эксперимент по оценке метрик с помощью художественных переводов..............362.1. Общий обзор эксперимента.............................................................................................362.2. Описание переводчиков, выбранных для эксперимента..............................................372.3. Подготовка фрагментов перевода для сравнения..........................................................412.4. Использованные инструменты для оценки переводов.................................................462.5. Выбор элементов «перевод-эталон» и «перевод-кандидат»........................................502.6. Анализ результатов, полученных с помощью системы Asiya.....................................522.7. Анализ результатов, полученных с помощью MT-ComparEval...................................572.8. Обобщение результатов проведенного анализа............................................................63Выводы к главе 2.....................................................................................................................74

Заключение...................................................................................................................................77Список литературы......................................................................................................................79Список источников......................................................................................................................84Приложение 1. Результаты оценки сегментов в Asiya (Ч. Хогарт (эталон) – И. Хэпгуд (перевод-кандидат)......................................................................................................................85Приложение 2. Результат оценки сегментов в MT-ComparEval (Дж. Ормсби (эталон) – Э. Гроссман (перевод-кандидат)................................................................................................87

2

Page 3: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Введение

Развитие систем машинного перевода привело к созданию

автоматических метрик, способных оценивать такие переводы. Данная

работа посвящена изучению качества работы этих метрик. В идеале при их

использовании метрик качественный перевод должен получать более

высокие оценки. Очевидно, что качественными переводами считаются

переводы, выполненные профессиональными переводчиками, и именно

поэтому мы решили использовать профессиональные художественные

переводы для анализа работы таких метрик.

Объектом настоящего исследования являются проблемы

автоматической оценки качества переводов. Предметом являются проблемы

работы наиболее доступных автоматических метрик оценки при

рассмотрении художественных переводов в языковых парах русский —

английский, испанский — английский, испанский — русский.

Актуальность работы связана с важной ролью компьютерных

переводов в современном обществе и необходимостью их качественной

оценки.

Научная новизна работы состоит в характере самого исследуемого

материала — автоматические метрики оценки переводов и их работа с

художественными текстами. Проведенное исследование может расширить

представления об особенностях работы автоматических мер оценки и помочь

при дальнейшей разработке и улучшении данных метрик.

Цель работы заключается в оценке качества работы автоматических

метрик и выявлении возможных способов улучшения их работы.

Цель исследования определила постановку следующих задач:

1) Изучить специфику перевода художественных произведений;

2) Проанализировать существующие подходы к оценке качества

переводов;

3

Page 4: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

3) Изучить различные автоматические метрики, которые могут

применяться для автоматической оценки качества с использованием

эталонного перевода;

4) Рассмотреть оценки, которые получают профессиональные

художественные переводы в соответствии с работой наиболее популярных и

доступных автоматических метрик;

5) Систематизировать полученные результаты работы и проанализировать

возможные причины получения высоких или низких оценок, а также способы

улучшения работы тех или иных метрик.

Материалом исследования послужили переводы поэмы Николая

Васильевича Гоголя «Мертвые души» на английский язык и переводы

романа Мигеля де Сервантеса «Хитроумный идальго Дон Кихот

Ламанчский» на английский и русский языки. Переводы Н.В. Гоголя на

английский выполнены такими переводчиками, как Чарльз Джеймс Хогарт,

Изабель Флоренс Хэпгуд и Роберт Магуайр. Переводы Сервантеса на

английский выполнены Эдит Гроссман и Джоном Ормсби, на русский —

Борисом Александровичем Энгельгардтом и Николаем Михайловичем

Любимовым.

Общий объем материала — 3900 значений оценки сегментов по всем

метрикам, полученных при анализе (а) 50 предложений на русском языке и

переводов на английский каждого из них, выполненных тремя

переводчиками (150 английских переводческих соответствий), (б) 50

предложений на испанском языке и переводов на русский каждого из них,

выполненных двумя переводчиками (100 русских переводческих

соответствий) и (в) 50 предложений на испанском языке и переводов на

английский каждого из них, выполненных двумя переводчиками (100

английских переводческих соответствий).

В работе используются методы контекстного и компонентного анализа

данных, анализа и обобщения отечественной и зарубежной теории,

обобщения и аналогии, а также метод семантического анализа. 4

Page 5: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Настоящая работа состоит из введения, двух глав, заключения, списка

литературы и приложений. Каждая глава сопровождается выводами. В

заключении приводятся основные результаты исследования.

5

Page 6: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Глава 1. Машинный перевод как разновидность переводческой деятельности

1.1. Перевод как процесс и его характеристики

Перевод — это один из наиболее древних видов человеческой

деятельности, представляющий собой многогранный и сложный процесс. В

современном мире, где международные контакты и сотрудничество играют

чрезвычайно важные роли, а информация стала одним из основным ресурсов,

перевод выходит на первый план и становится неотъемлемым аспектом

жизни.

С увеличением количества международных связей, созданием

международных организаций и контактов между представителями разных

культур, возросла потребность в осуществлении переводов, что вызвало

увеличение теоретических исследований теории переводов и переводческой

деятельности. В данный момент изучение теории перевода продолжается:

было создано и продолжают создаваться научные доклады, статьи и труды,

посвященные исследованию переводческой проблематики. Это

обуславливается в том числе и тем, что объемы информации на разных

языках растут, а возможности человека остаются ограниченными: чтобы

оставаться в курсе последних событий, человеку приходится раз за разом

обращаться к переводам как результату и переводу в целом.

В.С. Виноградов считает, что «перевод — это особый, своеобразный и

самостоятельный вид словесного искусства» (Виноградов, 1978: 8).

Л.С. Бархударов, определяя «процесс перевода», отмечает, что это —

«определенного вида языковое, точнее, межъязыковое преобразование или

трансформация текста на одном языке в текст на другом языке» (Бархударов,

1975: 6). Т.А. Казакова в свою очередь полагает, что перевод — это

«преобразование сообщения на исходном языке в сообщение на языке

перевода» (Казакова, 2001: 9).

6

Page 7: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

В.Н. Комиссаров утверждает, что перевод — это «вид языкового

посредничества, при котором на языке перевода создается текст,

коммуникативно равноценный оригиналу, причем его коммуникативная

равноценность проявляется в его отождествлении рецепторами перевода с

оригиналом в функциональном, содержательном и структурном отношении».

(Комиссаров, 1990: 45).

Оригинал и перевод могут отождествляться функционально: автор

перевода публикует его не под своим именем (хотя оно указывается), но под

именем автора оригинала. Данный перевод цитируется, на него ссылаются,

его обсуждают как оригинал, переведенный на другой язык, а не как перевод

оригинала. Содержательное отождествление перевода с оригиналом

происходит тогда, когда рецепторы перевода (те, кто читают и слушают

перевод), полагают, что перевод представляет собой воспроизведенный

средствами другого языка оригинал. Отождествление оригинала с точки

зрения структуры обуславливается тем, что читающие и слушающие

полагают, что перевод — это воспроизведение оригинала не только в целом,

но и в частных деталях. Рецепторы предполагают, что переводчик не

позволяет себе менять структуру оригинала, удалять или добавлять, а также

сокращать или, наоборот, развивать какие-либо элементы авторского текста.

Стоит отметить, что само слово «перевод» может иметь несколько

разных значений. Если «перевод» употребляется в значении «перевод с

одного языка на другой», то и в этом случае оно имеет два разных оттенка

значения:

1) «Перевод как результат определенного процесса», т.е. сам

переведенный текст (а также аудио или видеозапись);

2) «Перевод как сам процесс», т.е. действие, которое совершает

переводчик, результатом которого служит некий текст (перевод в

первом значении) (Бархударов, 1975: 5).

Лингвистическая теория перевода занимается моделированием и

научным описанием процесса перевода как межъязыкового преобразования, 7

Page 8: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

трансформации текста на одном языке в текст на другом языке с некой

степенью эквивалентности.

Т.А. Казакова обращает внимание на важную особенность перевода как

процесса: она отмечает, что по ряду причин «точный перевод, по

определению, невозможен» (Казакова, 2001: 9). Среди этих причин можно

выделить отличие грамматического строя разных языков и простое отличие

количества слов, а также различие культур. Именно перевод слов,

словосочетаний и предложений, в которых содержится какая-либо отсылка к

культурной реалии, может представлять собой наибольшую сложность ввиду

отсутствия сопоставительно-культурных материалов и справочников, и,

соответственно, знаний такого рода у переводчика.

Перечисленные выше утверждения подводят нас к такой важной

проблеме перевода, как проблема переводимости (непереводимости) текстов.

Переводимостью называют принципиальную возможность перевести

определенный текст. В практике перевода некие тексты зачастую могут

объявляться непереводимыми. В этом вопросе мы решили придерживаться

точки зрения Л.С. Бархударова, который отмечает, что эквивалентность

перевода определяется в целом на уровне текста, для которого создается

перевод, то есть можно сказать, что «существуют непереводимые частности,

но нет непереводимых текстов» (Бархударов, 1975: 221).

Говоря об переводимости (непереводимости) текстов, нельзя не

упомянуть такое понятие, как «эквивалентность» переводов. Как утверждает

Л.С. Бархударов, «достижение переводческой эквивалентности

(«адекватности перевода») … требует от переводчика прежде всего умения

произвести многочисленные и качественно разнообразные межъязыковые

преобразования — так называемые переводческие трансформации — с тем,

чтобы текст перевода с максимально возможной полнотой передавал всю

информацию, которая заключается в оригинальном тексте, при этом

необходимо сделать так, чтобы соблюдались все нормы языка переводного

текста» (Бархударов, 1975: 190). Нужно также отметить, что тот факт, что 8

Page 9: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

определенным лексическим единицам одного языка в составе другого языка

нет прямых эквивалентов, «не означает их «непереводимость» на этот язык»

(Бархударов, 1975: 102). Можно утверждать, что обычно переводчик все же

обладает целым набором средств, дающих возможность передать значение

исходной словарной единицы в речи в тексте на определенном языке.

Элементы языка, отражающие общекультурные ценности или, по

крайней мере, сопоставимые ценности, в большинстве случаев довольно

успешно переводятся, если обратить большее внимание на передачу общих и

универсальных понятий и при этом не преувеличивать непереводимость

стилистических, эмоциональных и оценочных компонентов исходной

информации.

1.2. Специфика перевода художественного произведения

Существует несколько функциональных видов перевода (Галинская,

2009), и художественный перевод представляет собой один из важнейших

видов перевода по характеру переводимого текста. Художественно-

эстетическая функция (Никитина, 2008), являющаяся ключевой для

художественного текста, делает перевод произведений такого рода одним из

самых сложных типов перевода.

Основной целью произведений художественной литературы является

формирование у читателей определенного образа, а также эстетическое

влиянии творчества на внутренний мир людей. Художественный перевод —

это «вид речевой деятельности, основная задача которого заключается в

порождении на языке перевода речевого произведения, способного оказать

художественно—эстетическое воздействие на рецептора перевода»

(Комиссаров, 1990: 95).

Л.С. Бархударов отмечает, что для художественной литературы,

особенно для лирической поэзии, прагматические значения (а не

референциальные), которые выражаются в различных художественных

9

Page 10: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

текстах, являются наиболее важными. Есть мнение, что при переводе

художественных текстов переводчик зачастую вынужден жертвовать

передачей референциальных значений для того, чтобы передать

информацию, которая заключается в выражаемых прагматических

(эмоциональных и пр.) значениях, которые являются гораздо более

существенными для текстов данного типа (Бархударов, 1975: 43).

Таким образом, задача и ключевые особенности художественного

перевода объясняют одну из характерных черт перевода такого вида: для

данного перевода типичен фокус на передаче художественности перевода, в

то время как точностью иногда можно жертвовать для лучшей передачи

художественного образа. На эту черту обращают внимание какие ученые,

которые исследовали художественный перевод, как Р.Г. Джваршейшвили,

К.И. Чуковский, А. Попович. Так, например, Р.Г. Джваршейшвили

утверждала, что «полноценный художественный перевод подразумевает

определенную неточность» (Джваршейшвили, 1984: 2).

Перечисленное выше объясняет творческий характер перевода

художественных произведений. К.И. Чуковский подчеркивал, что хороший

переводчик — это скорее творец и художник, чем ремесленник. (Чуковский,

1968: 9). Однако при этом многие исследователи отмечали вторичность

перевода как типа искусства. Искусство переводчика не может

отождествляться с искусством художника или поэта, его скорее часто

сравнивают с искусством актерским: обращается внимание на то, что актер

воссоздает художественный образ, при этом интерпретируя его по—своему,

в то время как поэт, например, создает произведение искусства с нуля.

Такого мнения, к примеру, придерживался В.С. Виноградов (Виноградов,

1978: 11) и Е.Г. Эткинд, который отмечал, что «перевод — искусство

вторичное, репродуктивное» и утверждал, что переводчик должен

воспроизводить не собственные мысли и чувства по поводу фактов, «его

задача — средствами другого языка пересоздать произведение, уже

созданное до него, уже существующее как художественная целостность, как 10

Page 11: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

однажды возникшее единство смыслового содержания и словесной формы»

(Эткинд, 1970: 16).

Нужно отметить, что в связи с перечисленным при переводе

художественных текстов часто может возникать проблема такого рода: в

попытке передать художественные образы и сделать перевод не

механической работой, а произведением словесного творчества, переводчики

могут произвольно или непроизвольного заглушать «голос автора», придавая

произведению свой собственный авторский стиль, а не стиль создателя

произведения. К.И. Чуковский утверждал, что такое недопустимо: «в одной

строке попритушат какой-нибудь жгучий эпитет, в другой уничтожат

пульсацию ритма, в третьей вытравят какую-нибудь теплую краску, — и вот

от подлинника ничего не осталось: весь он, с начала до конца, стал иным,

словно его создал другой человек, не имеющий ничего общего с автором»

(Чуковский, 1968: 30).

Таким образом, для создания качественного перевода художественного

текста, переводчику необходимо каждый раз искать грань и пытаться

одинаково точно передать содержание и манеру повествования, при этом не

забывая о передаче авторского стиля и не наделяя произведение чертами,

присущими авторскому стилю переводчика. Важно также не забывать о

художественной ценности произведения и эффекте, которое оно должно

производить на читателя.

1.3. Ручной и автоматический перевод

Когда речь идет о переводе, важно не только, как выполнена передача

смысла на другой язык, но и то, кто (или что) выполняет перевод.

Существует множество классификаций видов перевода, и одна из важнейших

— это классификация по критерию участия человека в переводческой

деятельности. Согласно данному критерию, можно выделить

профессиональный (или ручной) перевод и машинный (автоматический)

11

Page 12: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

перевод.

Машинный перевод появился и начал стремительно развиваться после

Второй мировой войны (Беляева, Откупщикова, 1996: 365, Митренина, 2016:

156, Holmes, 2000: 173). Необходимость в постоянной коммуникации и

взаимодействии носителей разных языков, а также увеличение темпа жизни

объясняет необходимость машинного перевода, как наименее затратного и

наиболее быстрого. Стремительное развитие технологий позволяет

совершенствовать способы и методы машинного перевода.

На данный момент можно выделить три основных подхода к

машинному переводу:

1) перевод на основе правил (rule-based machine translation), в основе

которого лежит попытка автоматизировано повторить те действия, которые

выполняет профессиональный переводчик при ручном переводе,

2) статистический машинный перевод (statistical machine translation), в

котором, в отличии от первого, не прибегают к использованию различных

словарей и грамматик, но работает на основе методов машинного обучения

(Koehn, 2010). Особую популярность в последние несколько лет получил

перевод на базе нейронных сетей. Его можно отнести к статистическому

переводу, хотя у него есть ключевые отличия от классических

статистических систем, использующих статистику сочетаний (Wołk, Marasek,

2015). Как и классический статистический перевод, нейронный перевод

предполагает наличие параллельных корпусов для обучения, хотя для

тренировки такой системы и требуются гораздо более существенные

вычислительные мощности,

3) гибридный перевод (hybrid machine translation), сочетающий в себе

особенности машинного перевода и перевода, основанного на правилах.

Именно гибридный перевод является одним из самых современных и

наиболее популярных видов перевода. (Митренина, 2016: 159).

Стоит отметить, что, хотя формально машинный перевод может

использоваться в любой области знаний и коммуникации, наиболее часто с 12

Page 13: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

помощью автоматизированных систем переводятся тексты, содержащие

научно-техническую информацию. Также машинный перевод часто

применяется при работе с простыми документами, имеющими четкую

структуру, несложными текстами на форумах, в социальных сетях,

различных мессенджерах, при переводе отдельных слов и коротких

предложений и т.д. Еще на этапе раннего развития машинного перевода

«спрос на машинный перевод художественных текстов практически

отсутствовал» (Баранов, 2001: 92). Однако А.Н. Баранов утверждает, что «в

службах научно—технической информации различных ведомств и

организаций использование систем МП показало высокую эффективность».

Возможно, так произошло потому, что «требования к качеству перевода

оказались довольно низкими» в данной сфере. При применении МП в сфере,

где требования к переводу высоки, например, в крупных международных

организациях, в которых используются документы на различных языках,

необходим этап постредактирования.

Исходя из вышеперечисленного, можно отметить, что системы

машинного перевода могут быть успешно применены в «тех областях, где

либо не требуется абсолютная точность перевода, либо существуют

существенные ограничения на использование структур естественного языка,

где входной язык нормирован и упрощен» (Баранов, 2001: 93).

1.4. Оценка качества перевода

Оценка качества перевода, будь то перевод, выполненный

профессионалом, или машинный перевод — это важная часть

переводческого процесса. Стремление разработать универсальные критерии

во избежание разногласий при оценивании естественно: перевод применяется

во многих сферах жизни, и любому профессионалу хотелось бы избегать

объективных оценок.

Однако решение данной задачи и выделение общих критериев оценки 13

Page 14: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

крайне трудны. Мы знаем, что не существует единственного верного

перевода, и одно и то же предложение или даже слово может быть

переведено несколькими способами, причем несколько (а не один) из этих

способов могут оказаться верными, ведь выбор варианта чаще всего зависит

от контекста (Швейцер, 1963). Также возможна ситуация, когда перевод

может быть верным с точки зрения грамматики, но при этом не передавать

основного смысла, и наоборот.

Заметим, что единого решения данной проблемы на настоящий момент

не существует. Более того, единого мнения о возможности разрешения

данного вопроса также нет. Можно сказать, что большинство исследователей

склоняются к точке зрения, которая заключается в том, что критерии оценки

должны соотносится и зависеть от коммуникативной направленности, стиля

и функций текста.

Существует несколько подходов к оценке качества перевода,

рассмотрим основные из них:

1.5. Экспертная и ручная оценка перевода

1.5.1. Понятия адекватность перевода и эквивалентность оригиналу

В целом экспертная оценка может применяться как к ручному, так и к

машинному переводу. Если говорить об экспертной оценке

профессионального перевода, то стоит упомянуть, что при сравнении

переводных текстов с оригинальными большинство исследователей

рассматривают такие понятия как адекватность перевода и, как уже

упоминалось выше, эквивалентность оригиналу (Бархударов, 1975;

Комиссаров, 1990; Латышев, 1988; Казакова, 2001 и др.).

Несмотря на то, что многие исследователи выделяют и другие

критерии, например, семантическая согласованность, терминологическое

постоянство, идиолектическое качество перевода (Troiano et al., 2002),

представляется возможным утверждать, что данные критерии так или иначе

14

Page 15: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

входят в критерии адекватности и эквивалентности.

Нужно отметить, что у исследователей данного вопроса единого

мнения по поводу понятий «адекватность» и «эквивалентность» до сих пор

не было выработано. Часто граница между этими понятиями остается

неопределенной и размытой, и иногда понятия могут быть взаимозаменяемы

(например, Дж. Кэтфорд (Кэтфорд, 1978).

В данной работе мы будет придерживаться точки зрения

В.Н. Комиссарова, который, как и многие другие исследователи (например,

Т.А. Казакова), разграничивает данные понятия. В.Н. Комиссаров называет

адекватным такой перевод, который «обеспечивает прагматические задачи

переводческого акта на максимально возможном для достижения этой цели

уровне эквивалентности, не допуская нарушения норм или узуса ПЯ, соблюдая

жанрово—стилистические требования к текстам данного типа и соответствуя

общественно—признанной конвенциональной норме перевода» (Комиссаров,

1990: 233). Эквивалентным же переводом считается «перевод, воспроизво-

дящий содержание иноязычного оригинала на одном из уровней

эквивалентности» (Комиссаров, 1990: 234). Теорию уровней эквивалентности

В.Н. Комиссарова можно считать одной из наиболее распространенных на

сегодняшний момент. В соответствии с ней предлагается различать пять

уровней (типов) эквивалентности в зависимости о того, какую часть

содержания переводчик передает для обеспечения эквивалентности перевода.

На любом из пяти уровней эквивалентности перевод может обеспечивать

межъязыковую коммуникацию.

В своих исследованиях В.Н. Комиссаров утверждает, что нужно

различать потенциально достижимую эквивалентность, т.е. максимальную

общность содержания двух текстов на разных языках, допустимую

различиями языков, и переводческую эквивалентность — «реальную

смысловую близость текстов оригинала и перевода, достигаемую

переводчиком в процессе перевода» (Комиссаров, 1990: 51). В.Н. Комиссаров

отмечает, что пределом переводческой эквивалентности можно считать 15

Page 16: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

максимально возможную степень сохранения содержания оригинального

текста при переводе, однако в любых переводах смысловая близость к

оригиналу приближается к максимальной в разных степенях и достигается

различными способами.

Как можно заметить, экспертная оценка профессионального перевода

является довольно субъективной. Конкретный текст и задача перевода во

многом определяют критерии и, как следствие, результат экспертной оценки.

1.5.2. Экспертная оценка машинного перевода

Параметры, по которым эксперты производят оценку машинного

перевода, а также используемые методы также, как и в случае с экспертной

оценкой профессионального перевода, варьируются в зависимости от

проекта.

Например, в качестве ключевых параметров могут выступать полнота

(adequacy), которая оценивает точность перевода, и гладкость (fluency),

отвечающая за правильность перевода (Митренина, 2016: 185). Перед

экспертами стоит задача оценить каждый перевод по заранее определенной

шкале, рассмотрев каждый из параметров.

Другим способом оценки может быть выбор лучшего из предложенных

вариантов перевода или ранжирование всех представленных вариантов.

Эксперт также может оценивать перевод с точки зрения потраченных на

перевод времени и сил, т.е. оценивать перевод по затраченным переводчиком

—редактором ресурсам на исправление и доработку машинного перевода

(Митренина, 2016: 185).

Экспертная оценка машинного перевода требуется по многим

причинам. Так, например, не всегда понятно, что именно дает значение той

или иной метрики. Скажем, бал NIST 0, 15 для конкретного предложения —

это достаточный показатель того, что перевод можно считать качественным,

или все же нет? Кроме того, существующие методы оценки могут быть

необъективными, и тогда экспертная оценка помогает заметить недочеты в 16

Page 17: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

системе машинного перевода. Также такая оценка переводов, выполненных

автоматически, помогает в создании будущих экспертных эталонов.

Первыми методиками экспертной оценки принято считать методики

комитета ALPAC и APRA. Рассмотрим их подробнее.

Консультативный комитет по автоматической обработке языков

(ALPAC — Automatic Language Processing Advisory Committee) был создан в

апреле 1964 г. для оценки прогресса в компьютерной лингвистике вообще и

машинного перевода в частности. Пожалуй, самой известной работой

комитета является отчет, опубликованные в 1966 году. В нем

подчеркиваются недостатки проведенных исследований в области

машинного перевода, обращается внимание на необходимость

фундаментальных исследований в области компьютерной лингвистики.

Кроме того, в нем рекомендовалось прекратить государственное

финансирование данной области исследований. В качестве основной

причины указывались неудовлетворительные результаты, которые были

получены за 10 лет исследований. (ALPAC Report, 1966).

Рассматривая экспертную оценку переводов, комиссия придерживалась

следующей методики: в АLPAC сравнивали машинный перевод текста с

русского на английский с эталонным человеческим переводом. При этом

использовались следующие показатели: intelligibility (условная понятность,

которую оценивали по шкале от 1 до 9) и fidelity/accuracy (точность перевода,

которую можно было оценить от 0 до 9) (ALPAC Report, 1966: 67).

Оценка 1 по шкале intelligibility давалась предложению в том случае,

если предложение было непонятным, и даже обращение к контексту не

помогало определить, о чем идет речь. Оценка 9 же ставилась тогда, когда

предложение было полностью ясным, не содержало стилистических ошибок

и воспринималось как обычный текст.

Точность, в отличии от понятности, измеряли косвенно: нужно было

постараться вынести как можно больше информации из предложения, а затем

оценить информативность (informativeness) первоначального предложения, 17

Page 18: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

сравнив его с переводом. Таким образом, «высокоинформативный» рейтинг

первоначального предложения относительно предложения—перевода,

означает, что перевод неточный. Получается, что в случае с intelligibility

оценивались переводные предложения, а по fidelity оценивали оригинальные

предложения. Можно догадаться, что предложение, оцененное в 9 баллов по

информативности, является чрезвычайно информативным. Кроме того,

оценка 9 всегда присваивалась, когда оригинал полностью менял значение,

передаваемое переводом.

Интересно, что предложениям, которые не несли в себе никакую новую

информацию, в них не появлялись добавочные значения и смыслы,

оценивались 1 баллом, а не 0. Высшая оценка — 0 баллов — ставилась тогда,

когда оригинал содержал меньше информации, чем перевод. Как это

возможно? Так происходило в тех случаях, когда переводчик добавлял

определенные значения, очевидно, чтобы сделать прохождение более

понятным (ALPAC Report, 1966: 70).

В ходе своей работы эксперты из ALPAC пришли к нескольким

выводам. Во-первых, говоря об экспертной оценке, нужно принимать во

внимание, что усредненные показатели понятности и правильности оказались

сильно взаимосвязанными. Во-вторых, ALPAC стало ясно, что минимальное

количество экспертов должно составлять 4 человека. И, в-третьих, эксперты

должны знать предметную область и язык оригинала для того, чтобы

успешно оценивать перевод (ALPAC Report, 1966: 73).

Управление перспективных исследовательских проектов Министерства

обороны США (Defense Advanced Research Projects Agency (DARPA),

первоначально известное как Агентство перспективных исследовательских

проектов (ARPA) было создано в феврале 1958 года. В 1991 в DARРA были

протестированы статистические системы, основанные на правилах, и

системы, требующие участия человека. В 1992 успешные методы были

включены в стандартную программу тестирования. К успешным были

отнесены оценка понятности, оценка качества рядом экспертов, оценка 18

Page 19: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

полноты и гладкости.

Можно прийти к выводу, что в целом экспертная оценка как

профессионального, так и машинного перевода — это трудозатратный

процесс. Для объективной оценки нужно привлекать несколько экспертов,

которые в состоянии оценить лишь ограниченное число предложений и

текстов. Кроме того, трудности могут возникнуть и с определением того, как

именно нужно оценивать переводы, какие критерии рассматривать и какие

меры выбирать. Для того, чтобы решить подобные проблемы, появилась

автоматическая оценка перевода.

1.6. Автоматическая оценка перевода

Преимущества автоматической оценки очевидны: она происходит

быстрее, чем экспертная, требует меньших затрат и может быть использована

многократно (в том числе после неких доработок).

Возможность изменять и дорабатывать систему оценки является одной

из важных особенностей автоматической оценки. Можно изменять критерии

системы и саму работу в зависимости от требований конкретного проекта.

1.6.1. Автоматическая оценка с использованием эталонного перевода

Автоматическая оценка может представлять собой сравнение

переведенного текста с эталонным переводом. Таким эталоном может

выступать перевод, полностью выполненный экспертом, или

отредактированный результат машинного перевода. Данный метод можно

назвать грубым, однако он удобен при работе с большим количеством

текстов.

При использовании эталонного перевода в системе оценки должна

использоваться определенная метрика, «то есть способ числовой оценки

различий между переводом и эталоном» (Митренина, 2016: 186). На данный

момент было разработано огромное множество различных метрик,

19

Page 20: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

используемых при оценке перевода.

В основе метрик лежат разные принципы. Так, например, существуют

методы, основанные на сравнении строк (string matching), а также различные

n–граммные модели.

Среди методов, которые основываются на сравнении строк, наиболее

известными являются метрика пословной вероятности ошибки WER, метрика

позиционно-независимой пословной вероятности ошибки PER и метрика

оценки необходимых изменений в переводе TER.

Среди n–граммных методов оценки качества можно выделить такие

метрики, как BLEU, NIST и METEOR. Они в основном основываются на

вычислении точности n–грамм при сравнении эталонного и переводного

текста.

1.6.2. Автоматическая оценка без использования эталонного перевода

Задача прогнозирования оценки качества для машинного перевода без

обращения к эталонным переводам — конечная задача систем

автоматической оценки. Отказ от использования референтных текстов сделал

бы автоматическую оценку практически бесплатной. Кроме того, создание

такого инструмента открыло бы следующие возможности на уровне

предложений:

1) Возможность определения, достаточно ли хорош перед для

публикации без постредактирования,

2) Выбор предложений, которые необходимо предоставить

профессиональному переводчику для редактирования,

3) Выбор лучшего из автоматических переводов или переводов,

полученных с помощью систем переводческой памяти,

4) Информирование пользователя о качестве перевода.

Созданием такой метрики занимаются, в частности, исследователи в

рамках семинара по статистическому машинному переводу с 2012 года 20

Page 21: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

(Bojar et al., 2013: 14). Наиболее распространенный подход — рассматривать

проблему как задачу обучения классификатора или регрессии с помощью

методов машинного с учителем (supervised machine learning).

1.7. Различные меры, оценивающие качество перевода

Существует большое количество различных мер, которые помогают в оценке

перевода. Они основываются на разных точках зрения и предположениях о

подобии отдельных сегментов сравниваемых фрагментов текста. Выбор

конкретной меры зависит от целей и специфики отдельного исследования.

В программе Asiya (http://asiya.lsi.upc.edu) для оценки переводов были

выбраны уже существующие меры, кроме того, разработчики попробовали

внедрить в инструмент и новые меры. Набор доступных мер зависит от

исходного и целевого языков (Giménez, Gonzàlez, 2014: 15).

Ниже приводится набор лексических мер, используемых в данном

инструменте, сгруппированных по типу измеряемой меры:

— расстояние Левенштейна (Edit Distance, также редакционное расстояние

или дистанция редактирования),

1. WER (Word Error Rate), (Nießen et al., 2000). В Asiya используется мера

точности WER. Она основана на расстоянии Левенштейна —

минимальном количестве вставок, удалений и замещений, которые

должны быть выполнены для преобразования автоматического

перевода в адекватный перевод.

2. PER (Position—independent Word Error Rate), (Tillmann et al., 1997).

Недостатком меры WER является то, что она не позволяет менять

порядок слов. Для того, чтобы решить эту проблему, независимый от

позиции коэффициент ошибок слов (PER) сравнивает слова в двух

предложениях, порядок слов при этом не принимается во внимание. В

программе используется — PER.

21

Page 22: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

3. TER (Translation Edit Rate), (Snover et al., 2006; Snover et al., 2009). TER

измеряет количество действий в процессе постредактирования, которое

человек должен выполнить для изменения результата работы системы

перевода, чтобы перевод точно соответствовал эталонному.

Возможные изменения включают в себя вставки, удаления и замены

отдельных слов, а также изменения последовательностей слов. Все

изменения имеют одинаковую оценку (cost). В Asiya используется

четыре варианта —TER:

1) —TER → default (С поиском синонимов и стеммингом, но без поддержки

парафраза);

2) -TERbase → base (Без стемминга, поиска синонимов и поддержки

парафраза);

3) —TERp → Со стеммингом, поиском синонимов и поддержкой парафраза

(т.е. фразовыми заменами).

4) —TERpA → TERp настроен на адекватность или полноценность перевода

(Giménez, Gonzàlez, 2014: 15).

— лексическая точность,

1. При расчете меры BLEU (Papineni et al., 2001) используются

индивидуальные показатели (баллы) BLEU для n–грамм разной длины

(n = 1 ... 4, по умолчанию 4).

2. NIST (Doddington, 2002). При расчете используются индивидуальные

показатели (баллы) NIST для n–грамм разной длины (n = 1 ... 5).

Значение NIST по умолчанию — до пентаграмм.

— лексическая полнота (lexical recall),

ROUGE (Lin, Och, 2004a). В Asiya есть восемь вариантов:

ROUGEn → для n–грамм разной длины (n = 1 ... 4);

ROUGEL → наибольшая общая подпоследовательность (LCS);

ROUGES → пропуск биграммы без максимальной длины промежутка (max—

gap—length);

ROUGESU → пропуск биграммы без максимальной длины промежутка, 22

Page 23: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

включая униграммы;

ROUGEW → взвешенная наибольшая общая подпоследовательность (WLCS)

с весовым коэффициентом w = 1,2.

— F—мера.

1. GTMe (Melamed et al., 2003b). Существуют три варианта,

соответствующие различным значениям параметра e, который

определяет более высокую оценку за более длинные совпадения (e ∈ {1, 2, 3}).

2. METEOR (Banerjee, Lavie, 2005; Denkowski, Lavie, 2010). Были

рассчитаны четыре варианта:

METEORex → только точные соответствия.

METEORst → точные соответствия и соответствия основ.

METEORsy → точные соответствия, соответствия основ и синонимические

соответствия.

METEORpa → точные соответствия, соответствия основ, синонимические

соответствия и парафразные сопоставления.

3. Ol — Лексическое совпадение (Lexical overlap). Лексические элементы,

связанные с предлагаемым вариантом перевода и эталонным

переводом, рассматриваются как два отдельных набора элементов.

Совпадение (оverlap) вычисляется как число элементов множества

пересечения, разделенная на число элементов множества их

объединения. (Giménez, Gonzàlez, 2014: 15-16)

Как было сказано выше, набор используемых мер зависит от языков

оригинального и переводного текстов. Для пары русский язык — английский

язык доступны следующие меры: BLEU, GTM–3, NIST, -WER, -PER, Ol,

— TERbase, METEOR-ex, ROUGE-L. Рассмотрим некоторые из них

подробнее.

Первая метрика, доступная для пары русский — английский в Asiya — это

BLEU (Bilingual Evaluation Understudy). Заметим также, что данная метрика

является одной из самых популярных и доступных на данный момент. 23

Page 24: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Рассчитать значения BLEU возможно также с помощью таких инструментов,

как MT-ComparEval, Interactive BLEU score evaluator и многих других.

Главная идея, на основе которой была разработана данная метрика

заключается в следующем: чем ближе машинный перевод (МП) к переводу,

выполненному профессиональным переводчиком, тем лучше. Для того,

чтобы измерить качество машинного перевода, измеряется степень близости

МП к одному или нескольким переводам, выполненным человеком, при

помощи числовой метрики. Таким образом, в такой системе оценки МП

должны быть два компонента: 1) числовая метрика, по которой

рассчитывается близость переводов и 2) примеры (корпус) переводов

хорошего качества, выполненных переводчиками (Papineni et al., 2001: 311).

Суть метрики BLEU Score заключается в сравнении n–грамм из

перевода—кандидата с эталонным переводом, также производится подсчет

совпадений. Чем больше число совпадений, тем лучше качество перевода—

кандидата. При расчете метрики BLEU имеет значение количество переводов

—эталонов: чем больше число эталонов, тем более точным получается

показатель качества перевода.

Можно утверждать, что у метрики BLEU есть две составляющие.

Первая — это точность или precision. Для того, чтобы вычислить точность,

подсчитывается количество тех слов (униграмм) из перевода—кандидата,

которые встречаются в любом из переводов—эталонов. К сожалению,

системы машинного перевода могут в некоторых случаях генерировать

слишком большое количество «нужных» слов (результатом чего, например,

может служить появление в переводе повторяющего артикля «the the the»),

что, в свою очередь, может привести к слишком высоким показателям

точности. Для того, чтобы избежать данной проблемы, подсчитывается

максимальное число слов из перевода—кандидата, которые есть в одном из

эталонных переводов. Затем общее число слов каждого перевода—кандидата

сводится к максимальному числу таких же (совпавших) слов в переводе—

эталоне и делится на общее (неограниченное) число слов в переводе—24

Page 25: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

кандидате (Papineni et al., 2001: 312). Нужно отменить, что такой подсчет

происходит не только для униграмм, но для n–грамм. Такой расчет точности

дает представление о двух аспектах перевода: адекватность (adequacy) и

беглость (fluency). Перевод с использованием одинаковых слов (униграмм),

что и в эталонном переводе, имеет тенденцию соответствовать адекватному

переводу. Более длинные совпадения n–грамм говорят о беглости перевода

(Papineni et al., 2001: 313).

В результате вычислений для подсчета точности перемножается

точность всех n–грамм и из произведения извлекается корень четвертой

степени, так получается среднее геометрическое.

Вторая составляющая метрики BLEU — это штраф за длину перевода

или Brevity Penalty. Вычисление данного штрафа (BP) происходит

следующим образом: ВР равно 1, если длина перевода—кандидата больше

длины перевода-эталона. ВР меньше 1, если длина перевода—кандидата

равна или меньше длины перевода-эталона (Papineni et al., 2001: 315).

Нужно отметить, что особенностью метрики BLEU является то, что она

основывается на точном совпадении форм слов. Можно утверждать, что

применение данной метрики целесообразно для английского языка, где

формы могут совпадать во многих случаях, однако не так удобно для

русского языка. Кроме того, важно и то, что в BLEU не учитывается

синтаксис и порядок слов (но определяются более длинные совпадающие n–

граммы).

Необходимо также обратить внимание и на то, что при использовании

метрики BLEU желательно наличие нескольких эталонных вариантов

перевода, что в некоторых случаях может быть недостатком использования

метрики. Еще одним недостатком может быть тот факт, что n–граммы разной

длины в BLEU имеют одинаковый вес (Papineni et al., 2001).

Следующая метрика, доступная для пары русский — английский языки в

Asiya — это GTM–3 (General Text Matcher).

GTM измеряет сходство между текстами. Авторы утверждают, что, хотя 25

Page 26: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

метрики BLEU и NIST могут быть полезны для сравнения относительного

качества различных результатов машинного перевода, получить

представление о том, как эти меры работают, довольно трудно. Что именно,

например, может означать значение BLEU 0,016? (Melamed, 2003b: 1).

В GTM перевод оценивается с точки зрения стандартных мер точности

(precision) и полноты (recall), а также их составной F—меры. Эти меры

имеют интуитивную графическую интерпретацию, которая может облегчить

понимание того, как можно улучшить системы машинного перевода.

Точность и полнота широко используются при оценке систем обработки

естественного языка. При сравнении набора элементов—кандидатов Y с

набором эталонных элементов X:

Precision (Y|X )=¿ X ∩Y ∨ ¿¿Y ∨¿ ,¿

¿ Recall(Y ∨X )=¿ X ∩Y ∨ ¿¿ X∨¿ .¿

¿

Основная задача при принятии этих известных мер для оценки систем

машинного перевода заключается в нахождении подходящего определения

для пересечения (∩) пары текстов. Пересечение двух предметов — это то,

что у них общего. Предположим, что у нас есть условная таблица, в которой

эталонный текст расположен по оси X и гипотетический текст кандидата по

оси Y. Оси X и образуют таблицу, в которой можно наглядно отметить

пересечение совпадающих слов или, по—другому, слов, которые

присутствуют и в эталонном тексте, и в переводе—кандидате (например,

обозначив ячейки на пересечении отдельным цветом). Пересечение будет

рассчитываться следующим образом: мы вводим понятие «максимального

соответствия» (maximum matching). «Соответствием» (matching) будет

считаться такое подмножество ячеек в таблице, которые координируют два

совпадающих слова (по осям X и Y, т.е. слова, которые присутствуют и в

эталонном тексте, и в переводе—кандидате), при этом никакие два

совпадения не находятся в одной строке или столбце. Размер соответствия

(match size) будет равен количеству совпадающих ячеек. Максимальное

соответствие (maximum matching) является соответствием максимально

26

Page 27: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

возможного размера для конкретного текста с переводом. Максимальный

размер соответствия (maximum match size, MMS) — это размер любого

максимального соответствия. Мы можем разделить MMS на длину текста—

кандидата (C) или длину эталонного текста (R) для получения точности или

полноты соответственно (Melamed, 2003b: 2).

Расчеты, основанные на подсчете совпадений униграмм, могут быть

расширены таким образом, чтобы придавать тексту—кандидату больший вес

за последовательности совпадающих слов в правильном порядке.

Последовательности (runs) совпадающих слов появляются в таблице как

диагонально смежные ячейки, проходящие параллельно главной диагонали.

BLEU и NIST придают больший вес за правильный порядок слов путем

двойного подсчета всех под—последовательностей (sub—runs). В GTM

предлагается сделать это, обобщая определение размера соответствия

следующим образом (где M — matching, т.е. соответствие, size(M) — размер

соответствия, r — run, т.е. последовательность совпавших элементов, length

(r) — длина последовательности):

¿ M ¿=√∑rϵMlength(r )2

Выделив в условной таблице каждую последовательность элементов, а

также отметив вокруг минимальный квадрат окружения, можно получить

представление о гармоническом среднем показателей точности и полноты, F

—мере. Она имеет интуитивную визуальную интерпретацию: в условной

таблице данная мера представляет собой (корень из) ту часть таблицы,

которая заполнена.

Используя для расчета формулу 1, мы придаем больший вес наиболее

длинным соответствиям. Отрегулировать вес возможно, введя в приведенную

выше формулу произвольные показатели (Melamed, 2003b: 3):

¿ M ¿= e√∑rϵMlength(r )e

Третья метрика, доступная для пары русский — английский языки —

NIST.

27

Page 28: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Нужно отметить, что NIST — это метрика, аналогичная BLEU. Можно

утверждать и то, что данная метрика не только во многом похожа на BLEU,

но и основывается на ней (Lin, Och, 2004b: 1).

Основные отличия NIST от BLEU заключаются в следующем: во-

первых, в NIST учитываются n–граммы от 1 до 5, в то время как в BLEU

учитываются n–граммы до 4.

Во-вторых, в то время как в BLEU используется среднее

геометрическое, в NIST учитывается среднее арифметическое.

И, в-третьих, в NIST коэффициент brevity penalty, т.е. штраф за длину

перевода рассчитывается несколько другим способом. Изменение данного

расчета было сделано для сведения к минимуму влияния небольших

вариаций длины перевода на оценку. Это соответствует первоначальной цели

введения штрафа за длину

перевода и одновременно

уменьшает влияние вариаций

длины для небольших

вариаций. На рисунке 1 приведено сравнение двух коэффициентов штрафов

(Doddington, 2002: 141).

Рисунок 1. Сравнение коэффициентов штрафов метрик BLEU и NIST.

Следующая мера, WER (Word Error Rate) — это рассчитанное

нормализованное расстояние между кандидатом и несколькими эталонными

переводами. Это редакционное расстояние или дистанция редактирования

d (t; r) (количество вставок, удалений и замещений) между полученным

28

Page 29: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

переводом t и эталонным переводом r. Расстояние редактирования легко

вычисляется автоматически, и, как следствие, вычисление его не требует

больших затрат и легко воспроизводится, поскольку базовые данные и

алгоритм всегда одни и те же (Nießen et al., 2000: 1).

PER (Position-independent Word Error Rate), как и WER, рассчитывается

при помощи подсчета общего количества слов, возможных вставок и

удалений. Однако слабой стороной WER является тот факт, что порядок слов

не учитывается должным образом (Tillmann et al., 1997: 6). Чтобы решить

данную проблему, в качестве новой меры была введена независимый от

позиции коэффициент ошибок слов PER. При его расчете порядок слов не

принимается во внимание, и учитывается только количество раз, когда

одинаковые слова встречаются в обоих предложениях. Слова, которые не

совпадают, считаются заменами. В зависимости от того, является ли

переведенное предложение длиннее или короче эталонного перевода,

остальные слова считаются либо вставками, либо удалениями. PER

гарантированно меньше или равно WER. По общему признанию, эти два

критерия не являются совершенными мерами, но они могут быть

автоматически вычислены и просты в использовании (Tillmann et al., 1997: 7).

Еще одна мера, доступная для языковой пары русский—английский

языки — это TER (Translation Edit Rate). TER учитывает количество

исправлений, необходимых для изменения результата, чтобы он

семантически соответствовал правильному(эталонному) переводу.

Эта мера позволяет уменьшить расходы, уходя от трудоемких и долгих

экспертных оценок. При этом исследователи стремились добиться более

высоких корреляций с существующими экспертными оценками, назначая

более низкие оценки за фазовые сдвиги сочетаний (phrasal shifts) по

сравнению с теми, которые назначают подходы, основанные на n–граммах,

такие как BLEU (Snover et al., 2006: 1).

TER определяется как минимальное количество исправлений,

необходимых для изменения перевода, чтобы он точно соответствовал 29

Page 30: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

одному из эталонных переводов, нормированных по средней длине

эталонных переводов. Поскольку рассчитывается минимальное количество

исправлений, необходимых для изменения перевода, мы измеряем только

количество редактирований до ближайшего эталонного перевода.

Возможные изменения включают в себя вставку, удаление и замену

отдельных слов, а также сдвиги последовательностей слов. Сдвиг

представляет собой перемещение смежной последовательности слов внутри

перевода в другое место в пределах перевода. Все изменения, включая

сдвиги любого количества слов на любое расстояние, имеют одинаковую

«стоимость». Кроме того, знаки пунктуации рассматриваются как обычные

слова, а неверное использование регистра считается изменением (Snover et

al., 2006: 3).

TER может сравнить с WER: если WER обычно рассматривается как

неадекватная оценка машинного перевода, поскольку она не может

совместить знания из нескольких эталонных переводов, а также не

моделирует изменение порядка слов и фраз в переводе, то TER пытается

решить именно эти проблемы. ТER позволяет перемещение слов и фраз в

пределах перевода (Snover et al., 2009: 2). В TER используется жадный

алгоритм (greedy search) для поиска и выбора слов, которые нужно

переместить, а также дополнительные ограничения на слова, которые будут

сдвинуты. Эти ограничения предназначены для имитации такого процесса,

когда редактор может выбрать слова и перемещать их. Когда TER

используется с несколькими эталонными переводами, она не объединяет

данные переводы, но вместо этого оценивает перевод по сравнению с

каждым эталонным переводом отдельно (Snover et al., 2009: 3).

Следующая метрика — METEOR. Это автоматическая метрика для

оценки машинного перевода, основанная на обобщенной концепции

согласования униграмм с машинным переводом и эталонным переводом,

созданным профессиональным переводчиком. Униграммы могут быть

сопоставлены на основе их полных форм, форм, которые претерпели 30

Page 31: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

процедуру стемминга, и значений. Кроме того, METEOR можно расширить,

включив в него более сложные стратегии сопоставления.

Как только найдены все обобщенные совпадения между двумя

переводами, METEOR вычисляет оценку для этого сопоставления, используя

комбинацию оценки точности и полноты униграмм и меры фрагментации

(measure of fragmentation), которая предназначена для непосредственного

подсчета того, насколько правильно упорядоченные совпадающие слова в

машинных переводах соотносятся со словами в эталонном переводе

(Banerjee, Lavie, 2005: 1).

Создатели утверждают, что METEOR была разработана для устранения

нескольких недостатков, наблюдаемых в метрике BLEU. Нужно отметить,

что METEOR отмечает совпадение не только идентичных слов, но и слов,

которые являются простыми морфологическими вариантами друг друга (т. е.

имеют идентичный корень) и слов, которые являются синонимами (Banerjee,

Lavie, 2005: 2).

В процессе развития метрики METEOR появилась METEOR–NEXT,

которая оценивает машинный перевод относительно эталонного перевода

путем вычисления оценки сходства на основе выравнивания между двумя

переводами. Когда предоставляется несколько эталонных переводов,

полученный перевод оценивается относительно каждого и используется

эталонный перевод, дающий наивысший балл.

Для одной пары перевод-эталонный перевод пространство возможного

выравнивания строится путем определения всех возможных совпадений слов

и фраз между строками в соответствии с несколькими возможными

сопоставлениями. При сравнении языковой пары русский—английский

языки в Asiya используется сопоставление «еxact»: слова сопоставляются

тогда и только тогда, когда их полные формы идентичны (Denkowski, Lavie,

2010: 1).

Еще одна мера для пары русский—английский, которую стоит

рассмотреть более подробно, — это ROUGE-L (Recall-Oriented Understudy for 31

Page 32: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Gisting Evaluation).

Метод оценки ROUGE–L измеряет схожесть предложений на основе

метода «наибольшей совпадающей подпоследовательности» (Longest

Common Subsequence), сравнивая перевод—кандидат и набор эталонных

переводов.

В данном методе внимание уделяется не совпадению подряд идущих

слов двух предложений, а самой длинной подпоследовательности этих

предложении, то есть совпадению слов с возможными пропусками.

LCS (Longest Common Subsequence) представляет собой длину

наибольшей подпоследовательности между двумя предложениями X и Y.

Элементами последовательностей являются лексемы. При вычислении

ROUGE–L для перевода-кандидата

реферата, содержащего v предложений

(всего n слов) и эталонного перевода,

содержащего u предложений (всего m слов),

производится вычисление объединенной LCS между каждым предложением

эталонного перевода ri и всеми предложениями перевода-кандидата cj (Lin,

Och, 2004a: 3). В приведенной выше формуле LCS∪(ri,C) — это длина

наибольшей подпоследовательности между предложением эталонного

перевода ri и всеми предложениями перевода-кандидата C.

После того, как значения каждой метрики получены, нужно

проанализировать результаты. Какие значения позволяют говорить о том, что

рассматриваемый перевод выполнен качественно и может быть использован

в дальнейшем? Какие значения могут служить сигналом к тому, что переводу

еще требуется корректировка? В большинстве метрик используются

значения от 0 до 1. Так, например, происходит при расчете метрики BLEU.

Немногие переводы получают оценку 1, если только они не полностью

идентичны. По этой причине даже профессиональный переводчик не

обязательно получает 1. Оценка может расти по мере увеличения количества

эталонных переводов (Papineni et al., 2001: 315). Значение выше 30% (0.3 по 32

Page 33: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

шкале от 0 до 1) в большинстве случаев свидетельствует о понятности

перевода, а значения выше 50% (0.5) обычно получают хорошие и гладкие

переводы.

33

Page 34: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Выводы к главе 1

В первой главе работы были рассмотрены основные теоретические

вопросы, связанные с ручным и автоматическим переводом. Отдельное

внимание было уделено проблеме оценки переводов и основным метрики

автоматической оценки. В результате можно сделать следующие выводы:

1. Перевод — сложный и многогранный процесс, важность которого

нельзя недооценивать в современном обществе. При изучении переводов

особую проблему представляет переводимость текстов и, соответственно,

эквивалентность полученного перевода.

2. Среди нескольких функциональных видов перевода художественный

перевод занимает особое место и представляет собой один из самых важных

видов перевода по характеру переводимого текста. Задача и главные

особенности художественного перевода обуславливают следующую

особенность такого вида перевода: в художественном переводе преобладает

фокус на передаче художественного компонента, а точность уходит на

второй план. Из-за творческого характера перевода возникает опасность

заглушить авторских голос и не передать манеру повествования.

3. По критерию участия человека в переводческой деятельности можно

выделить профессиональный (ручной) перевод и машинный. Машинный в

свою очередь возможно разделить на три вида: перевод на основе правил,

статистический машинный перевод, гибридный перевод. Оценка качества

перевода, вне зависимости от того, является ли данный перевод

профессиональным или машинным — это важная часть переводческого

процесса. Среди существующих подходов к оценке качества перевода можно

выделить следующие: экспертная или ручная оценка и автоматическая

оценка переводов.

4. Очевидны преимущества автоматической оценки переводов: она

быстрее, чем экспертная, не требует таких временных и денежных затрат, и,

кроме того, может быть произведена многократно. Это, в свою очередь,

34

Page 35: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

обеспечивает возможность постоянного развития и доработки

существующих автоматических систем. Среди существующих

автоматических систем можно выделить системы, использующие эталонный

перевод, и системы, которые производят оценку без использования

эталонного перевода.

5. Среди мер, которые используют эталонный перевод для сравнения,

можно отметить следующие (сгруппированы по типу измеряемой меры):

WER, PER, TER (расстояние Левенштейна), BLEU, NIST (лексическая

точность), ROUGE (лексическая полнота), GTM, METEOR, Ol (F-мера). Чаще

всего оценка перевода по одной их этих метрик принимает значение от 0 до

1, где 1 получают полностью совпадающие тексты, что, очевидно,

происходит нечасто. Значения выше 0.3 по шкале от 0 до 1 (30%) могут

свидетельствовать о понятности перевода, а значения выше 0.5 (50%)

получают качественные и гладкие переводы.

35

Page 36: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Глава 2. Эксперимент по оценке метрик с помощью художественных переводов

2.1. Общий обзор эксперимента

В рамках работы мы провели эксперимент по оценке метрик с

помощью художественных переводов. В качестве эталона для метрик были

использованы профессиональные переводы, с помощью которых

оценивались другие переводы, выполненные профессиональными

переводчиками. После чего были проанализированы оценки для всех

предложений по различным метрикам с учетом стилистических особенностей

оригинального текста и вариантов перевода. Были подробно рассмотрены

элементы, получившие наиболее высокие и наиболее низкие оценки, на их

основе были выдвинуты предложения по улучшению результатов работы

метрик.

Материалом исследования стали 3900 значений оценки. Они были

получены при использовании различных метрик для анализа следующих пар

переводов:

— 50 предложений на русском языке из поэмы «Мертвые души» и

переводов на английский каждого из них, выполненных тремя

переводчиками (150 английских переводческих соответствий);

— 50 предложений на испанском языке из романа «Дон Кихот» и

переводов на русский каждого из них, выполненных двумя переводчиками

(100 русских переводческих соответствий);

—50 предложений на испанском языке из романа «Дон Кихот» и

переводов на английский каждого из них, выполненных двумя

переводчиками (100 английских переводческих соответствий).

Было произведено автоматическое выравнивание фрагментов перевода

с ручной корректировкой.

36

Page 37: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Для получения сегментов переводов поэмы «Мертвые души» мы

использовали инструмент Asiya, для английских и русских переводов романа

«Дон Кихот» — MT-ComparEval. При работе с русскоязычным текстом

последовательно сравнивались три английских перевода, и в результате было

получены значения 9 метрик (BLEU, GTM-3, NIST, — WER, — PER, Ol, —

TERbase, METEOR-ex, ROUGE-L) для 6 пар переводов — всего 2700

значений. Для переводов с испанского были получены значения по 6

метрикам для двух пар направлений перевода — русские переводы и

английские переводы. Всего было получены 1200 значений метрик (Brevity

Penalty, BLEU, BLEU-cased, Precision, Recall, F-Measure) для 4 наборов

сравнений переводов.

После получения значений метрик результаты были обработаны и

проанализированы.

2.2. Описание переводчиков, выбранных для эксперимента

В качестве материала в данной работе используются следующие

оригинальные произведения и их переводы:

1. Поэма Николая Васильевича Гоголя «Мертвые души» и ее

переводы на английский язык, выполненные следующими авторами:

1.1. Перевод Чарльза Джеймс Хогарта;

1.2. Перевод Изабель Флоренс Хэпгуд;

1.3. Перевод Роберта Магуайра.

2. Роман Мигеля де Сервантеса «Хитроумный идальго Дон Кихот

Ламанчский» и его переводы на английский язык:

2.1. Перевод Эдит Гроссман;

2.2. Перевод Джона Ормсби;

На русский язык:

2.3. Перевод Бориса Михайловича Энгельгардта;

2.4. Перевод Николя Михайловича Любимова. 37

Page 38: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Чарльз Джеймс Хогарт (Charles James Hogarth, 1869-1945) — известный

британский переводчик. Ч.Дж.Хогарт профессионально занимался

переводами произведений русской литературы и переводил романы

М.Горького, Ф.М.Достоевского, Л.Н.Толстого и др. Отметим, что перевод,

выполненный Ч.Дж.Хогартом в 1915 году, является самым доступным для

читателя переводом.

Читатели, знакомые с оригиналом, могут легко заметить, что

переводчик, видимо, руководствуясь определенными причинами, при работе

опустил некоторые отрывки из произведения, тем самым сократив

знаменитую поэму. Важен тот факт, что в ходе данного исследования за

основу был выбран русский текст, но для некоторых предложений не было

найдено соответствий именно из-за указанной выше особенности перевода.

Изабель Флоренс Хэпгуд (Isabel Florence Hapgood, 1850-1928) —

американская писательница и переводчик, которая работала над переводами

на английский язык произведений следующих авторов: Н.В.Гоголя,

И.А.Бунина, Л.Н.Толстого, Ф.МДостоевского, А.П.Чехова. «Мертвые души»

она перевела в 1886 году, и, таким образом, перевод И.Ф.Хэпгуд является

одним из первых переводов поэмы.

Н. Мельников в книге «Портрет без сходства. Владимир Набоков в

письмах и дневниках современников» так описывает качество работы этого

переводчика: «в своем «Николае Гоголе» Набоков неоднократно указывал на

грубые ошибки в ее переводе «Мертвых душ» (Мельников, 2015:43). Но

любопытно, что И.Ф. Хэпгуд доверял переводы сам Л.Н. Толстой. Он

отзывался положительно о многих из переводов. Например, говоря о

переводе одной из своих статей, Толстой писал: «восхищаюсь

правильностью и изяществом вашего перевода» (Лит. наследство, 1965: 410).

Роберт Магуайр (Robert A. Maguire, 1930-2005) — почетный профессор

и глава отделения в Колумбийском университете (Columbia University). Он

является автором книги «Exploring Gogol» («Открывая Гоголя», 1994), был

38

Page 39: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

редактором «Gogol from the Twentieth Century» («Гоголь из двадцатого века»,

1974). Его перевод поэмы «Мертвые души», выполненный в 2004, считается

одним из последних современных переводов.

Сам переводчик «писал, что стремился быть максимально верным

гоголевскому тексту». Исследования подтверждают, что перевод, созданный

Р.Магуайром отличается большой точностью и стилистической

достоверностью (Нестеренко 2010).

Важно отметить, что всего насчитывается около десяти переводов

данной поэмы на английский язык.

Переводы второго произведения, выбранного для работы, — романа

Мигеля де Сервантеса «Хитроумый идальго Дон Кихот Ламанчский» (далее

«Дон Кихот») — выполнены на английский язык Эдит Гроссман и Джоном

Ормсби.

Эдит Гроссман (Edith Grossman, род. 1936) — переводчик из Америки,

одна из наиболее выдающихся переводчиков латиноамериканской

литературы прошлого века. Она переводила Габриэля Гарсиа Маркеса,

Марио Варгаса Льоса, Луиса де Гонгора и др.

Роман «Дон Кихот» Эдит Гроссман перевела в 2003 году. Сама

переводчик признается, что чрезвычайно гордится этим переводом

(Шиллингер, 2016). Гарольд Блум рекомендует ее перевод и отмечает

«чрезвычайно высокое качество ее прозы» (Bloom, 2003). Карлос Фуэнтес

также отмечает ее перевод и обращает внимание на то, что хорошее качество

ее перевода очевидно с первой же переведенной строки (Fuentes, 2003).

Джон Ормсби (John Ormsby, 1829-1895) — британский переводчик,

который перевел «Дон Кихота» на английский язык в 1885 году. В

предисловии к роману Дж. Ормсби представляет краткий анализ

существовавших в то время английских переводов романа, объясняет

принятые в ходе перевода решения, приводит краткую биографию

Сервантеса. Более того, изданное в оригинальной версии 1885 года

предисловие содержит также и критику Сервантеса: Дж. Ормсби утверждает, 39

Page 40: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

что многое было написано «небрежно и торопливо» и что автор, похоже, «не

перечитывал написанное прежде чем отправить в печать» (Ormsby,

Translator's Preface 2004).

Работы Джона Ормсби и Эдит Гроссман можно отнести к числу самых

популярных переводов. Однако стоит заметить, что так как их работы

разделены почти 120 годами, аудитория, для которой переводил каждый из

авторов, отличалась, что и заставляло их принимать разные решения при

переводе одного и того же романа. Именно поэтому рассмотрение и

сравнение данных переводческих работ представляет особый интерес.

В качестве рассматриваемых переводов «Дон Кихота» на русский язык

были выбраны переводы, выполненные Борисом Михайловичем

Энгельгардтом и Николаем Михайловичем Любимовым.

Б.М. Энгельгардт (1887-1942) — российский филолог и литературовед,

переводчик. Он переводил произведения таких авторов, как Д.Свифт,

Ч.Диккенс, В.Скотт.

Главной особенностью его перевода «Дон Кихота» является тот факт,

что вариант, созданный Б.М. Энгельгардтом, предназначался для детей и

подростков. Отсюда многие исследователи считают его перевод скорее

хорошим и качественным пересказом, и именно поэтому в работе

Б.М.Энгельгардта отсутствует перевод некоторых моментов.

Н.М. Любимов (1912-1992) — российский переводчик, филолог и

писатель, редактор серии «Библиотека всемирной литературы». В списке его

трудов есть переводы Бокаччо, Рабле, Мольера, Стендаля, Флобера, Ги де

Мопассана, Пруста и большого количества других известных авторов.

Впервые перевод Любимова — самый известный и популярный на

сегодняшний день перевод — вышел в 1951. Сын Н.М. Любимова, Борис

Любимов, в одном из интервью замечает, что переводчик «говорил, что стал

заниматься испанским языком именно потому, что ему очень хотелось

перевести "Дон Кихота"». Он также подчеркивает, что существовавший

вариант перевода произведения Н.М. Любимов считал «неудачным и 40

Page 41: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

устаревшим» (Басинский 2012).

Нужно заметить, что всего существует около 10 известных переводов

«Дон Кихота».

В ходе исследования из каждого текста оригинала была создана

выборка из 50 предложений. В процессе составления выборки из поэмы

«Мертвые души» особое внимание уделялось предложениям, в которых

содержится характеристика того или иного героя. При переводе таких

предложений переводчики обращают особое внимание на точность и

качество перевода, так как авторские характеристики или характеристики,

которые даются одному из персонажей другими действующими лицами,

являются одними из самых важных средств, помогающими создать в

воображении читателя определенный художественный образ героя

(Арутюнова, 2016).

При выборе 50 предложений из романа «Дон Кихот» мы

руководствовались принципами отбора, отличными от использованных при

работе с поэмой «Мертвые души».

При работе с «Дон Кихотом» мы отказались от поиска предложений,

которые содержат какие-либо конкретные элементы (как, например,

характеристики героев). Для сравнения переводов была выбрана Глава 1 и

отрывок из Главы 2 романа «Дон Кихот».

2.3. Подготовка фрагментов перевода для сравнения

После того, как были созданы выборки для оригинальных

произведений, началось создание соответствующих выборок для переводов.

Особенности каждого из языков (русского, английского и испанского)

и перевода на/с этих языков, а также индивидуальные особенности стиля

каждого из переводчиков, послужили причиной тому, что во многих случаях

предложения оригинала и перевода не совпали. Были выявлены случаи

изменения структуры предложения, преобразований одного сложного

41

Page 42: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

оригинального предложения в несколько простых и, наоборот, объединение

нескольких оригинальных предложений в одно в переводе, а также

многочисленные опущения.

Так, например, следующее испанское предложение (пример 1)

Н. Любимов переводит, сохраняя оригинальную структуру, одним

предложением, а Б. Энгельгардт разделяет его на 5 предложений:(1) En efecto , rematado ya su juicio , vino a dar en el mas extrano pensamiento que jamas

dio loco en el mundo , y fue que le parecio convenible y necesario , asi para el aumento de su honra , como para el servicio de su republica , hacerse caballero andante , e irse por todo el mundo con sus armas y caballo a buscar las aventuras , y a ejercitarse en todo aquello que el habia leido , que los caballeros andantes se ejercitaban , deshaciendo todo genero de agravio , y poniendose en ocasiones y peligros , donde acabandolos , cobrase eterno nombre y fama . (Source)И вот , когда он уже окончательно свихнулся , в голову ему пришла такая странная мысль , какая еще не приходила ни одному безумцу на свете , а именно : он почел благоразумным и даже необходимым как для собственной славы , так и для пользы отечества сделаться странствующим рыцарем , сесть на коня и , с оружием в руках отправившись на поиски приключений , начать заниматься тем же , чем , как это ему было известно из книг , все странствующие рыцари , скитаясь по свету , обыкновенно занимались , то есть искоренять всякого рода неправду и в борении со всевозможными случайностями и опасностями стяжать себе бессмертное имя и почет . (Любимов)В конце концов от вечного сидения в четырех стенах , бессонных ночей и непрерывного чтения бедный идальго совсем рехнулся . И тут ему в голову пришла такая странная мысль , какая никогда еще не возникала ни у одного безумца в мире . Наш кабальеро решил , что он сам обязан вступить в ряды странствующих рыцарей . Ради своей собственной славы , ради пользы родной страны он , Дон Кехана , должен вооружиться , сесть на коня и отправиться по свету искать приключений , защищать обиженных , наказывать злых , восстанавливать попранную справедливость . (Энгельгардт)

Подобные несоответствия и привели к тому, что для продолжения

работы потребовался дополнительный этап обработки, предполагающий

выравнивание предложений.

Можно сказать тексты, которые были подготовлены для проведения

исследования, представляют собой небольшой по объему многоязычных

текстовый корпус. Почти обязательным первым шагом для использования

многоязычных текстовых корпусов является выравнивание (alignment). Чаще

всего при выравнивании происходит нахождение соответствий между

содержимым какой-либо группы предложений на одном языке и

42

Page 43: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

содержимым некоторой группы предложений на другом языке, где любая

группа может быть пуста, чтобы объясняется вставками и опущениями.

Конечно, выравнивание не ограничивается созданиями связей на уровне

предложений. Существует выравнивание на уровне документов, абзацев,

слов, а также некоторые другие, менее популярные типы выравниваний.

Наиболее популярными же остаются корпуса, в которых выравнивание

производится на уровне предложений (sentence alignment).

Наиболее распространенной ситуацией при выравнивании на уровне

предложений является соответствие одного предложения на определенном

языке одному же предложению в переводе. Такое выравнивание можно

представить в схематичном виде 1:1. Исследования показывают, что

выравнивания такого рода (1:1) составляют около 90%. Именно из-за

остальных 10% и возникает необходимость в выравнивании: переводчики

разбивают или объединяют предложения, что приводит к существованию

выравниваний типа 1:2 или 2:1, или даже 1:3 и 3:1 (Manning, Schütze 1999:

468).

Конечно, для такого небольшого корпуса, как использованный в

работе, выравнивание можно было произвести вручную. Однако для

больших корпусов такой метод не подходит, так как выравнивание вручную

занимает довольно долгое время. Для того, чтобы уменьшить время,

затраченное на обработку текстов, были созданы алгоритмы автоматического

выравнивания.

Существует множество разных алгоритмов автоматического

выравнивания. Один из таких алгоритмов основывается на том, что при

переводе длинных фрагментов текста используются длинные фрагменты

перевода, а при переводе коротких — короткие. Длину в этом случае

измеряют словами или символами. Другие методы используют при

выравнивании двуязычные словами. «Если слово встречается и в исходном

предложении, и в переводе, это становится дополнительным доводом в

пользу установления связи между этими предложениями». Цифры (даты и 43

Page 44: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

числа) могут также служить доводом в таких случаях (Митренина 174: 2016).

Чтобы избежать субъективного соотношения элементов в оригинале и

переводе, мы воспользовались программой для выравнивания документов

YouAlign (продукт канадской компании Terminotix, основанной в начале

2000-х годов группой профессиональных переводчиков). В результате

выравнивание YouAlign позволил получить документы и их переводы,

выравненные на уровне предложений. После этого выравнивание было

проверено вручную, исправлены имеющиеся ошибки и недочеты.

Нужно отметить, что проверка вручную требовалась всем полученным

документам, однако в разной степени. Так, например, выравнивание

перевода Эдит Гроссман не вызвало почти никаких проблем: на рисунке 2

можно увидеть результат выравнивания для последних сегментов (48-50).

Можно заметить, что структура текстов в общем совпадает, и, поэтому,

YouAlign смог автоматически выбрать верные соответствия сегментов.

44

Page 45: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Рисунок 2. Результат работы YouAlign (выравнивание испанского оригинала с английским

переводом Э. Гроссман).

Однако в случае, например, с русскими переводами, вручную

выравнивать пришлось гораздо чаще: из-за того, что переводчики часто

разделяли одно испанское предложение на несколько, выравнивание

«сбивалось», как, например вот в этом переводе Б. Любимова (см.

рисунок 3):

45

Page 46: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Рисунок 3. Результат работы YouAlign (выравнивание испанского оригинала с русским

переводом Б. Любимова).

В подобных случаях приходилось искусственно объединять несколько

предложений в один сегмент. Также, например, приходилось указывать, что

для какого-либо из оригинальных предложений перевод отсутствует путем

проставления знака — .

В результате данного этапа работы было получено 9 файлов формата

текстовый файл (text file, txt), каждый из которых содержал 50 строк. В

файлах с оригинальными предложениями каждая новая строка содержала

одно из предложений. В файлах с переводами строка содержала предложение

или отрывок предложения, соответствующий оригинальному предложению.

В случаях, когда в каком-либо переводе не находилось соответствия

оригинальному предложению, строка содержала только один символ (—).

2.4. Использованные инструменты для оценки переводов

Для сравнения полученных файлы и получения значений для каждой из

пар предложений по нескольким метрикам сравнения машинных переводов

потребовался мощный, но в то же время доступный инструмент,

позволяющий в короткие сроки получить достоверные данные. Было принято 46

Page 47: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

решение в качестве основного инструмента использовать платформу Asiya —

An Open Toolkit for Automatic Machine Translation (Meta-)Evaluation, т.е.

открытый инструмент для (мета-) оценки автоматического машинного

перевода (http://asiya.cs.upc.edu/).

Asiya был разработан в начале 2000-х в научно-исследовательском

центре TALP (Technologies and Applications of Language and Speech) NLP

group в Политехническом Университете Каталонии (Universitat Politècnica de

Catalunya) как замена своего предшественника IQMT. Разработчиками

являются Хесус Гименес (Jesús Giménez) и Льюис Маркес (Lluís Màrquez).

Платформа работает с заранее определенными наборами тестов, а,

точнее, с фиксированными наборами тестовых примеров перевода (King,

Falkedal, 1990). Набор текстов состоит из исходного сегмента, набора

переводов-кандидатов и набора сделанных переводчиками эталонных

переводов. Возможность использовать тот или иной набор текстов зависит от

его репрезентативности, которая, в свою очередь, зависит от ряда других

переменных факторов (например, языковой пары, области перевода,

количества и типа эталонных переводов, типологии системы и т. Д.). Эти

переменные факторы определяют пространство, в котором системы

машинного перевода и оценочные метрики, работающие с данным тактовым

набором, смогут быть использованы.

Платформа предлагает богатый репозиторий метрик и метаметрик.

Метрический репозиторий Asiya включает в себя последние версии самых

популярных метрик, которые используют различные языковые уровни

(лексический, синтаксический и семантический) и основываются на разных

критериях (точность, полнота, дистанция редактирования и т. д.).

Asiya предлагает более 500 вариантов различных метрик. Такое

большое количество обуславливается тем, что создатели придерживаются

следующей точки зрения: сочетание нескольких показателей, оценивающих

различные аспекты качества перевода, должно лучше коррелировать с

экспертной оценкой, чем просто один автоматический показатель (Gonzàlez, 47

Page 48: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Giménez, Màrquez, 2012). Они отметают, что в последнее время для этой

точки зрения все чаще находится эмпирическое и теоретическое

обоснование. (Amigo et al., 2011).

Результаты по каждой из выбранных метрик для поэмы «Мертвые

души» и трех переводов ее на английский язык были получены в сентябре

2017 г. Нужно отметить, что обработка одного из наборов оригинал —

перевод-эталон — перевод-кандидат занимала очень короткое время (около 1

минуты), и поэтому значения метрик для каждого из наборов были получены

в кратчайшие сроки. Для удобства полученные файлы со значениями метрик

были преобразованы в xlsx (spreadsheet) формат.

Помимо системы Asiya были рассмотрены также другие инструменты

для оценки переводов: Interactive BLEU score evaluator (Интерактивный

инструмент, позволяющий получить значения по метрике BLEU) от Tilde

Custom Machine Translation и MT-СomparEval. Выбор этих инструментов для

анализа переводов с испанского языка был вызван тем, что летом 2017 года

система Asiya перестала работать. Переговоры с разработчиками не привели

к восстановлению ее работы, и мы вынуждены были искать альтернативный

инструмент для продолжения исследования.

Как следует из названия, Interactive BLEU score evaluator (https://

www.tilde.com/products-and-services/machine-translation/features/interactive-

bleu) позволяет получить оценку по метрике BLEU. Компания Tilde Custom

Machine Translation была создана, чтобы облегчить взаимодействие между

клиентами, разговаривающими на разных языках. Tilde предоставляет услуги

локализации, разрабатывает собственные системы машинного перевода и

предлагает онлайн терминологические инструменты для широкого набора

языков. Interactive BLEU score evaluator был создан компанией Tilde Custom

Machine Translation, чтобы дать возможность узнать сравнительные оценки

качества файлов, переводимых с помощью одной или нескольких систем

машинного перевода. Он позволяет сравнить результаты работы систем

машинного перевода с человеческими переводами и сравнить оценки по 48

Page 49: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

метрике BLEU различных систем машинного перевода.

Результаты анализа предложений в Interactive BLEU score evaluator

можно посмотреть в виде графиков, построенных для каждого предложения.

Удобное графическое представление результатов, несомненно, является

одним из преимуществ данной системы. Однако основным недостатком

данного инструмента и одновременно причиной, по которой использование

инструмента в работе посчиталось нецелесообразным, является ограниченное

количество метрик (к сожалению, BLEU — это единственная метрика,

доступная в программе).

Еще один инструмент оценки — MT-СomparEval (http://mt-

compareval.ufal.cz/). Инструмент был создан группой исследователей из

Карлова Университета в Праге (факультет математики и физики) и

Немецкого исследовательского центрм искусственного интеллекта (DFKI)

(Лаборатория языковых технологий) в 2015 году. Авторами являются

Ондржей Клейч (Ondřej Klejch), Элефтериос Аврамидис (Eleftherios

Avramidis), Алёша Бурхардт (Aljoscha Burchardt) и Мартин Попел (Martin

Popel).

MT-СomparEval дает возможность пользователям оценивать качество

машинного перевода отдельно для каждого предложения, обеспечивая тем

самым глубокое понимание работы систем машинного перевода. Количество

мер, доступных в MT-СomparEval, не ограничивается одной метрикой BLEU,

но включает еще и Brevity-penalty, BLEU-cased, Precision, Recall, F-measure.

Однако стоит отметить, что, например, Precision (точность), Recall

(полнота) и F-measure (F-мера) — это стандартные метрики оценки, с

помощью которых оценивают результаты многих типов классификаций или

результаты выбора элементов в условную группу А. С помощью данных

показателей можно оценить, как процент предполагаемых результатов вошел

в группу А, какой — нет, какой процент нежелательных результатов внутри

группы и т.д. Такого типа данные, безусловно, могут быть полезны при

оценке качества переводов, однако ограничить исследование только ими 49

Page 50: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

представлялось невозможным. Именно поэтому было принято решение

использовать MT-СomparEval в качестве дополнительного инструмента, но

не основного. Кроме того, нельзя не подчеркнуть существенного

ограничения MT-СomparEval: инструмент поддерживает возможность

обрабатывать тексты на русском языке, но данная функция не доступна

обычному пользователю. Для проведения анализа в ходе настоящей работы

недостающие данные были предоставлены сотрудником компании PROMT

А.П. Молчановым, которому мы выражаем благодарность за помощь в

проведении данного исследования.

2.5. Выбор элементов «перевод-эталон» и «перевод-кандидат»

Когда речь идет об автоматической оценке машинного перевода, т.е.

перевода, созданного не переводчиком, а какой-либо автоматической

системой, не возникает вопроса о том, что именно нужно представить в

качестве каждого из элементов набора оригинал — перевод-эталон —

перевод-кандидат. Однако во время попытки использовать систему оценки

машинного перевода для оценки переводов, созданных профессиональными

переводчиками, возник закономерный вопрос: какой из текстов стоит

принять за эталон, а какой — за перевод-кандидат?

Можно предположить, что профессионалы не всегда смогут

однозначно и объективно определить, какой перевод из нескольких является

лучшим, более точным или более близким к оригиналу — субъективизм

будет отличать все суждения тех или иных экспертов (что ни в коем случае

не умаляет заслуг, но, скорее, свидетельствует о природе человеческих

суждений). Поэтому в данной работе было принято решение поочередно

считать переводом-эталоном один из выбранных переводов.

Таким образом, были получены оценки по нескольким метрикам для

следующих наборов текстов:

№ Оригинал Перевод-эталон Перевод-кандидат

50

Page 51: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

1 Гоголь Н.В.

Мертвые души

Dead Souls. tr. from rus.

C. J. Horagth

Chichikov`s Journeys or

Dead Souls. tr. from rus.

Isabel F. Hapgood

2 Гоголь Н.В.

Мертвые души

Dead Souls. tr. from rus.

C. J. Horagth

Dead Souls. tr. from rus.

Robert A. Maguire

3 Гоголь Н.В.

Мертвые души

Chichikov`s Journeys or

Dead Souls. tr. from rus.

Isabel F. Hapgood

Dead Souls. tr. from rus.

C. J. Horagth

4 Гоголь Н.В.

Мертвые души

Chichikov`s Journeys or

Dead Souls. tr. from rus.

Isabel F. Hapgood

Dead Souls. tr. from rus.

Robert A. Maguire

5 Гоголь Н.В.

Мертвые души

Dead Souls. tr. from rus.

Robert A. Maguire

Dead Souls. tr. from rus. C. J.

Horagth

6 Гоголь Н.В.

Мертвые души

Dead Souls. tr. from rus.

Robert A. Maguire

Chichikov`s Journeys or

Dead Souls. tr. from rus.

Isabel F. Hapgood

7 Miguel de Cervantes.

El ingenioso hidalgo

Don Quijote de la

Mancha.

Don Quijote. tr. from sp.

Edith  Grossman

The Ingenious Gentleman

Don Quixote of La Mancha.

tr.from sp. John Ormsby

8 Miguel de Cervantes.

El ingenioso hidalgo

Don Quijote de la

Mancha.

The Ingenious Gentleman

Don Quixote of La Mancha.

tr.from sp. John Ormsby

Don Quijote. tr. from sp.

Edith Grossman

9 Miguel de Cervantes.

El ingenioso hidalgo

Don Quijote de la

Mancha.

Б. М. Энгельгардт.

Хитроумный идальго Дон

Кихот Ламанчский

Н. М. Любиомов.

Хитроумный идальго Дон

Кихот Ламанчский

10 Miguel de Cervantes.

El ingenioso hidalgo

Don Quijote de la

Mancha.

Н. М. Любиомов.

Хитроумный идальго Дон

Кихот Ламанчский

Б. М. Энгельгардт.

Хитроумный идальго Дон

Кихот Ламанчский

Для каждого выбранного сегмента (предложения) из поэмы «Мертвые

души» были получены оценки по 9 метрикам. Для переводов романа «Дон

51

Page 52: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Кихот» были получены данные по 6 метрикам. Таким образом, общее

количество полученных значений составило 3900 значений различных

метрик.

2.6. Анализ результатов, полученных с помощью системы Asiya

В результате сравнения переводов поэмы «Мертвые души» получилось 6

наборов данных: каждый из переводов последовательно принимался как

эталон и сравнивался с другими двумя переводами. Таким образом было

получено 2700 значений метрик. Пример полученных выходных данных

приводится в Приложении 1.

В таблице 1 представлены минимальные, максимальные и средние

показатели по каждой метрике в каждой паре переводов, а также расчеты

среднего, минимального и максимально балла.

Приведенная таблица позволяет увидеть, что в среднем метрики

показывают неудовлетворительное качество переводов. Так, например, если

для метрики BLEU удовлетворительным результатом можно считать

полученный бал от 0.5, то для оцененных переводов средний бал составляет

0.1.

Кроме того, можно заметить, что такие метрики, как NIST, - WER, -

PER, -TERbase в программе Asiya дают некорректные результаты. Об этом

свидетельствует, например, полученный средний бал по метрике NIST,

который составляет 11.16, тогда как предполагается, что значения должны

варьироваться от 0 до 1. Даже если предположить, что это бал по шкале от 0

до 100, расчеты метрики все равно нельзя назвать верными. Причина

оказалась в том, что сегменты 26-30 в переводе Ч. Хогарта отсутствуют (по

неким причинам переводчик решил опустить данный фрагмент в своей

работе). Это значит, что при сравнении перевода Ч. Хогарта с другими

некоторые из сегментов должны были получить значение 0, и,

соответственно, общий минимальный бал должен был составить 0. Таблица 1

52

Page 53: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

свидетельствует о том, что общий минимальный бал по метрикам NIST,

- WER, -PER, -TERbase составляет 0.042, -14.86, -14.86, -11.33

соответственно. Это дает основание с недоверием относится к результатам,

полученным по данным метрикам.BLEU GTM-3 NIST -WER -PER Ol -TERbase METEOR-ex ROUGE-L

Хогарт - Хэпгуд Среднее 0.078952 0.100134 2.656822 -1.7128 -1.5525 0.257608 -1.461 0.131652 0.30025Max 0.4104 0.3444 11.1553 -0.4091 -0.2727 0.5926 -0.4091 0.4125 0.6875Min 0.0036 0 0.0503 -14.4286 -14.4286 0 -11.2222 0 0

Хогарт - Магуайр Среднее 0.073644 0.098152 2.42335 -1.64735 -1.49221 0.252576 -1.41639 0.12922 0.297642Max 0.3073 0.2405 5.9291 -0.5 -0.3636 0.5769 -0.4545 0.321 0.6Min 0.0041 0 0.042 -14.8571 -14.8571 0 -11.3333 0 0

Хэпгуд - Хогарт Среднее 0.08217 0.100134 3.193861 -1.06299 -0.88217 0.257608 -1.01879 0.15095 0.30025Max 0.4093 0.3444 11.1345 -0.4286 -0.2857 0.5926 -0.4286 0.405 0.6875Min 0 0 0.1544 -2.2857 -2.2143 0 -2.2857 0 0

Хэпгуд - Магуайр Среднее 0.209954 0.177264 4.9811 -0.63392 -0.49348 0.427206 -0.58729 0.239324 0.51603Max 0.7368 0.7501 8.7557 -0.1667 -0.1667 0.7143 -0.1667 0.4112 0.875Min 0.019 0.0656 0.7072 -1.2778 -1.2778 0.1 -1.2222 0.0317 0.2632

Магуайр - Хогарт Среднее 0.07694 0.098174 2.874667 -1.03731 -0.86372 0.252576 -1.00168 0.14356 0.297642Max 0.3073 0.2405 5.5616 -0.5789 -0.3855 0.5769 -0.5263 0.34 0.6Min 0 0 0.1486 -2.3846 -2.3077 0 -2.3077 0 0

Магуайр - Хэпгуд Среднее 0.209568 0.177264 4.97235 -0.61369 -0.47479 0.427206 -0.56776 0.234832 0.516022Max 0.7368 0.7501 8.7739 -0.1667 -0.1667 0.7143 -0.1667 0.4112 0.875Min 0.0181 0.0656 0.5596 -1 -0.8846 0.1 -0.8889 0.026 0.2632

Среднее 0.121871 0.125187 3.517025 -1.11801 -0.95981 0.312463 -1.00882 0.17158967 0.371306Max 0.7368 0.7501 11.1553 -0.1667 -0.1667 0.7143 -0.1667 0.4125 0.875Min 0 0 0.042 -14.8571 -14.8571 0 -11.3333 0 0

Таблица 1. Минимальные, средние и максимальные показатели по каждой метрике для 50

сегментов английских переводов поэмы «Мертвые души» в каждой паре перевод-эталон и

перевод-кандидат.

Средний максимальный бал по остальным метрикам (BLEU, GTM–3,

Ol, ROUGE-L) — 0.7-0.8, и только максимальный бал по метрике METEOR-

ex гораздо ниже — 0.4. Предположив, что переводы, выполненные

профессиональными переводчиками, должны оцениваться высоко, можно

отметить, что METEOR-ex «слишком строга». Если самый высокий бал по

версии этой метрики при сравнении профессиональных переводов не

превышает 0.5, то какие шансы получить высокие балы тогда у машинных

переводов?

Таким образом, можно прийти к выводу, что только метрики BLEU,

GTM-3, Ol и ROUGE-L показывает корректные результаты. Именно их мы и

53

Page 54: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

рассмотрим более подробно.

Максимальное значение, которое можно получить по данным метрикам

— 1, минимальное — 0. Чтобы провести сравнение работы разных метрик,

мы разделили шкалу от 0 до 1 на 5 условных групп:

1) сегменты, которые получили бал ниже 0.2,

2) сегменты, получившие бал от 0.2 до 0.4,

3) сегменты, бал которых составил от 0.4 до 0.6,

4) сегменты с балом от 0.6 до 0.8,

5) и, наконец, сегменты, оцененные выше 0.8.

В начале был произведен расчет количества сегментов, попавших в

каждую группу для всех 6 пар сравнений переводов. Так, например, было

рассчитано сколько сегментов (предложений) было оценено ниже, чем 0.2 по

метрике BLEU при сравнении работы Ч. Хогарта (эталон) с переводом

И. Хэпгуд (всего было 42 таких предложения). Затем такой же расчет был

произведен для остальных групп (0.2-0.4, 0.4-0.6, 0.6-0.8, <0.8), других

метрик (GMT-3, Ol, ROUGE-L) и остальных пар переводов.

После этого было подсчитано среднее количество сегментов в каждой

из групп, что и показано на Таблице 2. Таблица 2 дает наглядное

представление об оценке перечисленных выше метрик. Так, метрика BLEU

оценивает на условную единицу (по шкале от единицы («плохо») до пяти

(«отлично»), где 5 дается за сегменты, оцененные на 0.8 и выше) в среднем

около 42 сегмента из 50, что составляет больше 80% всех сегментов.

Другими словами, по метрике BLEU 3/4 всех предложений переводятся

недостаточно качественно. Только одно предложение из 50 переводится

удовлетворительно, хорошую оценку сегменты получают в исключительных

случаях (0.33 предложения из 50), а отличную — и вовсе никогда.

Схожие результаты дает и метрика GTM–3: в среднем 41 предложение

из 50 получает бал меньше 0.2, 6 предложений — от 0.2 до 0.4, и менее 0.5

сегмента получают оценки от 0.4 до 0.8.

Метрики Ol и ROUGE-L оценивают сегменты и, соответственно, 54

Page 55: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

переводы в целом иначе. Так, по Ol, только около 18% процентов сегментов

(9 предложений из 50) заслуживают самых низких оценок. Здесь больше 60%

процентов сегментов оцениваются на условную «двойку», что значит, что

переведены такие сегменты неудовлетворительно. 20% (10 предложений)

получают «удовлетворительную» оценку, и около 3% - «хорошо». Сегменты,

оцененные высоко, практически отсутствуют в переводах в соответствии с

данными, полученными с помощью этой метрики.

Самую высокую оценку работе переводчиков в целом дает метрика

ROUGE-L. 13% предложений оцениваются ниже, чем 0.2, 46% получают

балы от 0.2 до 0.4, и 30% предложений можно считать переведенными

удовлетворительно по данным метрики ROUGE-L. Безусловно, сравнительно

качественный перевод 30% сегментов — это результат, которым с трудом

могла бы гордиться даже система машинного перевода, и точно недостаточно

хороший показатель для профессионального переводчика. Однако с точки

зрения работы метрик, ROUGE-L, безусловно дает оценку, наиболее близкую

к той, которую должны получать переводы, выполненные профессионалами.

Это единственная метрика, которая в среднем оценивает как «хорошо»

переведенные 3-4 предложения из 50, и к тому же допускает существование

сегментов, переведённых «отлично». Такую оценку она дает менее чем 1%

предложений, что все равно остается высоким показателем по сравнению с

остальными метриками.

55

Page 56: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Таблица 2. Среднее количество сегментов, оцененных метриками в пределах

представленных диапазонов

Рассмотрим подробнее балы, полученные при сравнении конкретных

переводов. На рисунках 4, 5, 6 показано количество сегментов в каждой из 5

групп, т.е. сколько сегментов получили оценку ниже 0.2, сколько — 0.2-0.4 и

так далее.

Очевидно, что в соответствии со всеми четырьмя метриками переводы

И. Хэпгуд и Р. Магуайра были оценены выше, чем остальные пары

переводов. Таким образом, можно также сделать вывод, что работы

Ч. Хогарта и Р. Магуайра обладают наибольшим количеством расхождений и

отличий: по данным трех метрик — BLEU, Ol и ROUGE-L — эта пара

получила более низкие оценки, чем остальные. Однако в соответствии с

балами, полученными GTM–3, переводы Ч. Хогарта и И. Хэпгуд являются

более близкими, чем работы Ч. Хогарта и Р. Магуайра.

Любопытно сравнить данные результаты с результатами, полученным

в ходе предыдущей работы (Арутюнова, 2016: 56). Во время проведения

исследования было выявлено, что чаще всего ошибки встречались в переводе

Ч. Хогарта и И. Хэпгуд, при этом перевод выбранных сегментов,

выполненный Р. Магуайром, отличался наибольшей точностью. Данные,

приведенные на рисунках, подкрепляют приведённые выше выводы и

позволяют утверждать, что перевод Р.Магуайра действительно является

наиболее качественным и точным, перевод И. Хэпгуд может быть

сопоставим с данным переводом, а работа Ч. Хогарта отличается в

наибольшей степени от остальных переводов, и, возможно, не так точна при

переводе некоторых из сегментов.

56

Page 57: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

47

2 1

Ч.Хогарт - И.Хэпгуд BLEU<0.2

0.2-0.4

0.4-0.6

0.6-0.8

>0.8 49

1

GTM-3

12

33

5

OI8

33

8 1

ROUGE-L

Рисунок 4. Количество сегментов, получивших оценку в данном диапазоне по BLEU, GTM-3, Ol, ROUGE-L при сравнении перевода Ч. Хогарта с переводом И. Хэпгуд.

49

1

Ч.Хогарт - Р.Магуайр BLEU

<0.20.2-0.40.4-0.60.6-0.8>0.8

46

4

GTM-3

11

36

3

OI

10

31

9

ROUGE-L

Рисунок 5. Количество сегментов, получивших оценку в данном диапазоне по BLEU, GTM-3, Ol, ROUGE-L при сравнении перевода Ч. Хогарта с переводом Р. Магуайра.

2818

3 1

И.Хэпгуд - Р.Магуайр BLEU

<0.20.2-0.40.4-0.60.6-0.8>0.8

33

14

2 1

GTM-311

22

22

5

OI9

30

101

ROUGE-L

Рисунок 6. Количество сегментов, получивших оценку в данном диапазоне по BLEU, GTM-3, Ol, ROUGE-L при сравнении перевода И. Хэпгуд с переводом Р. Магуайра.

2.7. Анализ результатов, полученных с помощью MT-ComparEval

После сравнения переводов романа «Дон Кихот» мы получили 4 набора

данных: каждый из английских и русских переводов принимался за эталон и

производилось сравнение с другим из переводов на данном языке. Затем за

эталон принимался второй из переводов и снова происходил расчет данных.

Всего было получено 1200 значений разных метрик. Расчет минимального,

максимального и среднего показателя по каждой метрике, доступной в MT-

ComparEval, а также средний, минимальный и максимальный бал для

четырех наборов данных представлены в таблице 3.

57

Page 58: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

BREVITY-PENALTY BLEU*0.01 BLEU BLEU-cased PRECISION RECALL F-MEASUREОрмсби-Гроссман Среднее 0.85 0.15 15.50 15.01 23.59 22.83 22.77

Max 1.00 0.48 47.57 47.57 50.12 50.12 50.12Min 0.00 0.00 0.00 0.00 2.20 1.05 1.91

Гроссман-Ормсби Среднее 0.90 0.16 15.57 15.08 22.83 23.59 22.77Max 1.00 0.48 47.57 47.57 50.12 50.12 50.12Min 0.03 0.00 0.09 0.09 1.05 2.20 1.91

Любимов-Энгельгардт Среднее 0.68 0.08 7.76 7.90 17.45 13.30 14.55Max 1.00 0.36 36.21 36.63 45.35 41.41 41.95Min 0.00 0.00 0.00 0.00 3.21 0.24 0.46

Энгельгардт-Любимов Среднее 0.97 0.08 8.20 8.35 13.30 17.45 14.55Max 1.00 0.36 36.37 36.79 41.41 45.35 41.95Min 0.54 0.00 0.34 0.34 0.24 3.21 0.46

Среднее 0.85 0.12 11.76 11.58 19.29 19.29 18.66Max 1.00 0.48 47.57 47.57 50.12 50.12 50.12Min 0.00 0.00 0.00 0.00 0.24 0.24 0.46

Таблица 3. Минимальные, средние и максимальные показатели по каждой метрике для 50

сегментов английских и русских переводов романа «Дон Кихот» в каждой паре перевод-

эталон и перевод-кандидат.

Очевидно, что наибольший интерес представляют результаты,

полученные по метрике BLEU — единственной метрике, расчеты которой

доступны и в Asiya, и в MT-ComparEval. Нужно отметить, что бал BLEU для

каждого из сегментов изменялся, в зависимости от того, какой из переводов

был взят за эталон. Однако это изменение нельзя назвать значительным —

бал, полученный отдельным сегментом в случае, когда перевод Дж. Ормсби

считался эталоном, от оценки этого же сегмента при переводе-эталоне,

выполненном Э. Гроссман, отличался в среднем всего на 0.000724. Когда же

эталоном попеременно считались переводы Н.Любимова и Б.Энгельгардта,

отличие балов одинаковых сегментов составило в среднем 0.004376.

Тем не менее, разделив, как и в случае с английскими переводами

«Мертвых душ», шкалу BLEU на 5 групп (менее 0.2, 0.2 — 0.4, 0.4-0.6, 0.6-

0.8, более 0.8) и подсчитав количество сегментов, попавших в разные

группы, мы получили не полностью схожие результаты. Данные, полученные

при сравнении переводов «Дон Кихота» на английский язык, приведены на

рисунке 7.

58

Page 59: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

3017

3

Дж. Ормсби - Э. ГроссманBLEU

<0.2

>0.2

>0.4

>0.6

30

18

2

Э. Гроссман - Дж. ОрмсбиBLEU

<0.2

>0.2

>0.4

>0.6

Рисунок 7. Количество сегментов, получивших оценку в данном диапазоне по метрике BLEU при сравнении переводов Дж. Ормсби и Э. Гроссман.

В соответствии с данными BLEU, система оценивает перевод

Э. Гроссман выше — он дает (пусть немногим, но все же) лучшие

результаты, выступая в качестве «машинного перевода», то есть того,

который сравнивают с эталоном. Почему так происходит? Рассмотрим

сегменты, бал BLEU которых превышает 0.4. В случае, когда переводом-

эталоном выступает работа Дж. Ормсби, таких сегментов три: №14, №19 и №

33. При переводе-эталоне Э. Гроссман это сегменты №14 и №33, а сегмент

№19 получает оценку в 0.39. Обратимся к сегменту №19 и его английским

переводам (пример 1):(1) Y lo primero que hizo , fue limpiar unas armas , que habian sido de sus bisabuelos , que ,

tomadas de orin y llenas de moho , luengos siglos habia que estaban puestas y olvidadas en un rincon . (Source)And the first thing he did was to attempt to clean some armor that had belonged to his great - grandfathers and , stained with urine and covered with mildew , had spent many long years stored and forgotten in a corner . (Grossman)The first thing he did was to clean up some armour that had belonged to his great - grandfather , and had been for ages lying forgotten in a corner eaten with rust and covered with mildew . (Ormsby)

Как отмечалось выше, у метрики BLEU можно выделить две

составляющие — точность и штраф за длину перевода. Можно

предположить, что разница в балах BLEU здесь связана с штрафом за длину

перевода, ведь количество совпадающих n–грамм в переводах одинаковое. И

действительно, Brevity Penalty (BP) для сегмента №19 (эталон — Гроссман)

составляет 0.8798, а BP сегмента №19 (эталон — Ормсби) — 1. Конечно,

перевод Э. Гроссман длиннее и, соответственно, получает штраф за дину

59

Page 60: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

перевода. Обратимся к исходному испанскому предложению и сравним его с

переводами:

Source Grossman Ormsby1 Y lo primero que hizo And the first thing he did The first thing he did2 fue limpiar unas armas to attempt to clean some armor to clean up some armour3 que habian sido de sus

bisabuelosthat had belonged to his great — grandfathers

that had belonged to his great - grandfather

4 tomadas de orin y llenas de moho

stained with urine and covered with mildew

5 luengos siglos had spent many long years had been for ages6 estaban puestas y olvidadas

en un rinconstored and forgotten in a corner lying forgotten in a corner

7 with rust and covered with mildew

Перевод Э. Гроссман в точности повторяет структуру испанского

предложения, что, как нам кажется, можно отнести к достоинствам перевода:

так англоязычный читатель сможет ближе познакомиться с особенностями

испанского языка в целом и авторского стиля в частности. Перевод же

Дж. Орсмби, его особенности и структуру, можно считать более привычными

для говорящих на английском языке. Даже выбор перевода слова orín,

который производит Дж. Ормсби (orín — с исп. моча, ржавчина, в переводе

Э. Гроссман urine — моча, в переводе Дж. Ормсби rust — ржавчина), наводит

на мысли о произведенной автором адаптации исходного текста для

англоязычного читателя.

Очевидно, что система при подсчете балов не брала в расчет

выбранные варианты перевода и структуры полученных предложений, но,

даже несмотря на это, смога оценить перевод Э. Гроссман выше. Можно

предположить, что использование таких автоматических способов оценки

английских переводов может быть небесполезным, если ценить в переводе

близость к оригинальному тексту и сохранение (по возможности) исходных

структур и стремиться выделить переводы, обладающие данными

характеристиками.

Обратившись в свою очередь к русским переводам романа «Дон

60

Page 61: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Кихот», можно заметить, что здесь отличий между количеством сегментов в

группах нет, и в целом показатели довольно низкие: всего 5 предложений из

50 получают балы BLEU от 0.2 до 0.4. Такие показатели можно объяснить

большой разницей переводов, ведь работа Б. Энгельгардта предназначена для

детей и подростков, а Н. Любимов переводил роман для взрослого читателя.

Результаты сравнения приведены на рисунке 8.

45

5

Н. Любимов - Б. ЭнгельгардтBLEU

<0.2

>0.2

>0.445

5

Б. Энгельгардт - Н. ЛюбимовBLEU

<0.2

>0.2

>0.4

Рисунок 8. Количество сегментов, получивших оценку в данном диапазоне по метрике BLEU при сравнении переводов Н. Любимова и Б. Энгельгардта.

Рассмотрим сегменты, которые получили самую высокую оценку при

сравнении: №13, №32, №34, №39, №45. Нужно отметить, что сегменты,

оцененные выше, чем остальные, когда эталоном выступал перевод

Н. Любимова, совпадают с получившими более высокую оценку, когда за

эталон принимался перевод Б. Энгельгардта.

4 из 5 предложений в испанском оригинале и в переводах довольно

короткие: их средняя длина составляет 25-27 слов. Однако сегмент №32 в три

раза длиннее их и все равно заслужил более высокую оценку, чем остальные.

Рассмотрим его подробнее (пример 2):(2) Mas apenas se vio en el campo , cuando le asalto un pensamiento terrible , y tal , que por

poco le hiciera dejar la comenzada empresa : y fue que le vino a la memoria que no era armado caballero , y que , conforme a la ley de caballeria , ni podia ni debia tomar armas con ningun caballero ; y puesto qeu lo fuera , habia de llevar armas blancas , como novel caballero , sin empresa en el escudo , hasta que por su esfuerzo la ganase . (Source)Но как скоро он очутился за воротами , в голову ему пришла страшная мысль , до того страшная , что он уже готов был отказаться от задуманного предприятия , и вот почему : он вспомнил , что еще не посвящен в рыцари и что , следственно , по законам рыцарства , ему нельзя и не должно вступать в бой ни с одним рыцарем ; а если б даже и был посвящен , то ему как новичку подобает носить белые доспехи , без девиза на щите , до тех пор , пока он не заслужит его своею храбростью . (Н. Любимов)

61

Page 62: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Но не успел он выбраться на дорогу , как ему пришла мысль , такая ужасная , что он едва не вернулся домой . Дон Кихот внезапно вспомнил , что он еще не посвящен в рыцари и что по рыцарским законам он не мог и не смел вступить в бой ни с одним рыцарем . А если бы даже он и был посвящен , то ему полагалось первое время носить белые доспехи и не ставить на своем щите никакого девиза , чтобы всем было сразу видно , что он еще новичок в рыцарском деле . (Б. Энгельгардт).

Схожая длина обуславливает отсутствие штрафа за длину перевода (BP

= 1, эталон — Н. Любимов) и наличие небольшого штрафа (BP = 0.96, эталон

— Б. Энгельгардт), а большое количество одинаковых n–грамм («но», «ему

пришла», «мысль», «вспомнил, что», «еще не посвящен в рыцари и что» и

другие) обеспечивают сравнительно высокую точность (Precision = 0.28 и

0.27 соответственно).

Однако в общем сравнительно высокий бал BLEU данного сегмента

(0.23) скорее является исключением, чем правилом. Большинство переводов

отличаются по длине, что приводит к высоким штрафам за длину, кроме

того, отличается и выбранная лексика: Б. Энгельгардт старается использовать

слова и выражения, понятные юному читателю. Так, даже в примере 2

переводчик выбирает более распространенный глагол «полагаться», тогда

как Н. Любимов использует «подобать» - устаревший и книжный глагол,

который, однако, более точно передает стиль автора, который употребляет

конструкцию haber de + infinitive (литературная форма «быть должным»).

2.8. Обобщение результатов проведенного анализа

Проведенный анализ работы автоматических метрик оценки на материале

художественных переводов показывает существенное несовершенство

метрик. Для того, чтобы определить, каким образом можно было бы

улучшить работы метрик, обратимся к сегментам, получившим наиболее

высокую оценку.

Здесь особого внимания заслуживает метрика BLEU — одна из самых

популярных и доступных метрик из рассматриваемых в работе. Сегмент, 62

Page 63: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

оцененный выше всех остальных по этой метрике (0.7368) — это

предложение №30 из поэмы «Мертвые души» и его английские переводы,

выполненные Р. Магуайром и И. Хэпгуд. Интересно, что Ч. Хогарт в своем

переводе поэмы решил опустить отрывок, в котором содержится данное

предложение.

(3) Плюшкин стал беспокойнее и, как все вдовцы, подозрительнее и скупее. (Source)— (Hogarth)Pliushkin became more restless, and, like all widowers, more suspicious and saving. (Hapgood)Plyushkin grew more restless, and, like all widowers, more suspicious and miserly. (Maguire)

В примере 3 видно, что исходное предложение и переводы очень

короткие: в них 10-12 слов. Очевидно, что чем короче отрывок, тем меньше

вероятность использовать разные варианты перевода, а, значит, тем больше

вероятность того, что предложение будет оценено высоко. Кроме того, в

приведенном примере совпадает структура и выбор слов для перевода, и,

различия, фактически, относятся к трем униграммам: «Плюшкин», «стал»,

«скупее». Результат оценки данного предложения мог бы быть еще выше,

если бы был подключен словарь синонимов, в котором указывалась

синонимичность и возможность взаимозаменяемости глаголов become и

grow. Так, например, можно предположить, что метрика METEORsy, которая

учитывает синонимичность, могла бы в данном случае дать более высокие

результаты. К сожалению, расчеты по ней в Asiya оказались недоступны.

Помимо этого, стоит обратить внимание на разные варианты написания

фамилии главного героя: Pliushkin и Plyushkin. Это не единственный случай

различия транслитерации фамилий в переводах. Например, Ноздрев у

Ч. Хогарта и Э. Хэпгуд переводится как Nozdrev, у Р. Магуайра — Nozdryov,

а Собакевич - Sobakevitch (Ч. Хогарт) и Sobakevich (И. Хэпгуд и Р. Магуайр).

Различается и транслитерация слов, для которых переводчики предпочли не

подбирать английского соответствия (вероятно, из-за отсутствия такового). К

63

Page 64: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

примеру (сегмент 48, средний бал BLEU 0.02-0.04):

(4) Да ведь такой… с ним нельзя никак сойтиться. Фетюк, просто фетюк! (Source)A man like that is simply impossible. Yes, he is a Thetuk, a regular Thetuk. * A jeering appellation which owes its origin to the fact that certain Russians cherish a prejudice against the initial character of the word — namely, the Greek theta, or TH. (Hogarth)But there`s nothing to be done with him: he`s a fetiuk, just simply a fetiuk!* An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark by Gogol. (Hapgood)There`s no meeting of the minds with him. He`s a girlie-man*, a girlie-man! * A word that is insulting to a man, since it derives from the letter θ, which some consider an indecent letter. (Maguire)

Если обучить систему оценки машинного перевода различным

принципам транслитерации, то можно также получить более высокую оценку

данного предложения и ему подобных, в которых содержатся названия мест,

имена и фамилии, культурные реалии и вообще все, что можно отнести к

именованным сущностям. Представив системе несколько вариантов

транслитерации, например, английский и французский варианты, можно

было бы увеличить среднюю оценку предложений в целом.

Среди английских сегментов переводов романа «Дон Кихот»

наибольший бал получил сегмент №33:

(5) Estos pensamientos le hicieron titubear en su proposito ; mas pudiendo mas su locura que otra razon alguna , propuso de hacerse armar caballero del primero que topase , a imitacion de otros muchos que asi lo hicieron , segun el habia leido en los libros que tal le tenian . (Source)These thoughts made him waver in his purpose , but , his madness being stronger than any other faculty , he resolved to have himself dubbed a knight by the first person he met , in imitation of many others who had done the same , as he had read in the books that had brought him to this state . (Grossman)These reflections made him waver in his purpose , but his craze being stronger than any reasoning , he made up his mind to have himself dubbed a knight by the first one he came across , following the example of others in the same case , as he had read in the books that brought him to this pass . (Ormsby)

Примечательно, что пример 5 не такой короткий, как в случае с

наиболее высоко оцененным сегментом из переводов «Мертвых душ»,

однако его оценка BLEU значительно ниже — 0.48. Другими словами, это 64

Page 65: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

единственное предложение, которое система посчитала переведенным

удовлетворительно, даже не хорошо или отлично. Что могло бы улучшить

оценку? Подключение словаря помогло бы и в случае с данными переводами:

можно было бы добавить синонимичные «thoughts» и «reflections», «craze» и

«madness», «mеet» и «cоme across» и другие.

Интересно, что русские переводы сегмента №33, наоборот, были

оценены очень низко по метрике BLEU: 0.0405 (эталон — Любимов) и 0.038

(эталон — Энгельгардт). (6) Эти размышления поколебали его решимость ; однако ж безумие взяло верх над

всеми доводами , и по примеру многих рыцарей , о которых он читал в тех самых романах , что довели его до такого состояния , вознамерился он обратиться с просьбой о посвящении к первому встречному . (Любимов)Долго стоял Дон Кихот , не зная , на что решиться , однако страстное желание немедленно пуститься в путь одержало верх над всеми его сомнениями . Он решил , что посвятить его в рыцарский сан он попросит первого же рыцаря , который ему встретится на пути . Так по крайней мере поступали многие герои тех романов , чтение которых довело нашего идальго до такого плачевного состояния . (Энгельгардт)

Здесь исправить низкий бал, вероятно, можно было бы за счет применения

корпусного анализа и автоматического разрешения кореференции. Если бы у

системы была большая выборка (даже просто несколько полных переводов

данного романа), то, возможно, ей стали бы доступны данные о том, что,

например, «безумие» и «страстное желание» могут в некоторых ситуациях

быть взаимозаменяемыми понятиями, а с помощью автоматического

разрешения кореференции можно было бы определить, что «Дон Кихот»,

«идальго» и «он» могут быть референциально тождественны.

Вообще нужно заметить, что русские переводы отрывка из романа

«Дон Кихот» заслужили самую низкую оценку из всех представленных групп

переводов. Такой результат является ожидаемым: если бы система смогла

распознать хорошее качество двух настолько разных переводов, это бы

говорило о ее несомненном качестве, и она давно бы уже использовалась

повсеместно. К сожалению, в реальности метрика BLEU дает такую оценку

сегментов, которая не помогает получить представления о качестве этих двух

65

Page 66: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

прекрасных переводов.

Самую высокую оценку среди русских переводов романа получил

сегмент №13. Ожидаемо, предложение оказалось одним из самых коротких в

представленной выборке:(7) Decia el , que el Cid Ruy Diaz habia sido muy buen caballero ; pero que no tenia que ver

con el caballero de la ardiente espada , que de solo un reves habia partido por medio dos fieros y descomunales gigantes . (Source)Он говорил , что Сид Руй Диас очень хороший рыцарь , но что он ни в какое сравнение не идет с Рыцарем Пламенного Меча , который одним ударом рассек пополам двух свирепых и чудовищных великанов . (Любимов)Он соглашался , что Сид Руй Диас был доблестным рыцарем , но прибавлял , что ему далеко до рыцаря Пламенного Меча , который одним ударом рассек пополам двух могучих великанов . (Энгельгардт)

Примечательно, что даже у таких схожих переводов оценка BLEU

оказалась невысокой: 0.3637 и 0.3621 соответственно. Среди причин может

быть флективный строй русского языка и нечувствительность системы к

падежам («рыцарь — рыцарем», «с рыцарем» — «до рыцаря» и так далее).

Кроме того, BLEU, используемая здесь для расчетов является case-sensitive,

т.е. метрика берет в расчет регистр, и, соответственно, считает «Рыцарем

Пламенного Меча» и «рыцаря Пламенного Меча» за разные 3-граммы.

Нужно отметить, что бал BLEU-cis (case-insensitive) для данного сегмента

равен 0.3663, и тогда можно предположить следующее: тот факт, что метрика

берет в расчет, заглавные или строчные буквы используются в том или ином

сегменте, на самом деле можно отнести к недостаткам метрики.

Использование BLEU-cis дает, хоть и немногим, но более высокие

результаты (см. Приложение 2).

Помочь увеличить оценку могло бы использование морфологического

анализатора и словаря, похожего на существующие словари концептов: если

подключить систему, в которой основные понятия включены в

семантическую сеть (например, онтологическую структуру), можно добиться

более высоких показателей (так, например, прилагательное «хороший» могло

бы быть связано с «доблестный»). Обозначение коннотации и подсчет слов с

одинаковой коннотацией могло бы служить для улучшения оценки: 66

Page 67: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

например, если бы мы подключили словарь, в котором имелись сведения о

том, что испанское прилагательное «buen» имеет положительную

коннотацию, как и русские «хороший» и «доблестный», это могло бы

увеличить оценку первой части предложения. В то же время это могло бы

помочь оценить перевод Н. Любимова выше, чем перевод Б. Энгельгардта:

отрицательные испанские «fiero» (свирепый, хищный, дикий) и «descomunal»

(чудовищный, страшный, огромный), переводятся у второго автора одним

прилагательным «могучий». Н. Любимов же выбирает прилагательные

«свирепый» и «чудовищный», которые также являются негативно

окрашенными в русском языке, как и их испанские варианты.

Обратимся теперь к сегментам, получившим самую низкую оценку

BLEU. Среди английских переводов романа «Дон Кихот» это сегмент №45,

получивший оценку 0 (эталон — Ормсби):(8) Diose priesa a caminar , y llego a ella a tiempo que anochecia . (Source)

He quickened his pace and reached it just as night was falling . (Grossman)

At this moment it so happened that a swineherd who was going through the stubbles

collecting a drove of pigs ( for , without any apology , that is what they are called ) gave

a blast of his horn to bring them together , and forthwith it seemed to Don Quixote to be

what he was expecting , the signal of some dwarf announcing his arrival ; and so with

prodigious satisfaction he rode up to the inn and to the ladies , who , seeing a man of this

sort approaching in full armour and with lance and buckler , were turning in dismay into

the inn , when Don Quixote , guessing their fear by their flight , raising his pasteboard

visor , disclosed his dry dusty visage , and with courteous bearing and gentle voice

addressed them , (Ormsby)

Очевидно, что в примере 8 низкая оценка была получена из-за проблем

выравнивая текстов. Возможно, идеальным методом здесь мог бы служить

следующий способ выравнивания: тексты можно было бы автоматически

разделять на сравнительно короткие сегменты (в соответствии с манерой М.

де Сервантеса и особенностями испанского языка идеальным коротким

сегментом представляется пространство от начала предложения до первого

67

Page 68: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

знака препинания, от первого — до следующего знака и так далее). Затем

можно было бы производить сравнение сегмента А из оригинального текста

(в данном случае — испанского) со всеми сегментами А-Z переводного

текста. После произведения такого выравнивания можно было получать

схему соответствия, например сегмент A (source) — A (target), если сегменты

совпали. B (source) — D (target) — если в переводном тексте были

произведены некие перемещения элементов. И C (source) - — (target), если

сегмент не был переведен. При таком способе выравнивания перевод

сегмента №45 (пример 8) Дж. Ормсби не оценивался бы вообще, однако для

его перевода были бы найдены соответствия в последующих сегментах №46,

№47 и общая оценка его перевода была бы выше.

Проблема выравнивания служит объяснением и для оценки сегмента №48,

получившего самый низкий бал BLEU (эталон — Гроссман) - 0.0009.

Сегмент №48 представлен в примере 9:(9) En esto sucedió acaso que un porquero , que andaba recogiendo de unos rastrojos una

manada de puercos ( que sin perdón así se llaman ) , tocó un cuerno , a cuya señal ellos se

recogen , y al instante se le representó a D . Quijote lo que deseaba , que era que algún

enano hacía señal de su venida , y así con extraño contento llegó a la venta y a las

damas , las cuales , como vieron venir un hombre de aquella suerte armado , y con lanza

y adarga , llenas de miedo se iban a entrar en la venta ; pero Don Quijote , coligiendo por

su huida su miedo , alzándose la visera de papelón y descubriendo su seco y polvoso

rostro , con gentil talante y voz reposada les dijo : non fuyan las vuestras mercedes , nin

teman desaguisado alguno , ca a la órden de caballería que profeso non toca ni atañe

facerle a ninguno , cuanto más a tan altas doncellas , como vuestras presencias

demuestran . (Source)

At that moment a swineherd who was driving his pigs — no excuses , that ’ s what they ’

re called — out of some mudholes , blew his horn , a sound that pigs respond to , and it

immediately seemed to Don Quixote to be just what he had desired , which was for a

dwarf to signal his arrival , and so with extreme joy he rode up to the inn , and the ladies ,

seeing a man armed in that fashion , and carrying a lance and shield , became frightened

and were about to retreat into the inn ; but Don Quixote , inferring their fear from their

flight , raised the pasteboard visor , revealing his dry , dusty face , and , in a gallant

68

Page 69: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

manner and reassuring voice , he said to them : “ Flee not , dear ladies , fear no villainous

act from me ; for the order of chivalry which I profess does not countenance or permit

such deeds to be committed against any person , least of all high - born maidens such as

yourselves . ” (Grossman)

" Modesty becomes the fair , and moreover laughter that has little cause is great silliness ;

this , however , I say not to pain or anger you , for my desire is none other than to serve

you . " (Ormsby)

В соответствии с балами BLEU для русских переводов романа «Дон

Кихот», один и тот же сегмент получил самые низкие оценки (0 — эталон —

Любимов и 0.0034 — эталон — Энгельгардт). Причина такой низкой оценки

становится ясной, если обратиться к данному сегменту (пример 10):(10) Mirábanle las mozas y andaban con los ojos buscándole el rostro que la mala

visera le encubría ; mas como se oyeron llamar doncellas , cosa tan fuera de su profesión , no pudieron tener la risa , y fue de manera , que Don Quijote vino a correrse y a decirles : Bien parece la mesura en las fermosas , y es mucha sandez además la risa que de leve causa procede ; pero non vos lo digo porque os acuitedes ni mostredes mal talante , que el mío non es de al que de serviros . (Source)Бабенки воззрились на незнакомца , пытаясь разглядеть его лицо , на которое опять сползло дрянное забрало , но , услышав , что он величает их девицами , каковое наименование отнюдь не соответствовало их роду занятий , принялись хохотать , да так , что Дон Кихот почувствовал себя неловко . — Красоте приличествует степенность , — сказал он , — беспричинный же смех есть признак весьма недалекого ума . Впрочем , все это я говорю не для того , чтобы оскорбить вас или же привести в дурное расположение духа , ибо я со своей стороны расположен лишь к тому , чтобы служить вам . (Любимов)- - - (Энгельгардт)

Тот факт, что Б. Энгельгардт решил не включать данный отрывок в

перевод, видимо, объясняется его содержанием, а также целью, которую

преследовал автор: создать перевод для детей и подростков (вероятно, автор

осознавал, что более короткий роман прочитать в юном возрасте будет

проще и опускал некоторые отрывки, придавая динамичность

повествованию). Решить проблему низкой оценки в данном случае также

можно было бы с помощью выравнивания сегментов предложения.

Для того, чтобы подтвердить данное предположение, проведем небольшой

эксперимент с предложением 37 и его английскими переводами (пример 11):

69

Page 70: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

(11) Там, между прочим, он познакомился с помещиком Ноздревым, человеком лет тридцати, разбитным малым, который ему после трех-четырех слов начал говорить «ты». (Source)On this occasion Chichikov made the acquaintance of, among others, a landowner named Nozdrev — a dissipated little fellow of thirty who had no sooner exchanged three or four words with his new acquaintance than he began to address him in the second person singular.  (Hogarth)There, among others, he made the acquaintance of a landed proprietor named Nozdrev, a man of thirty, a wide-awake young fellow, who began to address him as thou after the first three or four words. (Hapgood)There too, incidentally, he made the acquaintance of the landowner Nozdryov, a man of about thirty, a free-and-easy fellow, who after only three or four words, proceeded to address him in familiar terms*. (*in familiar terms means the use of ty («thou»). (Maguire)

Мы разбили каждое предложение на короткие условные сегменты и

получили результаты сравнения сегментов A-Z перевода А с сегментами A-Z

перевода Б. Оценки в данном случае были определены при помощи

инструмента Interactive BLEU score evaluator. В таблице 4 представлены

выделенные короткие сегменты предложений из переводов Ч. Хогарта и

И. Хэпгуд и результаты оценки каждого из сегментов. Цветом выделены

сегменты, получившие наиболее высокие оценки в случае, когда за эталон

принимался перевод И. Хэпгуд, в рамке — наиболее высокие оценки при

переводе-эталоне Ч. Хогарта.

Hogarth / Hapgood There among othershe made the acquaintance of

a landed proprietor named Nozdrev

a man of thirty

a wide-awake young fellow

who began to address him as thou

after the first three or four words

On this occasion 22,59 30,33 5,34 5,34 7,99 7,99 3,28 2,76Chichikov made the acquaintance of 5,34 5,34 66,87 5,34 12,44 6,22 3,28 6,57among others 50,00 100,00 11,16 5,34 7,99 7,99 3,28 3,28a landowner named Nozdrev 7,99 7,99 6,22 27,53 15,97 15,97 3,28 3,28a dissipated little fellow of thirty 4,06 4,06 8,12 8,12 17,97 11,52 3,28 3,28who had no sooner exchanged three or four words with his new acquaintance 1,54 1,54 3,09 1,54 1,54 1,54 3,09 19,34than he began to address him in the second person singular. 1,69 1,69 4,03 1,69 1,69 1,69 21,20 3,39

Таблица 4. Переводы Ч. Хогарта и И. Хэпгуд, разбитые на короткие сегменты и их оценки по метрике BLEU.

Рассчитав средний бал всего предложения (путем деления суммы

наиболее высоких оценок каждого сегмента на количество сегментов),

70

Page 71: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

получаем, что оценка BLEU данных предложений могла быть 39.86 – 40.46

соответственно (в зависимости от того, какой из переводов считать

эталоном). Оценка BLEU данного предложения полностью, без разделения

на более короткие сегменты, составляет 22.78 – 22.95. Получается, что такой

способ выравнивания и сравнения с эталонным переводом улучшил

показатель в 1.7 раза, тем самым приблизив автоматическую оценку к той,

которую должны получать профессиональные переводы.

Стоит упомянуть, что мы также провели сравнение переводов

Ч. Хогарта и Р. Магуайра, Р. Магуайра и И. Хэпгуд. Были получены

следующие результаты: BLEU при сравнении предложений из переводов Ч.

Хогарта и Р. Магуайра, разделенных на короткие сегменты — 27.39 – 29.86,

оценка предложений полностью — 17.25 – 17.44. Оценка по метрике BLEU

предложений Р. Магуайра и И. Хэпгуд в соответствии с данным способов

выравнивания и сравнения — 46.21 – 51.18, предложений полностью — 33.24

– 32.22. Таким образом, такой способ выравнивания и сравнения перевода-

кандидата с переводом-эталоном может позволить улучшить оценки

переводов по крайней мере в 1.5 раза. Очевидно, что подобный способ мог

бы существенно повлиять на результаты работы автоматических метрик.

Стоит заметить, что, конечно, такой ручной способ разделения предложений

на сегменты и попарного сравнения всех из них, можно было бы

существенно доработать и автоматизировать. И если автоматическое

разделение на короткие смысловые сегменты может составлять

определенную трудность, то реализация способа сравнивать все сегменты A-

Z перевода A с сегментами A-Z перевода B представляет собой вполне

достижимую цель.

Как отмечалось выше, из числа остальных метрик, чьи результаты

обработки переводов были получены, большего доверия заслуживают

метрики GTM–3, Ol, ROUGE-L. Примечательно, что именно GTM–3, Ol,

ROUGE-L дают одинаковые результаты при сравнении пары переводов вне

зависимости от того, какой из переводов берется за эталон. Это объясняется 71

Page 72: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

самими принципами работы данных метрик: все они подсчитывают

совпадения в нескольких переводах и их различные параметры.

Метрика ROUGE-L дает самый высокий бал из всех полученных по

всем метрикам (0.875) сегменту №33 при сравнении работ Р. Магуайра и И.

Хэпгуд (см. пример 5). GTM–3 оценивает наиболее высоко также сегмент из

переводов Р. Магуайра и И. Хэпгуд: №30 — 0.7501 (см. пример 3). Самая

высокая оценка по метрике Ol — 0.7143 была также дана сегменту №33 при

сравнении перевод Р. Магуайра и И. Хэпгуд.

Можно прийти к выводу, что хоть и перечисленные выше метрики и

дают сравнительно высокие результаты, они требуют серьезной доработки.

При расчете оценок большой фокус делается на использовании одинаковых

слов и выражений в переводах, за счет чего короткие и однозначные

предложения оцениваются выше, чем остальные. Когда предложение назвать

однозначным нельзя, как в случае с примером 11, даже короткие сегменты

получают уже не такие высокие оценки. В примере 11 представлен сегмент

№44, бал BLEU для которого составил 0.13, GTM–3 = 0.22, Ol = 0.35 и

ROUGE-L = 0.44 (Магуайр (эталон) — Хэпгуд), BLEU = 0.04, GTM–3 = 0.12,

Ol = 0.35 и ROUGE-L = 0.35 (Хогарт (эталон) — Хэпгуд):

(12) «Ну, баба, кажется, крепколобая!» — подумал про себя Чичиков. (Source)

“She seems a truly obstinate old woman!” was Chichikov’s inward comment. (Hogarth)

«Well, she`s a hard-headed woman, » said Chichikov to himself. (Hapgood)

«Well, it looks like we have a thick-headed old hag here!» Chichikov thought to himself.

(Maguire)

Необходимость передать авторскую манеру повествования Н.В. Гоголя,

а также особенности русской разговорной речи делает задачу перевода

примера 11 трудной для переводчиков, что и приводит к большому

количеству различий в их работах. Это, в свою очередь, низко оценивается

данными метриками. Однако любой читатель, увидев три варианта перевода,

сможет утверждать, что они не настолько неудовлетворительны, какими их 72

Page 73: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

предлагают считать оценки метрик.

73

Page 74: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Выводы к главе 2

На основе исследованного материала можно сделать следующие

выводы:

1. Выбранные в качестве материала для сравнения отрывки

произведений представляют собой профессиональные переводы

художественных текстов. Каждый из переводов обладает своими

характерными особенностями, однако все они были сделаны известными и

уважаемыми переводчиками, что дает основание считать данные переводы

верными и качественными.

2. Подготовка материала для проведения исследования — важный этап,

который может в большой степени повлиять на полученные результаты. Для

улучшения результатов можно было бы выбрать следующий способ

выравнивания: автоматически делить тексты на сравнительно короткие

сегменты, затем производить сравнение сегмента А из оригинального текста

со всеми сегментами А-Z переводного текста. Схема соответствия после

проведения такого выравнивания представляет следующее: сегмент A

(source) — A (target), если сегменты совпали. B (source) — D (target) — если в

переводном тексте были произведены некие перемещения элементов. И C

(source) — (target), если сегмент не был переведен. Тогда, можно

предположить, для некоторых из переводов соответствия были бы найдены в

последующих сегментах, и общая оценка перевода была бы выше.

3. Использованные инструменты для оценки переводов — Asiya и MT-

ComparEval — обладают богатыми репозиториями метрик и могут быть

использованы при дальнейших исследованиях данной темы. Однако, в то же

время нельзя не отметить тот факт, что существует ряд ограничений,

связанный с работой данных инструментов. В настоящее время (апрель 2018)

расчет показателей метрик в Asiya временно недоступен. MT-ComparEval же

доступен для работы, однако извлечение результатов для текстов на русском

языке может вызывать определенные трудности.

74

Page 75: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

4. Общее количество полученных значений по всем метрикам

составляет 3900 значений. Результаты анализа данных значений метрик

подтверждают выдвинутую гипотезу: автоматические метрики оценки

качества переводов не дают высоких результатов при работе с

профессиональными художественными переводами. Другими словами, они

оценивают переводы, которые по праву можно считать качественными (так

как их выполнили профессиональные переводчики) как переводы

неудовлетворительные, нуждающиеся в доработке.

5. Метрики NIST, -WER, -PER, -TERbase в программе Asiya при оценке

переводов поэмы «Мертвые души» дают результаты, которые можно назвать

некорректными. Метрика METEOR-ex оценивает все работы ниже среднего,

что дает основания полагать, что метрика слишком «строга». Только BLEU,

GTM–3, Ol и ROUGE-L дают результаты, на основании которых можно

делать выводы о качестве переводов. Можно предположить, что

использование таких автоматических способов оценки переводов может быть

полезным в исследованиях, для которых в переводе важна близость к

оригинальному тексту и сохранение (по возможности) исходных структур.

Однако в целом эти результаты говорят о недостаточно высоком качестве

работ. Это, в свою очередь, свидетельствует о том, что данные метрики

нуждаются в серьезной доработке.

6. Несмотря на то, что метрики GTM-3, Ol, ROUGE-L дают более

высокие результаты, чем BLEU, вероятно, в дальнейшем стоит все-таки

развивать и улучшать именно работу метрики BLEU. Метрики GTM-3, Ol,

ROUGE-L фокусируются на использовании одинаковых слов и выражений в

переводах, за счет чего короткие и однозначные предложения оцениваются

выше, чем остальные.

7. К возможным способам улучшения работы метрик можно отнести

следующие: выравнивание сегментов предложения, подключение словаря

синонимов, обучение системы оценки перевода принципам транслитерации,

применение систем автоматического разрешения кореференции, 75

Page 76: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

подключение морфологических анализаторов, подключение системы, схожей

с существующими словарями концептов, где основные понятия включены в

семантическую сеть. Очевидно, что работа в данных направлениях

улучшения уже ведется. Так, например, разработчики метрик уже стремятся

учитывать синонимы при создании различных мер.

76

Page 77: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Заключение

В настоящей работе была предпринята попытка исследовать

автоматические метрики оценки переводов с помощью художественных

переводов, выполненных профессиональными переводчиками.

Был проведен эксперимент, в ходе которого мы оценили

художественные переводы с помощью автоматических метрик. Эталоном

послужили профессиональные переводы, с которыми сравнивались

переводы-кандидаты, выполненные другими профессиональными

переводчиками. Были получены результаты работы различных метрик, затем

проанализированы оценки всех сегментов оригинального текста и вариантов

перевода. Мы проанализировали элементы, получившие самые высокие и

низкие оценки и предложили, что именно может улучшить результаты

работы метрик.

Для достижения поставленной цели — оценки качества работы

автоматических метрик и выявления возможных способов улучшения их

работы — было проведено исследование отрывков из семи переводов двух

художественных произведений: трех английских переводов поэмы «Мертвые

души» Николая Васильевича Гоголя, двух испанских и двух английских

переводов романа «Хитроумный идальго Дон Кихот Ламанчский» Мигеля де

Сервантеса.

Для получения результатов работы метрик использовались системы

Asiya и MT-ComparEval. Они позволяют узнать балы разных сегментов по

следующим метрикам: BLEU, GTM–3, NIST, –WER, –PER, Ol, –TERbase,

METEOR-ex, ROUGE–L (Asiya), BREVITY-PENALTY, BLEU, BLEU–cased,

PRECISION, RECALL, F–MEASURE (MT-ComparEval).

Следует отметить, что для улучшения представления о качестве работы

самих систем Asiya и MT-ComparEval для данных языковых пар необходимо

провести гораздо более обширное исследование. Однако мы не располагаем

77

Page 78: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

достаточными средствами для достижения этой цели в рамках данной

дипломной работы.

В ходе исследования мы пришли к выводу, что в целом, на данный

момент работу исследованных метрик нельзя назвать удовлетворительной.

Представленные переводы не получают высоких оценок и в соответствии с

данными метрик не являются эквивалентными оригиналу.

К возможным способам улучшения работы метрик можно отнести

следующие: подключение словаря синонимов, обучение системы оценки

перевода принципам транслитерации, применение систем автоматического

разрешения кореференции, подключение морфологических анализаторов,

подключение системы, схожей с существующими словарями концептов, где

основные понятия включены в семантическую сеть.

Кроме того, более высокие оценки можно получить, если использовать

выравнивание не целых предложений, а их более коротких фрагментов. Если

сравнивать каждый короткий фрагмент эталона со всеми фрагментами

перевода-кандидата, учитывая наиболее высокие оценки, то можно

увеличить оценку всего сегмента, тем самым улучшив работу метрик.

Разработка алгоритма или программы, позволяющей сравнивать все

сегменты A-Z перевода A с сегментами A-Z перевода B, кажется нам вполне

реальной. Однако автоматическое деление текста на короткие смысловые

сегменты представляет определенную трудность.

78

Page 79: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Список литературы

1. Арутюнова И.А. Лексические средства характеризации героев в

английских переводах романа Н.В. Гоголя «Мертвые души». ВКР,

рукопись. СПб, 2016.

2. Баранов A.Н. Введение в прикладную лингвистику: Учебное пособие.

М.: Эдиториал УРСС, 2001.

3. Бархударов Л.С. Язык и перевод (Вопросы общей и частной теории

перевода). М.: Международные отношения, 1975.

4. Басинский П. Несгораемое слово. [Электронный ресурс -

https://rg.ru/2012/11/20/lubimov.html], 2012.

5. Беляева Л. Н., Откупщикова М. И. Автоматический (машинный)

перевод // Прикладное языкознание / под. ред. Герда А. С. СПб., 1996.

6. Виноградов B.C. Лексические вопросы перевода художественной

прозы. М.: Изд-во Московского университета, 1978.

7. Галинская Т.Н. Иноязычное деловое общение в подготовке

специалистов переводчиков: монография. Оренбург: ГОУ ОГУ, 2009.

8. Джваршейшвили Р.Г. Психологическая проблема художественного

перевода. Тбилиси: Мецниереба, 1984.

9. Казакова Т.А. Практические основы перевода. English <=> Russian.

СПб.: Издательство Союз, 2001.

10.Комиссаров В.Н. Теория перевода (лингвистические аспекты). М.:

Высшая школа, 1990.

11.Кэтфорд Дж. Лингвистическая теория перевода. Вопросы теории

перевода в зарубежной лингвистике. М., 1978.

12.Латышев Л.К. Перевод: проблемы теории, практики и методики

преподавания. М.: Просвещение, 1988.

13. Литературное наследство / Ред.: Анисимов И.И. (гл. ред.), Благой Д.Д.,

Бушмин А.С., Виноградов В.В., Дубовиков А.Н., Зильберштейн И.С.,

Макашин С.А., Муратова К.Д., Самарин Р.М., Тимофеев Л.И., 79

Page 80: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Трифонов Н.А., Храпченко М.Б., Щербина В.Р. Том 75: Толстой и

зарубежный мир. Кн. 1. М.: Наука, 1965.

14.Мельников Н. Портрет без сходства: Владимир

Набоков в письмах и дневниках современников (1910—1980е годы).

М.: Новое литературное обозрение, 2015.

15.Митренина О.В. Машинный перевод // Прикладная и компьютерная

лингвистика. М.: URSS, 2016.

16.Нестеренко О.В. Поэма Н.В. Гоголя "Мертвые души" в англоязычных

переводах XIX - XXI вв. [Электронный ресурс

-http://cheloveknauka.com/poema-n-v-gogolya-mertvye-dushi-v-

angloyazychnyh-perevodah-xix-xxi-vv#ixzz5CqZizMk9]. 2010.

17.Никитина Н.В. Эстетическая функция художественного стиля

[Электронный ресурс - https://cyberleninka.ru/article/v/esteticheskaya-

funktsiya-hudozhestvennogo-stilya], 2008.

18.Попович А. Проблемы художественного перевода М.: Высшая школа,

1980.

19.Чуковский К.И. Высокое искусство. М.: Советский писатель, 1968.

20.Швейцер А.Д. К вопросу об анализе грамматических явлений при

переводе. Тетради переводчика. - Вып. 1. - М., 1963.

21.Шиллингер, Л. Эдит Гроссман про испанскую литературу и

переводческие ловушки [Электронный ресурс -

https://www.livelib.ru/translations/post/19828-edit-grossman-pro-

ispanskuyu-literaturu-i-perevodcheskie-lovushki]. 2016.

22.Эткинд Е.Г. Художественный перевод: искусство и наука. Вопросы

языкознания. М., 1970, № 4.

23.ALPAC Report, Language and Machines — Computers in Translation and

Linguistics. A Report by the Automatic Language Processing Advisory

Committee. Washington, DC, 1966.

80

Page 81: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

24.Amigó E., Gonzalo J., Giménez J., Verdejo F. Corroborating text evaluation

results with heterogeneous measures. In Proc. of the EMNLP, Edinburgh,

UK, 2011.

25.Banerjee S., Lavie, A. METEOR: An Automatic Metric for MT Evaluation

with Improved Correlation with Human Judgments. Proceedings of ACL

Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or

Summarization. 2005.

26.Bloom H. The knight in the mirror. [Электронный ресурс -

https://www.theguardian.com/books/2003/dec/13/classics.miguelcervantes].

2003.

27.Bojar O., Buck C., Callison-Burch C., Federmann C., Haddow B., Koehn P.,

Monz C., Post M., Soricut R., Specia L. Proc. VIII Workshop on Statistical

Machine Translation. Sofia, 2013.

28.Denkowski M., Lavie A. Meteor-next and the meteor paraphrase tables:

Improved evaluation support for five target languages. Proceedings of the

Joint Fifth Workshop on Statistical Machine Translation and MetricsMATR.

2010.

29.Doddington G. Automatic Evaluation of Machine Translation Quality Using

N–gram Co-Occurrence Statistics. Proceedings of the 2nd International

Conference on Human Language Technology. San Diego, California, 2002.

30.Fuentes C. Tilt. [Электронный ресурс -

https://www.nytimes.com/2003/11/02/books/tilt.html]. 2003.

31.Giménez J., Amigó E. IQMT: A Framework for Automatic Machine

Translation Evaluation. Proceedings of the 5th International Conference on

Language Resources and Evaluation (LREC'06). Genoa, Italy, 2006.

32.Giménez J., Màrquez L. Linguistic Measures for Automatic Machine

Translation Evaluation. Machine Translation. 2010.

33.Giménez J., Gonzàlez M. Asiya. An Open Toolkit for Automatic. Machine

Translation (Meta-) Evaluation. Technical Manual. Version 3.0. TALP

81

Page 82: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Research Center, LSI Department. Universitat Politècnica de Catalunya,

Barcelona. February 2014.

34.Gonzàlez M., Giménez J., Màrquez L. "A Graphical Interface for MT

Evaluation and Error Analysis".  ACL 2012. System Demonstrations. 2012.

35.Holmes J. The Name and Nature of Translation Studies. The Translation

Studies. Reader. Ed. by L.Venuti. London, New York, Routledge Publ.,

2000.

36.King M., Falkedal K. Using Test Suites in Evaluation of MT Systems. In

Proceedings of the 13th International Conference on Computational

Linguistics (COLING), 1990.

37.Koehn P. Statistical Machine Translation. Cambridge, UK, 2010.

38.Lin C.Y, Och F. J. ORANGE: a Method for Evaluating Automatic

Evaluation Metrics for Machine Translation. Geneva, Switzerland, 2004b. 

39.Lin C.Y., Och F. J. Automatic Evaluation of Machine Translation Quality

Using Longest Common Subsequence and Skip-Bigram Statics. Proceedings

of the 42nd Annual Meeting of the Association for Computational

Linguistics (ACL). 2004a.

40.Maguire R.A. Gogol from the twentieth century: eleven essays. Princeton,

N.J.: Princeton University Press, 1974.

41.Maguire R.A. Exploring Gogol. Studies of the Harriman Institute. Stanford:

Stanford University Press, 1994.

42.Manning Christopher D., Schütze H. Foundations of Statistical Natural

Language Processing. MIT Press. Cambridge, MA, 1999.

43.Melamed I. D., Green R., Turian J. P. Precision and Recall of Machine

Translation. Proceedings of the Joint Conference on Human Language

Technology and the North American Chapter of the Association for

Computational Linguistics (HLT-NAACL). 2003a.

44.Melamed I. D., Turian J. P., Shen L. Evaluation of Machine Translation and

its Evaluation. Proceedings of MT SUMMIT IX. 2003b.

82

Page 83: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

45.Nießen S., Och F. J., Leusch G., Ney H. An Evaluation Tool for Machine

Translation: Fast Evaluation for MT Research. Proceedings of the 2nd

International Conference on Language Resources and Evaluation (LREC).

Athens, Greece, 2000.

46.Ormsby J. Translator's Preface. Don Quixote, by Miguel de Cervantes

Saavedra. [Электронный ресурс -

http://www.gutenberg.org/cache/epub/996/pg996-images.html]. 2004.

47.Papineni K., Roukos S., Ward T., Zhu W.-J. Bleu: a method for automatic

evaluation of machine translation, RC22176 (Technical Report). IBM T.J.

Watson Research Center. Philadelphia, Pennsylvania, USA, 2001.

48.Snover M., Dorr B., Schwartz R., Micciulla L., Makhoul J. A Study of

Translation Edit Rate with Targeted Human Annotation. Proceedings of the

7th Conference of the Association for Machine Translation in the Americas

(AMTA), 2006.

49.Snover M., Madnani N., Dorr B., Schwartz R. Fluency, adequacy, or HTER?

Exploring different human judgments with a tunable MT metric.

Proceedings of the Fourth Workshop on Statistical Machine Translation.

Stroudsburg, PA, USA, 2009.

50.Tillmann C., Vogel S., Ney H., Zubiaga A., Sawaf H. Accelerated DP based

Search for Statistical Translation. Proceedings of European Conference on

Speech Communication and Technology. Aachen, Germany, 1997.

51.Troiano F., Permentiers J., Springael E. Translation, Adaptation and

Multilingual Editing. A user's guide to linguistic and multimedia services.

T.C.G. Editions. Brussels, 2002.

52.Wołk K., Marasek K. Neural-based Machine Translation for Medical Text

Domain. Based on European Medicines Agency Leaflet Texts». Procedia

Computer Science 64 (64), 2015. Pp. 2–9.

83

Page 84: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Список источников1. Cervantes Saavedra, Miguel de. Don Quijote. tr. from sp. Edith Grossman.

HarperCollins: 2005.

2. Cervantes Saavedra, Miguel de. El ingenioso hidalgo Don Quijote de la

Mancha.[Электронный ресурс - http://www.gutenberg.org/ebooks/2000].

3. Cervantes Saavedra, Miguel de. The Ingenious Gentleman Don Quixote of

La Mancha. tr.from sp. John Ormsby. Digireads.com: 2009.

4. Gogol N. Chichikov`s Journeys or Dead Souls. tr. from rus.

Isabel F. Hapgood, 2010.

5. Gogol N. Dead Souls. tr. from rus. C. J. Horagth [Электронный ресурс -

https :// ebooks . adelaide . edu . au / g / gogol / nikolai / g 61 d / complete . html ].

6. Gogol N. Dead Souls. tr. from rus. Robert A. Maguire. London: Penguin,

2004.

7. Гоголь Н.В. Мертвые души. СПб., 2014.

8. Сервантес Сааведра, Мигель де. Хитроумный идальго Дон Кихот

Ламанчский. Обраб. для детей и [послесл. написал] Б.М. Энгельгардт.

Ленинград: Дет. лит. Ленингр. отд-ние, 1977.

9. Сервантес Сааведра, Мигель де. Хитроумный идальго Дон Кихот

Ламанчский. Пер. с исп. Н.Любимова. М.: Правда, 1989.

84

Page 85: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Приложение 1. Результаты оценки сегментов в Asiya (Ч. Хогарт (эталон) – И. Хэпгуд (перевод-кандидат)

Systems Segment BLEU GTM-3 NIST -WER -PER Ol -

TERbaseMETEOR-

exROUGE-

L

Hapgood.txt 1 0.0682 0.0938 2.398 -0.8103 -0.6724 0.25 -0.7586 0.1237 0.2857

Hapgood.txt 2 0.0811 0.1442 1.5709 -0.8056 -0.6944 0.2292 -0.8056 0.1089 0.2128

Hapgood.txt 3 0.0838 0.1065 3.553 -1.2895 -0.8421 0.3043 -1.1579 0.2065 0.3684

Hapgood.txt 4 0.005 0.0379 0.0503 -0.9412 -0.9118 0.0667 -0.9706 0.0272 0.0674

Hapgood.txt 5 0.0448 0.0969 1.338 -0.913 -0.7391 0.2097 -0.8478 0.109 0.2727

Hapgood.txt 6 0.1588 0.169 3.586 -0.625 -0.5938 0.2857 -0.625 0.1588 0.4912

Hapgood.txt 7 0.0711 0.1164 3.2035 -0.7188 -0.6563 0.24 -0.6875 0.1373 0.3704

Hapgood.txt 8 0.2269 0.1886 6.2659 -0.7097 -0.3548 0.4762 -0.6452 0.2568 0.5862

Hapgood.txt 9 0.0581 0.0609 4.4214 -0.7738 -0.4643 0.3852 -0.7381 0.1946 0.4189

Hapgood.txt 10 0.0649 0.0634 3.2158 -0.8125 -0.6 0.252 -0.775 0.1497 0.3429

Hapgood.txt 11 0.0386 0.0523 3.3218 -1.0244 -0.7195 0.2837 -0.9634 0.1653 0.3375

Hapgood.txt 12 0.0549 0.0792 2.6742 -0.7544 -0.6842 0.2069 -0.7368 0.0926 0.3061

Hapgood.txt 13 0.0151 0.0598 0.1178 -0.8539 -0.764 0.2157 -0.8539 0.0831 0.2264

Hapgood.txt 14 0.0373 0.1185 0.0867 -0.8033 -0.7213 0.2576 -0.8525 0.1257 0.3562

Hapgood.txt 15 0.1267 0.1536 2.5526 -0.72 -0.56 0.3667 -0.66 0.186 0.4267

Hapgood.txt 16 0.0265 0.1291 0.0782 -0.7949 -0.7436 0.2927 -0.7692 0.0921 0.3265

Hapgood.txt 17 0.1334 0.1006 3.3199 -0.9375 -0.5781 0.2813 -0.8594 0.1291 0.3091

Hapgood.txt 18 0.0657 0.1121 3.2573 -0.871 -0.5484 0.3333 -0.7742 0.1475 0.3137

Hapgood.txt 19 0.0654 0.0625 3.6475 -1.039 -0.6883 0.3643 -0.974 0.1936 0.3026

Hapgood.txt 20 1 1 11.1553 0 0 1 0 1 1

Hapgood.txt 21 0.0878 0.0988 3.4249 -0.6949 -0.5593 0.36 -0.6441 0.1667 0.4255

85

Page 86: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Systems Segment BLEU GTM-3 NIST -WER -PER Ol -

TERbaseMETEOR-

exROUGE-

L

Hapgood.txt 22 0.0457 0.1171 1.7007 -0.9412 -0.9412 0.1515 -0.9412 0.0742 0.3243

Hapgood.txt 23 0.1153 0.0971 3.4674 -0.7857 -0.5857 0.2885 -0.7571 0.1403 0.3077

Hapgood.txt 24 0.0713 0.054 4.1407 -0.981 -0.6381 0.3743 -0.9524 0.2139 0.3774

Hapgood.txt 25 0.0896 0.0707 2.0328 -0.824 -0.648 0.2683 -0.832 0.1189 0.2045

Hapgood.txt 26 0.004 0 0.0588 -

12.7143-

12.7143 0 -9.8889 0 0

Hapgood.txt 27 0.0048 0 0.0698 -

10.7143-

10.7143 0 -8.3333 0 0

Hapgood.txt 28 0.0064 0 0.0918 -8.1429 -8.1429 0 -6.3333 0 0

Hapgood.txt 29 0.0036 0 0.0518 -

14.4286-

14.4286 0 -11.2222 0 0

Hapgood.txt 30 0.0245 0 0.3271 -2.2857 -2.2857 0 -1.7778 0 0

Hapgood.txt 31 0.0342 0.0748 1.9209 -0.9744 -0.8205 0.1831 -0.9487 0.0934 0.2632

Hapgood.txt 32 0.1079 0.0891 3.7403 -0.6933 -0.5333 0.3431 -0.6667 0.1754 0.437

Hapgood.txt 33 0.0683 0.1607 0.6005 -0.7941 -0.7941 0.1556 -0.7941 0.0863 0.2174

Hapgood.txt 34 0.0775 0.0759 2.1417 -0.7629 -0.6289 0.3089 -0.7216 0.1441 0.3662

Hapgood.txt 35 0.0888 0.0458 3.4338 -0.891 -0.5321 0.3404 -0.8013 0.1594 0.3296

Hapgood.txt 36 0.0552 0.086 2.3328 -0.8298 -0.6596 0.2162 -0.8085 0.1038 0.2564

Hapgood.txt 37 0.2278 0.1468 5.5214 -0.8125 -0.4375 0.4355 -0.5833 0.2775 0.4

Hapgood.txt 38 0.0832 0.1562 0.7263 -0.8372 -0.7442 0.2222 -0.814 0.0997 0.2333

Hapgood.txt 39 0.0499 0.1396 0.6958 -0.8276 -0.7586 0.1842 -0.8276 0.0746 0.1538

Hapgood.txt 40 0.194 0.1039 3.9246 -0.5783 -0.4819 0.434 -0.506 0.185 0.5256

Hapgood.txt 41 0.0453 0.0559 4.1484 -0.875 -0.4659 0.408 -0.75 0.1732 0.3562

Hapgood.txt 42 0.0988 0.0881 3.3189 -0.7368 -0.6053 0.2981 -0.7105 0.1573 0.3519

Hapgood.txt 43 0.1023 0.0902 3.4084 -0.8065 -0.5484 0.3021 -0.7097 0.1732 0.4

Hapgood.txt 44 0.04 0.1234 3.3069 -0.6875 -0.5625 0.3478 -0.6875 0.1348 0.3478

Hapgood.tx 45 0.4104 0.3444 7.7716 -0.4091 -0.2727 0.5926 -0.4091 0.4125 0.6875

86

Page 87: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Systems Segment BLEU GTM-3 NIST -WER -PER Ol -

TERbaseMETEOR-

exROUGE-

L

t

Hapgood.txt 46 0.0689 0.1541 1.8452 -0.8148 -0.6667 0.2571 -0.7407 0.1582 0.2564

Hapgood.txt 47 0.0362 0.1041 1.4491 -0.8077 -0.7692 0.1579 -0.8077 0.0591 0.2632

Hapgood.txt 48 0.0286 0.0877 1.5249 -0.8947 -0.7895 0.1471 -0.8947 0.0797 0.1875

Hapgood.txt 49 0.0783 0.1443 2.6796 -0.9524 -0.8095 0.2368 -0.9048 0.133 0.359

Hapgood.txt 50 0.1003 0.1995 3.1701 -0.65 -0.55 0.36 -0.65 0.1669 0.4375

87

Page 88: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Приложение 2. Результат оценки сегментов в MT-ComparEval (Дж. Ормсби (эталон) – Э. Гроссман (перевод-кандидат)

Source

En un lugar de la Mancha , de cuyo nombre no quiero acordarme , no ha mucho tiempo que vivia un hidalgo de los de lanza en astillero , adarga antigua , rocin flaco y galgo corredor .

Ormsby

In a village of La Mancha , the name of which I have no desire to call to mind , there lived not long since one of those gentlemen that keep a lance in the lance - rack , an old buckler , a lean hack , and a greyhound forcoursing .

GrossSomewhere in La Mancha , in a place whose name I do not care to remember , a gentleman lived not long ago , one of those who has a lance and ancient shield on a shelf and keeps a skinny nag and a greyhound for racing .

BREVITY-PENALTY BLEU-cis BLEU PRECISION RECALL F-MEASUREOrmsby 1 12.22 11.86 21.06 23.24 22.1Gross 1 100 100 100 100 100Diff 0.0000 -87.7800 -88.1400 -78.9400 -76.7600 -77.9000

Source

Una olla de algo mas vaca que carnero , salpicon las mas noches , duelos y quebrantos los sabados , lentejas los viernes , algun palomino de anadidura los domingos , consumian las tres partes de su hacienda .

Ormsby

An olla of rather more beef than mutton , a salad on most nights , scraps on Saturdays , lentils on Fridays , and a pigeon or so extra on Sundays , made away with three - quarters of his income .

GrossAn occasional stew , beef more often than lamb , hash most nights , eggs and abstinence on Saturdays , lentils on Fridays , sometimes squab as a treat on Sundays - these consumed three - fourths of his income .

BREVITY-PENALTY BLEU-cis BLEU PRECISION RECALL F-MEASUREOrmsby 1 28.81 28.81 33.27 34.08 33.67Gross 1 100 100 100 100 100Diff 0.0000 -71.1900 -71.1900 -66.7300 -65.9200 -66.3300Source

El resto della concluian sayo de velarte , calzas de velludo para las fiestas con sus pantuflos de lo mismo , los dias de entre semana se honraba con su vellori de lo mas fino .

Ormsby

The rest of it went in a doublet of fine cloth and velvet breeches and shoes to match for holidays , while on weekdays he made a brave figure in his best homespun .

Gross The rest went for a light woolen tunic and velvet breeches and hose of the same material for feast days , while weekdays were honored with dun - colored coarse cloth .

BREVITY-PENALTY BLEU-cis BLEU PRECISION RECALL F-MEASUREOrmsby 1 10.65 10.65 17.82 20.01 18.85Gross 1 100 100 100 100 100Diff 0.0000 -89.3500 -89.3500 -82.1800 -79.9900 -81.1500

SourceTenia en su casa una ama que pasaba de los cuarenta , y una sobrina que no llegaba a los veinte , y un mozo de campo y plaza , que asi ensillaba el rocin como tomaba la podadera .

Ormsby

He had in his house a housekeeper past forty , a niece under twenty , and a lad for the field and market - place , who used to saddle the hack as well as handle the bill - hook .

Gross He had a housekeeper past forty , a niece not yet twenty , and a man - of - all - work who did everything from saddling the horse to pruning the trees .BREVITY-PENALTY BLEU-cis BLEU PRECISION RECALL F-MEASURE

88

Page 89: Введение  · Web view2018. 7. 27. · * An insulting word when used towards a man, derived from the letter θ, which is considered an impolite letter by some. — remark

Ormsby 1 23.42 23.42 26.79 32.3 29.29Gross 1 100 100 100 100 100Diff 0.0000 -76.5800 -76.5800 -73.2100 -67.7000 -70.7100Source

Frisaba la edad de nuestro hidalgo con los cincuenta anos , era de complexion recia , seco de carnes , enjuto de rostro ; gran madrugador y amigo de la caza .

Ormsby

The age of this gentleman of ours was bordering on fifty ; he was of a hardy habit , spare , gaunt - featured , a very early riser and a great sportsman .

Gross Our gentleman was approximately fifty years old ; his complexion was weathered , his flesh scrawny , his face gaunt , and he was a very early riser and a great lover of the hunt .

BREVITY-PENALTY BLEU-cis BLEU PRECISION RECALL F-MEASUREOrmsby 0.944459137 21.48 21.21 27.8 26.26 27.01Gross 1 100 100 100 100 100Diff -0.0555 -78.5200 -78.7900 -72.2000 -73.7400 -72.9900

Source

Quieren decir que tenia el sobrenombre de Quijada o Quesada ( que en esto hay alguna diferencia en los autores que deste caso escriben ) , aunque por conjeturas verosimiles se deja entender que se llama Quijana ; pero esto importa poco a nuestro cuento ; basta que en la narracion del no se salga un punto de la verdad .

Ormsby

They will have it his surname was Quixada or Quesada ( for here there is some difference of opinion among the authors who write on the subject ) , although from reasonable conjectures it seems plain that he was calledQuexana . This , however , is of but little importance to our tale ; it will be enough not to stray a hair ' s breadth from the truth in the telling of it .

Gross

Some claim that his family name was Quixada , or Quexada , for there is a certain amount of disagreement among the authors who write of this matter , although reliable conjecture seems to indicate that his name wasQuexana . But this does not matter very much to our story ; in its telling there is absolutely no deviation from the truth .

BREVITY-PENALTY BLEU-cis BLEU PRECISION RECALL F-MEASUREOrmsby 1 10.43 10.23 18.94 22.47 20.55Gross 1 100 100 100 100 100Diff 0.0000 -89.5700 -89.7700 -81.0600 -77.5300 -79.4500

89