куликов sketch engine ord
DESCRIPTION
2013 осеньTRANSCRIPT
![Page 1: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/1.jpg)
Основные возможности Sketch Engine
Куликов В.В
https://sketchengine.co.uk/
![Page 2: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/2.jpg)
Содержание
• Введение: цели и особенности • Функции Sketch Engine
– Извлечение лексикографических данных – Создание и сравнение корпусов
• Национальный корпус русского языка • Заключение
2
![Page 3: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/3.jpg)
Sketch Engine: Введение • Продукт компании Lexical Computing,
которую основал Адам Килгариф (Adam Kilgarriff) в 2003 году.
• Был представлен на конференции Euralex 2002
• Использовался при построении Macmillian English Dictionanary
3
![Page 4: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/4.jpg)
Sketch Engine: Цели
• Создание инструмента для изучения лексикографических свойств слов. – На базе корпусов – На базе статистических данных
• Продвижение эмпирического подхода к изучению поведения слов в языке.
4
![Page 5: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/5.jpg)
Sketch Engine: Особенности
• Поддерживает множество языков • Китайский, чешский, английский (американский и
британский), эстонский, финский, греческий, итальянский, японский, польский, румынский, русский, испанский, шведский и др.
• Необходима разметка для входных текстов • Морфологический анализ слов, определение
грамматических отношений • Допускает:
– Работу на разных корпусах, с разной разметкой – Изменение набора грамматических отношений
5
![Page 6: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/6.jpg)
Sketch Engine: Извлечение лексикографических данных
• Word Sketch – поиск слов, связанных с данным словом заданными грамматическими отношениями
• Word List – формирование списка слов по определенному критерию
• Sketch Diff – сравнение Word Sketch для двух слов
• Concordance – вычисление статистики по заданному запросу
• Thesaurus – составление списка квазисинонимов для заданного слова
6
![Page 7: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/7.jpg)
Sketch Engine: Создание и сравнение корпусов
• Corpus Architect – создание корпусов по исходным документам
• WebBootCat – создание корпусов по заданным словам на базе Интернет
• Сравнение корпусов • Просмотр параллельных корпусов
7
![Page 8: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/8.jpg)
Извлечение лексикографических данных
8
![Page 9: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/9.jpg)
Функция Word Sketch • Поиск слов, связанных с данным словом
определенными для корпуса грамматическими отношениями
• Для оценки связности слов используется мера logDice
• Пример отношений: – object_to – объектные отношения
• he scores a goal; достигнуть благородной цели – subject_to – субъектные отношения
• his goal had earned they victory; цель заключалась в том, … – modifier/modifies – атрибутивные отношения
• my ultimate goal; основной целью были деньги 9
![Page 10: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/10.jpg)
Грамматические отношения • Задаются шаблоном с помощью
формального языка CQL (The Corpus Query Language)
Описание языка: http://www.sketchengine.co.uk/documentation/wiki/SkE/CorpusQuerying#1. 10
Грам. отношение: =my_subj/my_subject_of 1:"V.*" “N.*"{0,2} 2:[tag="PP"&word!=«я»] Сопоставление: водить машину она не умела иди ты лесом
![Page 11: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/11.jpg)
Word Sketch: Пример Набор отношений для слова “goal” Второй столбец – частота, третий – мера logDice
11
![Page 12: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/12.jpg)
Мера logDice
)()(),(2log14log 2 bfaf
bafDice+
+=
12
• f – frequency, • f (a, b) – частота совместной встречаемости
пары слов a, b • f (a) – абсолютная частота отдельного слова a
![Page 13: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/13.jpg)
Функция Word List • Формирование списка слов по
определенному критерию (свойству) • Задаётся атрибут
(словоформа, лемма или тег) • Этот атрибут конкретизируется с помощью
регулярного выражения (что именно искать)
13
![Page 14: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/14.jpg)
Word List: Ввод запроса
14
![Page 15: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/15.jpg)
Word List: Результат по запросу Все существительные в корпусе
15
![Page 16: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/16.jpg)
Функция Sketch Diff • Сравнение Word Sketch двух слов
• Для заданных слов: (напр.: clever/intelligent) по каждому грам. отношению (н.: modifier) строится общий список связанных слов.
• Список выводится по возрастанию/убыванию меры logDice – В начале списка идут слова с высоким
значением меры для второго и малым для первого, а в конце – наоборот.
• Для визуализации различий используются красный и зеленый цвета
16
![Page 17: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/17.jpg)
Sketch Diff: Пример
17
![Page 18: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/18.jpg)
Функция Concordance • Вычисление статистики по запросу • Отображаются контексты для слов,
заданных в запросе • Виды запросов
– Простой запрос: все вхождение данного слова – Лемма: все словоформы для данного слова – Фраза: все вхождения фразы – Словоформа: все вхождения данной
словоформы – CQL – запрос на специальном языке CQL
18
![Page 19: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/19.jpg)
Concordance: Ввод простого запроса
19
![Page 20: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/20.jpg)
Concordance: Результат для запроса
20
![Page 21: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/21.jpg)
Функция Thesaurus
• Построение списка квазисинонимов для данного слова (по корпусу)
• Определяется на основе сравнения Word Sketch слов корпуса
21
![Page 22: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/22.jpg)
Функции создания и сравнения корпусов
22
![Page 23: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/23.jpg)
Функция Corpus Architect
• Создание собственного корпуса из документов различного формата: TXT, PDF, PS, DOC, HTML, VERT (или архивы)
• 2 этапа: – Загрузка документов – Разметка документов
(включая морфологический анализ)
23
![Page 24: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/24.jpg)
Corpus Architect: Ввод источника данных
24
![Page 25: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/25.jpg)
Функция WebBootCat • Задаются слова, которые должны встречаться
в документах • В качестве документов – интернет-страницы с
указанными словами • 2 этапа – выборка страниц, их разметка
25
![Page 26: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/26.jpg)
Функция сравнения корпусов
• Производится на основе анализа ключевых слов
• Ключевые слова – слова, наиболее характерные для данного корпуса
26
![Page 27: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/27.jpg)
Сравнение корпусов: Пример
27
![Page 28: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/28.jpg)
Функция просмотра параллельных корпусов
• Параллельный корпус - мультиязычный корпус, где соотнесены текст на одном языке и его перевод на другой язык
• Позволяет изучать, как слова и фразы в одном языке ведут себя в другом языке
28
![Page 29: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/29.jpg)
Параллельные корпуса: Пример
• Английское слово “key” и немецкое “Schlüssel”
29
![Page 30: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/30.jpg)
Национальный корпус русского языка
• Большой размеченный корпус, поделенный на подкорпусы (поэтический, газетный, диалектный и др.) с возможностью поиска по корпусу.
• Ориентирован на изучение поведения слов в различных «стилях» – Газетные статьи, художественная литература,
научная литература и т.п. • http://www.ruscorpora.ru
30
![Page 31: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/31.jpg)
Национальный корпус русского языка: Виды поиска
• На основе морфологической разметки – Задается часть речи или словоформа
(и грам. признаки) • На основе лексико-семантической
информации и Семантического словаря Корпуса – Задается семантическая группа, к которой
относится слово: еда, время и пространство и др. • На основе синтаксической разметки текста
(доступен только для синтаксического корпуса) – Задаются синтаксические отношения
31
![Page 32: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/32.jpg)
Национальный корпус: поиск слов • Поиск по словам с возможным указанием
контекста
32
![Page 33: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/33.jpg)
Национальный корпус: Ввод признаков
Список грамматических признаков для слова
33
![Page 34: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/34.jpg)
Национальный корпус: Результат для запроса
34
![Page 35: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/35.jpg)
Заключение
• Sketch Engine – мощное средство для просмотра, анализа, сбора статистики по текстам заданного корпуса.
• Sketch Engine обладает достаточной гибкостью для работы с самыми разными корпусами
35
![Page 36: куликов Sketch engine ord](https://reader038.vdocuments.us/reader038/viewer/2022102621/555e15f4d8b42a9e188b5516/html5/thumbnails/36.jpg)
Спасибо за внимание
36