Семинар “machine learning” рук. проф.: Е.Л. Столов, В.Д....

18
Семинар “Machine Learning” рук. проф.: Е.Л. Столов, В.Д. Соловьев • Учебник Бишопа http://research.microsoft.com/en -us/um/people/cmbishop/prml/ • Стэнфордский курс http://videolectures.net/stanfor dcs229f07_machine_learning/

Post on 21-Dec-2015

237 views

Category:

Documents


6 download

TRANSCRIPT

Семинар “Machine Learning”рук. проф.: Е.Л. Столов, В.Д. Соловьев

• Учебник Бишопа http://research.microsoft.com/en-us/um/people/cmbishop/prml/

• Стэнфордский курс http://videolectures.net/stanfordcs229f07_machine_learning/

Пример

Линейная аппроксимация

Использование данных Google Labs для исследования

эволюции лексики

В.Д. Соловьев, Э.Ю. Лернер Казанский федеральный университет

GOOGLE BOOKS & Ngram Viewer

• GOOGLE BOOKS – хорошо известная электронная библиотека, содержащая 15 миллионов книг (12% всех опубликованных в мире книг)

• Для подсчета частоты слов выбрано подмножество из 5 миллионов книг, содержащих 500 миллиардов (!) слов, в том числе, русскоязычная часть – 35 миллиардов слов

• Реализован удобный интерфейс (Ngram Viewer), предоставляющий статистическую информацию в виде графиков

Частотность

• Прагматически мотивированные изменения частотности языковых элементов приводят к эволюции языка (и лексики, и грамматики)

• Межязыковые различия в частотности “являются значимыми с семантической и, в более общем плане, с общекультурной точки зрения” (А. Вежбицкая)

• Трудоемкость изучения частотности

Пример графика: кровь

Преобразование неправильных глаголов английского языка в правильные

Оценки в английском и русском

Эволюция лексики

• Слова рождаются, распространяются и умирают

• Графики отражают характер этих процессов

• Задача 1: построить математические модели эволюционных процессов

• Задача 2: объяснить характер этих процессов

Пример: модель роста численности популяций

Типичный график

Линейный рост частоты

Научные термины

Динамика популярности личностей

Динамика популярности личностей (продолжение)

Выводы по динамике распространения слов

• Частота входящих в активный оборот слов растет практически строго по линейному закону

• После короткого пребывания на пике частота падает

• Мало плавных кривых, переход от одной прямой к другой осуществляется быстро

• Также по линейному закону растет частота упоминаний людей или понятий, становящихся популярными

• Проблема. Почему это так?