machine learning в Модерации - Андрей Рыбинцев (avito)

15
ML в Модерации Применение машинного обучения и анализа данных в процессах модерации Авито Андрей Рыбинцев

Upload: avitotech

Post on 05-Apr-2017

125 views

Category:

Internet


9 download

TRANSCRIPT

Page 1: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

MLвМодерацииПрименениемашинногообученияианализаданных

впроцессахмодерации АвитоАндрейРыбинцев

Page 2: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Модерация вАвито

Объявление

Неправильнаякатегория

Запрещённыйтовар

...

Правила

Page 3: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Автоматизация

• Экспертныеправила• \b(куплю|приобрету|прим(?:у|ет) вдар)\b =>Объявлениеопокупке

• Новыеавтомобили:Цена<150000=>Нереалистичнаяцена

• Машинноеобучение

Page 4: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Пример:запрещённыйтовар

Пистолет

Запрещённыйтовар(оружие)

Page 5: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Визуальныеклассы

Классификатор(нейронныесети)

Базаданныхразмеченныхизображений

Изображение

Визуальныйкласс

1500+классов

Page 6: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Визуальныеклассы

Блокпитания

Клатч

Нож

ВАЗ2107

Page 7: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Пример:несоответствующеефото

Фотонеявляетсясобственным

Нетлица Нетлица Нетлица

Page 8: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Пример:неправильнаякатегория

Текстобъявления

Pymorphy2TFIDF

SGDClassifier

cat1:prob1cat2:prob2cat3:prob3

cat1:prob1cat2:prob2cat3:prob3

XGBoostПравильная/неправильнаякатегория

Page 9: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Пример:некорректноеописание

"кхоъ" N-граммы Классификаторпочастотам "плохоеслово"

кх,хо,хъкхо,хоъ

Page 10: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Пример:повторнаяподача

Page 11: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Решениясконкурсов

Page 12: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Инфраструктура

Детектордубликатов

5000+строккода500+воркеров

250+GB10k+hits/s ML

Page 13: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Аналитика

Обоснованиепроблемы

Реализация

Оценка

Инфраструктура ML

Page 14: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Метрикиикачество

• Автоматическийрежим• Нарушение=блокировка

• Важнонезаблокироватьлишнее

Precision->1.0

• Подсказкимодераторам• Нарушение=подсказка

• Важнонепропуститьничего

Recall->1.0

Page 15: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Вопросы?АндрейРыбинцев

UnitLeader@[email protected]