machine learning в Модерации - Андрей Рыбинцев (avito)

Post on 05-Apr-2017

126 Views

Category:

Internet

9 Downloads

Preview:

Click to see full reader

TRANSCRIPT

MLвМодерацииПрименениемашинногообученияианализаданных

впроцессахмодерации АвитоАндрейРыбинцев

Модерация вАвито

Объявление

Неправильнаякатегория

Запрещённыйтовар

...

Правила

Автоматизация

• Экспертныеправила• \b(куплю|приобрету|прим(?:у|ет) вдар)\b =>Объявлениеопокупке

• Новыеавтомобили:Цена<150000=>Нереалистичнаяцена

• Машинноеобучение

Пример:запрещённыйтовар

Пистолет

Запрещённыйтовар(оружие)

Визуальныеклассы

Классификатор(нейронныесети)

Базаданныхразмеченныхизображений

Изображение

Визуальныйкласс

1500+классов

Визуальныеклассы

Блокпитания

Клатч

Нож

ВАЗ2107

Пример:несоответствующеефото

Фотонеявляетсясобственным

Нетлица Нетлица Нетлица

Пример:неправильнаякатегория

Текстобъявления

Pymorphy2TFIDF

SGDClassifier

cat1:prob1cat2:prob2cat3:prob3

cat1:prob1cat2:prob2cat3:prob3

XGBoostПравильная/неправильнаякатегория

Пример:некорректноеописание

"кхоъ" N-граммы Классификаторпочастотам "плохоеслово"

кх,хо,хъкхо,хоъ

Пример:повторнаяподача

Решениясконкурсов

Инфраструктура

Детектордубликатов

5000+строккода500+воркеров

250+GB10k+hits/s ML

Аналитика

Обоснованиепроблемы

Реализация

Оценка

Инфраструктура ML

Метрикиикачество

• Автоматическийрежим• Нарушение=блокировка

• Важнонезаблокироватьлишнее

Precision->1.0

• Подсказкимодераторам• Нарушение=подсказка

• Важнонепропуститьничего

Recall->1.0

Вопросы?АндрейРыбинцев

UnitLeader@ModerationSystemsarybintsev@avito.ru

top related