machine learning в Модерации - Андрей Рыбинцев (avito)
TRANSCRIPT
MLвМодерацииПрименениемашинногообученияианализаданных
впроцессахмодерации АвитоАндрейРыбинцев
Модерация вАвито
Объявление
Неправильнаякатегория
Запрещённыйтовар
...
Правила
Автоматизация
• Экспертныеправила• \b(куплю|приобрету|прим(?:у|ет) вдар)\b =>Объявлениеопокупке
• Новыеавтомобили:Цена<150000=>Нереалистичнаяцена
• Машинноеобучение
Пример:запрещённыйтовар
Пистолет
Запрещённыйтовар(оружие)
Визуальныеклассы
Классификатор(нейронныесети)
Базаданныхразмеченныхизображений
Изображение
Визуальныйкласс
1500+классов
Визуальныеклассы
Блокпитания
Клатч
Нож
ВАЗ2107
Пример:несоответствующеефото
Фотонеявляетсясобственным
Нетлица Нетлица Нетлица
Пример:неправильнаякатегория
Текстобъявления
Pymorphy2TFIDF
SGDClassifier
cat1:prob1cat2:prob2cat3:prob3
…
cat1:prob1cat2:prob2cat3:prob3
…
XGBoostПравильная/неправильнаякатегория
Пример:некорректноеописание
"кхоъ" N-граммы Классификаторпочастотам "плохоеслово"
кх,хо,хъкхо,хоъ
Пример:повторнаяподача
Решениясконкурсов
Инфраструктура
Детектордубликатов
5000+строккода500+воркеров
250+GB10k+hits/s ML
Аналитика
Обоснованиепроблемы
Реализация
Оценка
Инфраструктура ML
Метрикиикачество
• Автоматическийрежим• Нарушение=блокировка
• Важнонезаблокироватьлишнее
Precision->1.0
• Подсказкимодераторам• Нарушение=подсказка
• Важнонепропуститьничего
Recall->1.0
Вопросы?АндрейРыбинцев
UnitLeader@[email protected]