data science week 2016. glowbyte, "Культура работы с данными"

14
КУЛЬТУРА РАБОТЫ С ДАННЫМИ Андрей Котов

Upload: newprolab

Post on 13-Apr-2017

426 views

Category:

Data & Analytics


4 download

TRANSCRIPT

Page 1: Data Science Week 2016. GlowByte, "Культура работы с данными"

КУЛЬТУРА РАБОТЫ С ДАННЫМИ

Андрей Котов

Page 2: Data Science Week 2016. GlowByte, "Культура работы с данными"

Пример №1 Качество категоризации

Продолжительность проекта =Х

Прибыль проекта=Y

Page 3: Data Science Week 2016. GlowByte, "Культура работы с данными"

Пример №1 Качество категоризации

Продолжительность проекта =Х+1%

Прибыль проекта=Y-1%

Page 4: Data Science Week 2016. GlowByte, "Культура работы с данными"

Пример №1 Качество категоризации

Продолжительность проекта =Х+2%

Прибыль проекта=Y-3%

Page 5: Data Science Week 2016. GlowByte, "Культура работы с данными"

Пример №1 Качество категоризации

Продолжительность проекта =Х+3%

Прибыль проекта=Y-5%

Page 6: Data Science Week 2016. GlowByte, "Культура работы с данными"

Пример №1 Качество категоризации

Продолжительность проекта =Х+10%

Прибыль проекта=Y-15%

Page 7: Data Science Week 2016. GlowByte, "Культура работы с данными"

Пример №2 Описание товара

Page 8: Data Science Week 2016. GlowByte, "Культура работы с данными"

Пример №2 Описание товара- Зелены

й

- Зеленый

- Зеленый

- Зеленый

- Зеленый

Page 9: Data Science Week 2016. GlowByte, "Культура работы с данными"

Пример №2 «Какого цвета платье?»

Page 10: Data Science Week 2016. GlowByte, "Культура работы с данными"

1. Отсутствие единого стандарта 2. Дублирование3. Противоречия 4. Ошибки5. Нехватка информации 6. Избыточная информация

6 проблем качества данных:

Page 11: Data Science Week 2016. GlowByte, "Культура работы с данными"

1) если вы заказчик, вы должны знать об уровне качества данных внутри вашей компании. И понимать, что то что вам продают может не сработать только потому, что кто-то записывает название товара с ошибками. И следовательно относится к предложениям критически.

2) если вы консультант или датамайнер, то вы должны видеть эти данные своими глазами, знать как они формировались, очистить их и главное — ПРИВИТЬ дальнейшую культуру работы с ними клиенту.

3) если вы простой аналитик, нужно начать с себя и записывать данные аккуратно, выполнять основные заповеди, подобно заповедям Дзен-Pythonа

Как с этим жить?

Page 12: Data Science Week 2016. GlowByte, "Культура работы с данными"

o Красота лучше уродства.o Ясность лучше неясности.o Простота лучше сложности.o Сложность лучше запутанности.o Плоскость лучше вложенности.o Разведенность лучше концентрированности.o Читаемость ценится высоко (!!!)o + Одинаково лучше, чем «эффективное»o + Однозначное лучше, чем короткоеo Особые случаи не настолько особы, чтобы ради них нарушать правила.o Хотя практичность выше опрятности.o Ошибки не должны проходить незамеченными.o Если ошибка не в незаметности.o Перед лицом неопределенности лучше отказаться от попыток угадатьo Должен быть один — и было бы идеально, если только один — очевидный способ

решить проблему.o Хотя на первый взгляд этот способ может и не казатся очевидным, особенно если вы

— голландец.o + Если откладываешь проблему, то сделай так, что бы потом, ее мог решить

не только ты.o Однако, сейчас лучше, чем никогда.o Хотя зачастую никогда лучше, чем прямо сейчас.o Если структуру непросто объяснить — то это плохая идея.o Если структуру просто объяснить, это может быть хорошей идеей.

Дзен Python работы с данными:

Page 13: Data Science Week 2016. GlowByte, "Культура работы с данными"

Пример №3 Столкновение с реальностью

Данные качественныеМодель отличная

Внедрение гладкоеРост прибыли

Page 14: Data Science Week 2016. GlowByte, "Культура работы с данными"

May the Patience be with you!

Андрей Котов+7(916)807-56-

89

Да прибудет с тобой терпение!