нил тбд нтс_10-13

31
создана приказом ректора НГТУ от 4 сентября 2013 г. №298 Лаборатория технологий больших данных Big Data Technologies Lab 10/10/13 1 ©Крылов2013

Upload: vladimir-krylov

Post on 07-Jul-2015

143 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: нил тбд нтс_10-13

создана  приказом  ректора  НГТУ  

от  4  сентября  2013  г.  №298  

     Лаборатория  технологий  больших  данных  

 Big  Data  Technologies  Lab  

10/10/13   1  ©Крылов-­‐2013  

Page 2: нил тбд нтс_10-13

Большие  данные  на  цикле  Гартнера  

10/10/13   ©Крылов-­‐2013   2  

Big  Data    

Page 3: нил тбд нтс_10-13

Большие  данные  действительно  большие  

•  В  мире  гигантский  объем  данных:    в  2003  году  записывалось    около                    5    млрд  гигабайт  (экзабайт)  данных        в  2011  такой  объем  создавался  каждые  два  дня,  в  в  2013  году  такой  объем  создается  каждые  10  минут    

10/10/13   ©Крылов-­‐2013   3  

Page 4: нил тбд нтс_10-13

Wiki  -­‐  БОЛЬШИЕ  ДАННЫЕ  

  Термин  обозначеначающий  множество  наборов  данных   столь  объемных  и  сложных,  что  делает  невозможным  применение  имеющихся  традиционных  инструментов  управления  базами  данных  и  приложений  для  их  обработки.  Проблему  представляют  сбор,  очистка,  хранение,  поиск,  доступ,  передача,  анализ   и   визуализация   таких   наборов   как   целостной   сущности,   а   не  локальных  фрагментов.  

   В  качестве  определяющих  характеристик  для  больших  данных  отмечают  «три   V»:   объём   (англ.   volume,   в   смысле   величины   физического   объёма),  скорость   (англ.   velocity   в   смыслах   как   скорости   прироста,   так   и  необходимости   высокоскоростной   обработки   и   получения   результатов),  многообразие   (англ.   variety,   в   смысле   возможности   одновременной  обработки   различных   типов   структурированных   и  полуструктурированных  данных)  

10/10/13   4  ©Крылов-­‐2013  

Page 5: нил тбд нтс_10-13

Техники  и  технологии  

•  Техника  (чего-­‐либо)  –  способ  или  процедура  выполнения  какой-­‐либо  задачи  

•  Технология  –  приложение  результатов  науки,  чаще  всего  к  промышленным  или  коммерческим  целям  

10/10/13   5  ©Крылов-­‐2013  

Page 6: нил тбд нтс_10-13

Основные  техники  работы  с  большими  данными  

•  А/В  тестирование  •  Изучение  правил  ассоциации  •  Классификация  •  Кластерный  анализ  •  Краудсорсинг  –  сбор  данных  от  большлго  числа  источников  

•  Интеграция  и  слияние  данных  •  Извлечение  данных  

10/10/13   6  ©Крылов-­‐2013  

Page 7: нил тбд нтс_10-13

•  Машинное  обучение  (  с  учителем  и  без  учителя)  •  Генетические  алгоритмы  •  NLP  –  Обработка  естественного  языка  •  Нейронные  сети  •  Анализ  сетей  •  Оптимизация  •  Распознавание  образов  •  Предиктивное  моделирование  •  Регрессионный  анализ  •  Обработка  сигналов  и  анализ  временных  рядов  •  Сентиментный  анализ  –  извлечение  «чувств»  •  Пространственный  анализ  •  Визуализация  

10/10/13   7  ©Крылов-­‐2013  

Page 8: нил тбд нтс_10-13

Технологии  больших  данных  

•  Big  Table  -­‐    СУБД  Hbase  Google  File  System  •  BI  –  Business  Intelligence  –  приложения  для  анализа  и  

представления  данных  •   Cassandra  –  открытая  СУБД  для  распределенного  хранения  

данных  •  Облачный  компьютинг  –  парадигма  использования  

компьютеров  как  предоставления  компьютерных  услуг  •  Хранилища  данных  •  Распределенные  компьютерные  системы  •  Dynamo  –  система  хранения  данных  от  Amazon  •  ETL  –  extract-­‐transform-­‐load  компьютерные  приложеня  работы  с  

БД  •  Hadoop  –  открытая  программный  каркас  (framework)  для  

работы  с  гигантскими  объемами  данных  

10/10/13   8  ©Крылов-­‐2013  

Page 9: нил тбд нтс_10-13

•  Hbase  –  открытая  распределенная  нереляционная    СУБД,  входящая  в  Hadoop  

•  MapReduce  –  программный  каркас  (framework)  для  обработки  гигантских  наборов  данных  в  распределенных  системах,  имплементированная  в  Hadoop  

•  Mushup  –  приложение  использующее  и  комбинирующее  представление  данных  или  функциональности  от  двух  и  более  источников  

•  Metadata  –  данные  для  описание  данных  •  Нереляционные  СУБД  •  R  –  язык  программирования  для  статистической  обработки  и  

графики  •  Stream  Processing  -­‐  обработка  потоков  данных    •  Визуализация  –  приложения  для  графического  представления  

данных  и  их  взаимосвязей  •  Структурированные  и  неструктурированные  данные  •  Полуструктурированные  данные  –  не  разместимые  в  

фиксированных  полях,  но  содержащие  тэги  и  разделители  

10/10/13   9  ©Крылов-­‐2013  

Page 10: нил тбд нтс_10-13

Классы  решаемых  задач  

•  Поиск  нового:  редких  фактов,  один  из  миллионов  или  миллиардов  объектов  и  событий  

•  Поиск  классов:  нахождение    новых  классов  объектов  и  поведений  

•  Поиск  ассоциаций:  нахождение  необычных  невероятных  совместно  случающихся  ассоциаций  идентификация  связей  между  различными  вещами,  людьми  или  событиями,  которые  много  ближе  чем  шесть  ступеней  разделения  тесного  мира  

10/10/13   ©Крылов-­‐2013   10  

Page 11: нил тбд нтс_10-13

Примеры  применений  •  Среди  конкретных  примеров  использования  больших  данных  —  мониторинг  

Twi�er  и  Facebook  правительством  Кении  во  время  прошедших  недавно  президентских  выборов.  Социальные  сети  анализировались  на  предмет  вспышек  ненависти  и  призывов  к  насилию.  (h�p://www.reuters.com/ar�cle/2013/02/05/

net-­‐us-­‐kenya-­‐elec�ons-­‐socialmedia-­‐idUSBRE9140IS20130205)  

•  Другой  пример  использования  больших  данных:  система  CancerLinQ  от  Американского  общества  медицинской  онкологии,  которая  собирает  и  анализирует  неперсонализированные  данные  от  ста  тысяч  пациентов,  которые  болеют  раковыми  заболеваниями.  Информация  включает  в  себя  показания  лабораторных  тестов  и  заметки  врачей.  Результаты  анализируются  в  реальном  времени  и,  основываясь  на  похожих  случаях,  позволяют  назначать  пациентам  более  точный  курс  лечения  (h�p://mashable.com/2013/03/29/cancer-­‐data/)  

•  Информацию,  из  которой  состоят  большие  данные,  получают  не  только  в  Интернете:  с  ускорением  оцифровки  мира  вокруг  нас  она  начала  скапливаться  в  библиотеках,  аэропортах,  крупных  торговых  центрах,  университетах,  государственных  организациях.  Множество  электронных  систем  накапливает  информацию,  которая  потом  становится  предметом  для  исследования.  

10/10/13   ©Крылов-­‐2013   11  

Page 12: нил тбд нтс_10-13

Экономика  больших  данных  

10/10/13   ©Крылов-­‐2013   12  

Согласно  исследованиям  агентства  Wikibon  research,  сегодня  компании  не    получают  должной  отдачи  от  инвестиций  в  технологии  Big  Data.  От  каждого    вложенного  доллара  пока  возвращается  половина,  а  то  и  вовсе  считанные  центы.    Однако,  по  мнению  аналитиков,  скоро  ситуация  кардинально  изменится    (h�p://www.computerra.ru/83558/wikibon-­‐big-­‐data-­‐forecast/  

Page 13: нил тбд нтс_10-13

Место  больших  данных  в  ВВП  США  

10/10/13   ©Крылов-­‐2013   13  

Page 14: нил тбд нтс_10-13

Говорят  о  Big  Data  o  Профессор  Слоановской  школы  бизнеса  MIT  E.Brynjolfsson    

сказал:  «Микроскоп  четыре  века  назад  позволил  людям  увидеть  то,  что  они  никогда  не  видели.  В  итоге  родилась  современная  медицина.  Интеллектуальная  обработка  больших  данных  –  это  современный  эквивалент  микроскопа.  В  бизнесе,  экономике  и  других  областях  решения  теперь  будут  опираться  не  только  на  опыт  и  интуицию,  но  и  на  анализ  и  прогнозирование  на  основе  больших  данных».  

o  По  мнению  участников  Всемирного  экономического  форума  в  Давосе,  те,  кто  оседлает  тему  интеллектуального  анализа  больших  данных,  станут  хозяевами  информационного  пространства.  Этой  теме  был  посвящен  специальный  доклад  на  Форуме  «Большие  данные  –  большое  влияние».  Ключевой  вывод  доклада  –  цифровые  активы  становятся  не  менее  значимым  экономическим  активом,  чем  золото  или  валюта  

10/10/13   ©Крылов-­‐2013   14  

Page 15: нил тбд нтс_10-13

Говорят  о  Big  Data  

o  Исследования,  проведенные  профессором  E.Brynjolfsson    и  двумя  его  коллегами  в  прошлом  году,  показали,  что  анализ  и  прогнозирование  на  основе  больших  данных  берется  на  вооружение  корпоративной  Америкой.  Они  изучили  179  крупных  компаний    и  обнаружили,  что  те  из  них,  кто  взял  в  последние  год-­‐полтора  на  вооружение  интеллектуальный  анализ  больших  данных  получил  немедленное  улучшение  экономических  показателей  на  5-­‐6%.  С  учетом  оборота  и  размеров  этих  компаний  это  очень  и  очень  много  и  показывает  сумасшедшую  рентабельность  вложений  в  интеллектуальный  анализ  больших  данных.  

o  Книга  Майкла  Льюиса  «Moneyball»  описывает  реальный  случай,  как  малобюджетная  оклендская  команда  по  бейсболу,  опираясь  на  помощь  местного  университета,  смогла  в  итоге  стать  чемпионом  лиги.  Секрет  состоял  в  том,  что  исследовательская  лаборатория  обрабатывала  большие  данные  обо  всех  командах,  матчах  и  игроках  лиги.  В  итоге  провинциальная  команда  была  укреплена  недооцененными  игроками,  а  план  на  каждую  игру  строился  с  учетом  детального  цифрового  портрета  противника.  

10/10/13   ©Крылов-­‐2013   15  

Page 16: нил тбд нтс_10-13

Говорят  о  Big  Data  o  Одним  из  наиболее  известных  молодых  политологов  является  

Джастин  Гример,  28-­‐летний  исследователь  из  Стэнфорда,  который  объединил  математику  и  политическую  науку.  Его  исследования  базируются  на  обработке  больших  данных,  включая  структурированную  и  неструктурированную  информацию  из  соцсетей,  блогов,  форумов,  выступлений  в  Конгрессе,  новостных  порталов.  Суть  его  работы  состоит  в  том,  чтобы  определить,  как  действуют  прямые  и  обратные  связи,  выражающиеся  в  тех  или  иных  политических  решениях,  между  людьми  в  Конгрессе  и  их  избирателями  

o  Гарвардский  университет  в  прошлом  годы  открыл  институт  количественных  социальных  наук.  Его  директор  Гарри  Кинг  говорит:  «  Это  революция,  и  она  только  началась.  Эта  революция  стала  реальностью  благодаря  возможности  обработки  огромного  количества  источников  данных  самого  различного  формата,  как  структурированных,  так  и  неструктурированных,  как  вычислимых,  так  и  невычислимых»  

10/10/13   ©Крылов-­‐2013   16  

Page 17: нил тбд нтс_10-13

Говорят  о  Big  Data  o  Анализируя  большие  данные  интернет-­‐запросов,  

исследователи  обнаружили  странный  феномен.  Уже  несколько  лет  всплеск  поисковых  запросов  Google  по  таким  терминам,  как  лечение  гриппа,  симптомы  гриппа  и  т.п.  на  несколько  недель  предваряет  начало  стремительного  нарастания  эпидемии  гриппа.  Эта  закономерность  уже  сегодня  используется  для  проведения  превентивных  мер  по  предотвращению  во  многих  штатах  эпидемии  гриппа,  подготовке  врачей,  освобождению  лечебных  коек  и  т.п.  Следует  отметить,  что  используемая  до  этого  информация,  поступающая  от  участковых  врачей  и    пунктов  неотложной  помощи,  как  правило,  отставала  от  реальной  картины.  

o  Инициатива  ООН  «Глобальный  пульс».  В  рамках  этой  программы  ведется  мониторинг  веб  2,  включая  социальные  сети,  микроблоггинг,  аудио  и  видео  контент.  На  основе  мониторинга  осуществляется  предсказание  грядущих  потерь  рабочих  мест  в  тех  или  иных  регионах,  вспышек  заболеваемости,  волн  преступности  и  т.п.  

10/10/13   ©Крылов-­‐2013   17  

Page 18: нил тбд нтс_10-13

Говорят  о  Big  Data  

o Специалисты  Федеральной  резервной  системы  выяснили,  что  статистика  поисковых  запросов  Google  относительно  покупки  домов  является  более  надежным  источником  для  определения  тенденций  в  увеличении  или  уменьшении  объемов  продаж  недвижимости  и  динамики  жилищного  строительства,  чем  прогнозы  наиболее  известных  экономистов.  

10/10/13   ©Крылов-­‐2013   18  

Page 19: нил тбд нтс_10-13

Говорят  о  Big  Data  o  Джон  Клейнберг,  профессор  Корнелльского  

университета  сказал:  «Большие  данные  позволяют  мне  определить  горячие  точки,  в  которых  начинаются  процессы,  которые  станут  господствующими  в  будущем.  Если  бы  интернета  с  социальными  сетями  не  было,  если  бы  не  существовало  подхода  больших  данных,  я  бы  никогда  не  смог  инструментально  определить  эти  горячие  точки».  

o  Эндрю  Гельман,  один  из  наиболее  авторитетных  статистиков  и  политологов  Америки  говорит:  «Методы  не  изменились,  но  большие  данные  сделали  их  эффективными.  Теперь  математика  и  статистика  –  это  интересно  и  весело.  Это  просто  круто»  

10/10/13   ©Крылов-­‐2013   19  

Page 20: нил тбд нтс_10-13

Форум  «Open  Innova�ons»,  Москва,  31.10-­‐1.11  2013  

10/10/13   ©Крылов-­‐2013   20  

Page 21: нил тбд нтс_10-13

10/10/13   ©Крылов-­‐2013   21  

Director,  McKincey  Global  Ins�tute    James  Manyika  Советник  президента  США  по  Digital  Economics@Big  Data  

Page 22: нил тбд нтс_10-13

Мегатренды  по  MIT  Technology  Review  

•  Гиперсвязанный  мир:  от  «Больших  данных  к  Интернету  вещей»  

•  Нанотехнологии  и  новые  материалы  •  Власть  потребителя  •  Новая  эра  производства  

10/10/13   ©Крылов-­‐2013   22  

Page 23: нил тбд нтс_10-13

10/10/13   ©Крылов-­‐2013   23  

Page 24: нил тбд нтс_10-13

Прогнозы  McKinsey  

10/10/13   ©Крылов-­‐2013   24  

«Gam

e  chan

gers:  Five  op

portun

i�es  fo

r  US  grow

th  and

 renewal»  

 рассм

отрено

 пят

ь  ключевы

х  фактор

ов,  кот

орые  окаж

ут  

 наи

большее  вли

яние  на  экон

омикуи  соц

иальную  

 жизнь  США  в  средн

есро

чной

 перспективе,до

 202

0  года

 

Page 25: нил тбд нтс_10-13

Прогнозы  McKinsey  •  Среди  пяти  ключевых  факторов,  призванных  спасти  экономическую  

ситуацию  в  Штатах,  значатся  и  «большие  данные».  Более  того,  McKinsey  подсчитала,  что  Big  Data  добавят  $325  млрд  к  ВВП  к  2020  году.Другими  факторами,  которые  окажут  влияние  на  экономику,  названы  энергетика  (шельфовая  добыча  нефти  и  газа),  торговля,  инфраструктура  (инвестирование  в  транспортную  сеть,  строительство  дорог  и  железнодорожных  путей),  а  также  образование  и  трудоустройство.    

•  Области,  на  которые  Big  Data  оказывают  наибольшее  воздействие  -­‐  это  продуктивность,  предпринимательство  и  инновации.  Именно  эти  области  являются  болевыми  точками  экономики.  Вот,  скажем,  есть  у  Штатов  такая  проблема:  рабочая  сила  вслед  за  населением  стареет.  То  есть  средний  возраст  сотрудника  американской  компании  превышает  допустимую  норму.  По  прогнозам,  ситуация  в  ближайшее  время  будет  только  ухудшаться  —  и,  чтобы  поддерживать  рост  ВВП  на  прежнем  уровне,  необходимо  увеличить  производительность  на  30%.  Выполнимая  ли  это  задача?  Если  подключить  к  делу  «большие  данные»,  то  —  более  чем!  По  прогнозам  McKinsey,  в  одном  только  ритейле  Big  Data  могут  сгенерировать  дополнительные  $55  млрд:  

10/10/13   ©Крылов-­‐2013   25  

Page 26: нил тбд нтс_10-13

Потенциал  выгод  от  использования  Больших  данных  в  государственном  секторе  Евросоюза:  экономия  от  150  до  300  млрд  евро  

10/10/13   ©Крылов-­‐2013   26  

В  Росии  развитие  индустрии  Big  Data    в  первую  очередь  повлияет  на    Нефтегазовый,  финансовый  и  телекоммуникационный  секторы.    Уникальной  и  насущной  задачей  станет  разработка  методов  обработки    данных,  полученных  компаниями  от  своих  потребителей  

Page 27: нил тбд нтс_10-13

Профессия  Data  Scien�st  

•  Gartner  сказал,  что  в  2018  году  в  США  будет    нехватка  190000  специалистов  со  знаниями  data  analysis,  data  science.  Что  такое  data  scien�st?  Люди,  которые  понимают  машинное  обучение,  которые  знают,  как  анализировать  данные,  знают  статистику,  обладают  навыками  программиста,  знают  технологии.    

10/10/13   ©Крылов-­‐2013   27  

Page 28: нил тбд нтс_10-13

10/10/13   ©Крылов-­‐2013   28  

Page 29: нил тбд нтс_10-13

10/10/13   ©Крылов-­‐2013   29  

Page 30: нил тбд нтс_10-13

10/10/13   ©Крылов-­‐2013   30  

Page 31: нил тбд нтс_10-13

Программа  курсов  "Introduc�on  to  Data  Science"  

•  Занятие  1.Вводная  лекция  •  Занятие  2.  Задача  машинного  обучения  на  

практике.Предобработка  данных,  выбор  алгоритма,  проверка  качества  и  обеспечение  устойчивости.  

•   Занятие  3.  Neural  Networks.Bayesian  Network  •  .Занятие  4.  Self-­‐organizing  map  (Kohonen  map).Decision  

trees.  

•  Занятие  5.  Gene�c  algorithmsFuzzy  logic  •  Занятие  6.Задание  на  мини-­‐проект  и  брейнсторминг.  •  Занятие  7.Сдача  мини-­‐проектов,  выдача  дипломов.  

10/10/13   ©Крылов-­‐2013   31