нил тбд нтс_10-13
TRANSCRIPT
создана приказом ректора НГТУ
от 4 сентября 2013 г. №298
Лаборатория технологий больших данных
Big Data Technologies Lab
10/10/13 1 ©Крылов-‐2013
Большие данные на цикле Гартнера
10/10/13 ©Крылов-‐2013 2
Big Data
Большие данные действительно большие
• В мире гигантский объем данных: в 2003 году записывалось около 5 млрд гигабайт (экзабайт) данных в 2011 такой объем создавался каждые два дня, в в 2013 году такой объем создается каждые 10 минут
10/10/13 ©Крылов-‐2013 3
Wiki -‐ БОЛЬШИЕ ДАННЫЕ
Термин обозначеначающий множество наборов данных столь объемных и сложных, что делает невозможным применение имеющихся традиционных инструментов управления базами данных и приложений для их обработки. Проблему представляют сбор, очистка, хранение, поиск, доступ, передача, анализ и визуализация таких наборов как целостной сущности, а не локальных фрагментов.
В качестве определяющих характеристик для больших данных отмечают «три V»: объём (англ. volume, в смысле величины физического объёма), скорость (англ. velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных)
10/10/13 4 ©Крылов-‐2013
Техники и технологии
• Техника (чего-‐либо) – способ или процедура выполнения какой-‐либо задачи
• Технология – приложение результатов науки, чаще всего к промышленным или коммерческим целям
10/10/13 5 ©Крылов-‐2013
Основные техники работы с большими данными
• А/В тестирование • Изучение правил ассоциации • Классификация • Кластерный анализ • Краудсорсинг – сбор данных от большлго числа источников
• Интеграция и слияние данных • Извлечение данных
10/10/13 6 ©Крылов-‐2013
• Машинное обучение ( с учителем и без учителя) • Генетические алгоритмы • NLP – Обработка естественного языка • Нейронные сети • Анализ сетей • Оптимизация • Распознавание образов • Предиктивное моделирование • Регрессионный анализ • Обработка сигналов и анализ временных рядов • Сентиментный анализ – извлечение «чувств» • Пространственный анализ • Визуализация
10/10/13 7 ©Крылов-‐2013
Технологии больших данных
• Big Table -‐ СУБД Hbase Google File System • BI – Business Intelligence – приложения для анализа и
представления данных • Cassandra – открытая СУБД для распределенного хранения
данных • Облачный компьютинг – парадигма использования
компьютеров как предоставления компьютерных услуг • Хранилища данных • Распределенные компьютерные системы • Dynamo – система хранения данных от Amazon • ETL – extract-‐transform-‐load компьютерные приложеня работы с
БД • Hadoop – открытая программный каркас (framework) для
работы с гигантскими объемами данных
10/10/13 8 ©Крылов-‐2013
• Hbase – открытая распределенная нереляционная СУБД, входящая в Hadoop
• MapReduce – программный каркас (framework) для обработки гигантских наборов данных в распределенных системах, имплементированная в Hadoop
• Mushup – приложение использующее и комбинирующее представление данных или функциональности от двух и более источников
• Metadata – данные для описание данных • Нереляционные СУБД • R – язык программирования для статистической обработки и
графики • Stream Processing -‐ обработка потоков данных • Визуализация – приложения для графического представления
данных и их взаимосвязей • Структурированные и неструктурированные данные • Полуструктурированные данные – не разместимые в
фиксированных полях, но содержащие тэги и разделители
10/10/13 9 ©Крылов-‐2013
Классы решаемых задач
• Поиск нового: редких фактов, один из миллионов или миллиардов объектов и событий
• Поиск классов: нахождение новых классов объектов и поведений
• Поиск ассоциаций: нахождение необычных невероятных совместно случающихся ассоциаций идентификация связей между различными вещами, людьми или событиями, которые много ближе чем шесть ступеней разделения тесного мира
10/10/13 ©Крылов-‐2013 10
Примеры применений • Среди конкретных примеров использования больших данных — мониторинг
Twi�er и Facebook правительством Кении во время прошедших недавно президентских выборов. Социальные сети анализировались на предмет вспышек ненависти и призывов к насилию. (h�p://www.reuters.com/ar�cle/2013/02/05/
net-‐us-‐kenya-‐elec�ons-‐socialmedia-‐idUSBRE9140IS20130205)
• Другой пример использования больших данных: система CancerLinQ от Американского общества медицинской онкологии, которая собирает и анализирует неперсонализированные данные от ста тысяч пациентов, которые болеют раковыми заболеваниями. Информация включает в себя показания лабораторных тестов и заметки врачей. Результаты анализируются в реальном времени и, основываясь на похожих случаях, позволяют назначать пациентам более точный курс лечения (h�p://mashable.com/2013/03/29/cancer-‐data/)
• Информацию, из которой состоят большие данные, получают не только в Интернете: с ускорением оцифровки мира вокруг нас она начала скапливаться в библиотеках, аэропортах, крупных торговых центрах, университетах, государственных организациях. Множество электронных систем накапливает информацию, которая потом становится предметом для исследования.
10/10/13 ©Крылов-‐2013 11
Экономика больших данных
10/10/13 ©Крылов-‐2013 12
Согласно исследованиям агентства Wikibon research, сегодня компании не получают должной отдачи от инвестиций в технологии Big Data. От каждого вложенного доллара пока возвращается половина, а то и вовсе считанные центы. Однако, по мнению аналитиков, скоро ситуация кардинально изменится (h�p://www.computerra.ru/83558/wikibon-‐big-‐data-‐forecast/
Место больших данных в ВВП США
10/10/13 ©Крылов-‐2013 13
Говорят о Big Data o Профессор Слоановской школы бизнеса MIT E.Brynjolfsson
сказал: «Микроскоп четыре века назад позволил людям увидеть то, что они никогда не видели. В итоге родилась современная медицина. Интеллектуальная обработка больших данных – это современный эквивалент микроскопа. В бизнесе, экономике и других областях решения теперь будут опираться не только на опыт и интуицию, но и на анализ и прогнозирование на основе больших данных».
o По мнению участников Всемирного экономического форума в Давосе, те, кто оседлает тему интеллектуального анализа больших данных, станут хозяевами информационного пространства. Этой теме был посвящен специальный доклад на Форуме «Большие данные – большое влияние». Ключевой вывод доклада – цифровые активы становятся не менее значимым экономическим активом, чем золото или валюта
10/10/13 ©Крылов-‐2013 14
Говорят о Big Data
o Исследования, проведенные профессором E.Brynjolfsson и двумя его коллегами в прошлом году, показали, что анализ и прогнозирование на основе больших данных берется на вооружение корпоративной Америкой. Они изучили 179 крупных компаний и обнаружили, что те из них, кто взял в последние год-‐полтора на вооружение интеллектуальный анализ больших данных получил немедленное улучшение экономических показателей на 5-‐6%. С учетом оборота и размеров этих компаний это очень и очень много и показывает сумасшедшую рентабельность вложений в интеллектуальный анализ больших данных.
o Книга Майкла Льюиса «Moneyball» описывает реальный случай, как малобюджетная оклендская команда по бейсболу, опираясь на помощь местного университета, смогла в итоге стать чемпионом лиги. Секрет состоял в том, что исследовательская лаборатория обрабатывала большие данные обо всех командах, матчах и игроках лиги. В итоге провинциальная команда была укреплена недооцененными игроками, а план на каждую игру строился с учетом детального цифрового портрета противника.
10/10/13 ©Крылов-‐2013 15
Говорят о Big Data o Одним из наиболее известных молодых политологов является
Джастин Гример, 28-‐летний исследователь из Стэнфорда, который объединил математику и политическую науку. Его исследования базируются на обработке больших данных, включая структурированную и неструктурированную информацию из соцсетей, блогов, форумов, выступлений в Конгрессе, новостных порталов. Суть его работы состоит в том, чтобы определить, как действуют прямые и обратные связи, выражающиеся в тех или иных политических решениях, между людьми в Конгрессе и их избирателями
o Гарвардский университет в прошлом годы открыл институт количественных социальных наук. Его директор Гарри Кинг говорит: « Это революция, и она только началась. Эта революция стала реальностью благодаря возможности обработки огромного количества источников данных самого различного формата, как структурированных, так и неструктурированных, как вычислимых, так и невычислимых»
10/10/13 ©Крылов-‐2013 16
Говорят о Big Data o Анализируя большие данные интернет-‐запросов,
исследователи обнаружили странный феномен. Уже несколько лет всплеск поисковых запросов Google по таким терминам, как лечение гриппа, симптомы гриппа и т.п. на несколько недель предваряет начало стремительного нарастания эпидемии гриппа. Эта закономерность уже сегодня используется для проведения превентивных мер по предотвращению во многих штатах эпидемии гриппа, подготовке врачей, освобождению лечебных коек и т.п. Следует отметить, что используемая до этого информация, поступающая от участковых врачей и пунктов неотложной помощи, как правило, отставала от реальной картины.
o Инициатива ООН «Глобальный пульс». В рамках этой программы ведется мониторинг веб 2, включая социальные сети, микроблоггинг, аудио и видео контент. На основе мониторинга осуществляется предсказание грядущих потерь рабочих мест в тех или иных регионах, вспышек заболеваемости, волн преступности и т.п.
10/10/13 ©Крылов-‐2013 17
Говорят о Big Data
o Специалисты Федеральной резервной системы выяснили, что статистика поисковых запросов Google относительно покупки домов является более надежным источником для определения тенденций в увеличении или уменьшении объемов продаж недвижимости и динамики жилищного строительства, чем прогнозы наиболее известных экономистов.
10/10/13 ©Крылов-‐2013 18
Говорят о Big Data o Джон Клейнберг, профессор Корнелльского
университета сказал: «Большие данные позволяют мне определить горячие точки, в которых начинаются процессы, которые станут господствующими в будущем. Если бы интернета с социальными сетями не было, если бы не существовало подхода больших данных, я бы никогда не смог инструментально определить эти горячие точки».
o Эндрю Гельман, один из наиболее авторитетных статистиков и политологов Америки говорит: «Методы не изменились, но большие данные сделали их эффективными. Теперь математика и статистика – это интересно и весело. Это просто круто»
10/10/13 ©Крылов-‐2013 19
Форум «Open Innova�ons», Москва, 31.10-‐1.11 2013
10/10/13 ©Крылов-‐2013 20
10/10/13 ©Крылов-‐2013 21
Director, McKincey Global Ins�tute James Manyika Советник президента США по Digital Economics@Big Data
Мегатренды по MIT Technology Review
• Гиперсвязанный мир: от «Больших данных к Интернету вещей»
• Нанотехнологии и новые материалы • Власть потребителя • Новая эра производства
10/10/13 ©Крылов-‐2013 22
10/10/13 ©Крылов-‐2013 23
Прогнозы McKinsey
10/10/13 ©Крылов-‐2013 24
«Gam
e chan
gers: Five op
portun
i�es fo
r US grow
th and
renewal»
рассм
отрено
пят
ь ключевы
х фактор
ов, кот
орые окаж
ут
наи
большее вли
яние на экон
омикуи соц
иальную
жизнь США в средн
есро
чной
перспективе,до
202
0 года
Прогнозы McKinsey • Среди пяти ключевых факторов, призванных спасти экономическую
ситуацию в Штатах, значатся и «большие данные». Более того, McKinsey подсчитала, что Big Data добавят $325 млрд к ВВП к 2020 году.Другими факторами, которые окажут влияние на экономику, названы энергетика (шельфовая добыча нефти и газа), торговля, инфраструктура (инвестирование в транспортную сеть, строительство дорог и железнодорожных путей), а также образование и трудоустройство.
• Области, на которые Big Data оказывают наибольшее воздействие -‐ это продуктивность, предпринимательство и инновации. Именно эти области являются болевыми точками экономики. Вот, скажем, есть у Штатов такая проблема: рабочая сила вслед за населением стареет. То есть средний возраст сотрудника американской компании превышает допустимую норму. По прогнозам, ситуация в ближайшее время будет только ухудшаться — и, чтобы поддерживать рост ВВП на прежнем уровне, необходимо увеличить производительность на 30%. Выполнимая ли это задача? Если подключить к делу «большие данные», то — более чем! По прогнозам McKinsey, в одном только ритейле Big Data могут сгенерировать дополнительные $55 млрд:
10/10/13 ©Крылов-‐2013 25
Потенциал выгод от использования Больших данных в государственном секторе Евросоюза: экономия от 150 до 300 млрд евро
10/10/13 ©Крылов-‐2013 26
В Росии развитие индустрии Big Data в первую очередь повлияет на Нефтегазовый, финансовый и телекоммуникационный секторы. Уникальной и насущной задачей станет разработка методов обработки данных, полученных компаниями от своих потребителей
Профессия Data Scien�st
• Gartner сказал, что в 2018 году в США будет нехватка 190000 специалистов со знаниями data analysis, data science. Что такое data scien�st? Люди, которые понимают машинное обучение, которые знают, как анализировать данные, знают статистику, обладают навыками программиста, знают технологии.
10/10/13 ©Крылов-‐2013 27
10/10/13 ©Крылов-‐2013 28
10/10/13 ©Крылов-‐2013 29
10/10/13 ©Крылов-‐2013 30
Программа курсов "Introduc�on to Data Science"
• Занятие 1.Вводная лекция • Занятие 2. Задача машинного обучения на
практике.Предобработка данных, выбор алгоритма, проверка качества и обеспечение устойчивости.
• Занятие 3. Neural Networks.Bayesian Network • .Занятие 4. Self-‐organizing map (Kohonen map).Decision
trees.
• Занятие 5. Gene�c algorithmsFuzzy logic • Занятие 6.Задание на мини-‐проект и брейнсторминг. • Занятие 7.Сдача мини-‐проектов, выдача дипломов.
10/10/13 ©Крылов-‐2013 31