digital society laboratory (Аршавский)

Post on 11-Jul-2015

1.670 Views

Category:

Technology

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

цели

Digital Society Laboratory

ЛЦО

Нап

рав

ле

ни

я и

ссл

едо

ван

ий

Направления исследований

Экономика внимания

Исследования интернет сообществ

Информационная вирусология

Анализ вкусовых предпочтений

Топология социальных сетей

Нап

рав

ле

ни

я и

ссл

едо

ван

ий

Модель работы

Sociologists

Data Scientists

Developers

OpenSNAP

концепция и перспектива

Digital Society Laboratory

OpenSNAP

Идея

Мы хотим построить универсальную систему работы с данными социальных сетей. Систему, ориентированную на накопление и параллельную обработку данных о взаимодействиях пользователей ряда соцсетей. Эта система станет ядром платформы для упрощения социального анализа и осуществления сложных аналитических запросов к социальным графам.

Идея платформы OpenSNAP

Примеры аналитических запросов:

• «Найти ТОП2000 социально влиятельной аудитории, которая проводит в соцсетях более 2 часов в день со следующими параметрами < мужчины>,<30-45>,<средний достаток>.В ответе указать статистику временной и тематической активности в различных СС.»

• «Показать как изменялась структура сети и модель общения за последний год в русскоязычном facebook и сравнить эти изменения с тем, что происходило в “моем мире”

• «Провести подсчет индикаций вкусовых предпочтений в Вконтактепо кино и книгам у заданной списком имен и доп. параметров аудитории»

Примеры вопросов на которые поможет ответить OpenSNAP

Бизнес модель:

Предоставление вычислительных и информационных услуг исследователям, рекламным компаниям и компаниям развивающим интернет проекты. Мы дадим возможность исследователям и стартапам анализировать данные социальных сетей на универсальной площадке с готовой инфраструктурой.

Стратегия монетизации монетизация

4 ступеней модели>>

Четыре ступени бизнес модели

Программируемая полуавтоматическая

платформа

Инструмент социолога

Среда работы внешних

исследователей+

Рынок данных и алгоритмов

Аналитический инструмент

маркетологов👬

👬

👬

👬

👬

👬

👬

👬

👬

👬👬

Общий вид площадки

OpenSNAP

⊛= Vis(M,a,b,c)

1

23

4

Сценарий площадки

OpenSNAP

1

23

4�

«Социомат»

Библиотекаоператоров

Данные и форматы

1

ETL

2

ETL℀

Операторы и преобразования

ETL1 ETL1 op Vis

⊙◉☉= opn(M,a,b,c)

⊙◉☉

OpenSNAP в конкурентном ландшафте: данные

Наборы данных собранные в ручную или результаты предварительных выборок могут поместиться в памяти. Графы в 1,000 узлов (с вероятностью связности 0.8 = 800,000 связей) потребуют 100MB без учета атрибутов. Такой же граф в 2,000 узлов (и почти 2М связей) потребует500MB. В общем случае связность оценивается в O(n)=n +n2=n(n+1).

1000узлов

10^6

10^9

Небольшие, собранные в ручную данные

Средние данные,Снимки сетей через API

Big DataДанные для обработки

в реальном времени

«Плоские» файлы в памяти

SQL базы данных

Big Data технологии

OpenSNAP зачем нам нужны Big Data решения?

“…Going back to Twitter as an example, we can scan the 1% sample stream for generaltrends and topics—anything important enough to generate at least a hundred messageswill probably show up. Or, since we are interested in networks, the very active peoplewill make a blip on our radar and we can even see some connections. If that is all wewant, storing even a few hundred gigs worth of traffic (in this example, equivalent to afew months time) is no big deal. But what if we wanted to explore trends among thelesser active participants over a few years? The answers would lie in some pretty bigdata, and to get them, we would have to store and process it somehow.Now that we have some idea of the scope of the problem, what do we do with aterabyte of social chatter a day?

–Maksim Tsvetovat

1. Средства анализа и визуализации графов существуют уже в большом количестве и разнообразии

2. Мы можем занять нишу коллекторов больших объемов данных с возможностями ретроспективных временных срезов

3. Мы также можем построить технологии запуска вычислительных задач на наших системах и это будет единственным живым решением для аналитиков во всем мире, т.к. скачать их будет невозможно, если конечно они не инвестируют значительное время и ресурсы для того, чтобы сделать ту работу, которую хотим взять на себя мы. Это также обычно не задача исследователей + на инфраструктурные работы у них нет ресурсов

Сотрудничество + платформа, дадут возможность широкому кругу исследователей сосредоточиться на научных задачах вместо того, чтобы тратить свое время на инфраструктуру вычислений и работу с данными

Collaboration

Пр

им

ер

ы т

ого

что

се

йча

с е

сть I2 Social Network Analysis

Позволяет визуально представить структуру взаимоотношений в социальных сетях путем расчета betweenness, closeness, degree and eigenvector hubs and authorities centrality measures.

>video

Пр

им

ер

ы т

ого

что

се

йча

с е

сть DataSift

Позволяет получить базу Твитов или подключиться к онлайн потоку, настроить фильтр и визуализировать информацию. Для сторонних разработчиков выступает в роли платформы для написания и встраивания своих фильтров.

>video

Пр

им

ер

ы т

ого

что

се

йча

с е

сть NetworkX

Библиотека на Python для анализа графов

>http://networkx.github.com

Пр

им

ер

ы т

ого

что

се

йча

с е

сть NodeXL

Приложение + Excel plugin для анализа графов визуализации.http://nodexl.codeplex.comhttp://www.smrfoundation.org

Пр

им

ер

ы т

ого

что

се

йча

с е

сть Stanford Large Network Dataset Collection

Коллекция данных Лесковцаhttp://snap.stanford.edu/data/

Пр

им

ер

ы т

ого

что

се

йча

с е

сть Nodus Lab

Лаборатория типа того что мы хотели бы стать)http://noduslabs.com/about/http://www.facebook.com/noduslabs

top related