Работа с данными в google таблицах

Post on 28-Nov-2014

3.235 Views

Category:

Documents

8 Downloads

Preview:

Click to see full reader

DESCRIPTION

Пошаговое прохождение

TRANSCRIPT

Таблицы Google как наиболее удобный инструмент для

начинающих дата-журналистов

Мастер-класс

19 сентября 2013 г.

Таблицы:

• Google (бесплатное ПО)

• Open/Libre Office (бесплатное ПО)

• MS Excel (платное ПО)

Чтобы работать с Google таблицами, необходимо завести аккаунт Google

Google документы:

Допускают совместную работу над таблицей онлайн.

Если вдруг оборвалась связь с

интернетом, то работать с документом невозможно.

Можно включить возможность автономной работы.

Источник данных:

http://www.oecd.org/statistics/

Форматы, с которыми можно работать в таблицах:

Импорт файла в Google таблицу

Импорт файла в Google таблицу

Готово

Примечание: Если таблица отказывается импортировать файл .xls, ссылаясь на то, что это неизвестный ей формат, можно попробовать открыть этот файл в таблице Excel или Open/Libre Calc и сохранить его, например, в версии 97-2003.

Важно: До начала обработки данных обязательно нужно сделать копию документа, чтобы исходный вариант на всякий случай тоже сохранился.

Как правило, данные в таблице бывают отформатированы. Удобства ради уберем форматирование, чтобы видеть таблицу в чистом виде.

Готово

Теперь смотрим на данные

Продолжаем смотреть на данные

Что делать?

Что делать с отсутствующими данными?

• Это всегда зависит от конкретной ситуации.

• Отсутствие данных может быть поводом провести расследование именно по этому вопросу.

• Можно попробовать обратиться в ведомства, отвечающие за публикацию этих данных, и запросить недостающую информацию.

• Можно попробовать поискать наборы данных по той же теме в других источниках.

Что делать с отсутствующими данными?

• В ряде случаев, когда речь идет об общих тенденциях и соотношениях, отсутствием данных можно пренебречь: например, вообще не рассматривать данные за определенный период, а исследовать тот период, для которого все данные есть.

• Аналитики в применении к некоторым случаям могут сопоставлять просто последние имеющиеся данные для каждого случая.

Важно: все допущения в работе с данными желательно фиксировать в

таблице – например, в форме комментария.

В нашем случае данных за 2010 и 2011 гг. существенно меньше, чем за прочие годы. Попробуем посмотреть тот период, за который у нас больше данных.

Выделяем нужную область, копируем её (Ctrl+C), создаем новую вкладку в таблице и вставляем туда то, что скопировали (Ctrl+V)

Подсчёты

Сортировка

В нашем случае рассортируем страны по признаку общей численности самоубийств от максимальных показателей к минимальным.

Теперь у нас есть рассортированные данные, и мы можем сосредоточиться на странах с максимальными и минимальными значениями. К примеру, можно сопоставить эти показатели с другими индикаторами благополучия/неблагополучия. Например, ВВП, продолжительность жизни, уровень безработицы и т.д.

Забегая вперед, скажу, что во многих случаях из тех, с которыми мы хотим сопоставить наши данные, отсутствуют значения за 2004 г. Также по ряду стран некоторые данные представлены очень неполно. Набор стран, с которыми мы в дальнейшем будем работать, обусловлен и этими факторами.

За 2005 год отсутствуют данные по Италии. В порядке допущения внесем в ячейку тот же показатель, что в 2006 г. (необходимо это указать).

Теперь попробуем соотнести это с другими показателями, как-то:

• Продолжительность жизни

• ВВП

• Уровень безработицы

• Бюджет на социальные нужды

• Бюджет на пособия по безработице

Проблема:

Как представить несколько измерений в одной таблице, а в дальнейшем – и в виде двухмерной визуализации?

Одно из возможных решений – представить данные в виде интерактивной динамической схемы

https://docs.google.com/spreadsheet/ccc?key=0AofhFA7uQyz0dEwxMGE2QWpsNUtpbDhmN0U3cXJ0MXc#gid=0

Динамическую схему (motion chart) разработал Ханс Рослинг (Hans Rosling), шведский врач и статистик.

Выступления Рослинга (в том числе презентация динамической схемы) на конференции TED:

http://www.ted.com/speakers/hans_rosling.html

В свою очередь, сводная таблица должна выглядеть примерно так:

Задача: преобразовать нашу таблицу в таблицу такого вида

Data Wrangler

Это можно легко сделать при помощи бесплатной программы Data Wrangler, которая работает онлайн.

http://vis.stanford.edu/wrangler/

Data Wrangler

1. Для удобства в дальнейшем вернем сортировку стран по алфавиту. После чего копируем таблицу.

2. Включаем Data Wrangler:

Data Wrangler

3.Вставляем скопированное в открывшееся окно и нажимаем “Wrangle”.

Data Wrangler

Data Wrangler

4. Фиксируем заглавную строку

Data Wrangler

5. Перераспределяем данные

Data Wrangler 6. Экспортируем (для вставки в таблицу – лучше всего в виде Tab-Separated Values)

Data Wrangler

7. Вставляем результат в таблицу

Data Wrangler

Дальнейшие шаги

• Аналогичным образом обрабатываем нужные нам данные из других таблиц.

• Всё нужное собираем в единую сводную таблицу.

Визуализация

Выделяем таблицу и вызываем диалог построения диаграмм.

Выбираем динамическую схему и нажимаем «Вставить»

Если щелкнуть по белому полю диаграммы, то в правом верхнем углу появится треугольник, щелкнув по которому можно вызвать меню.

В частности, можно получить код для публикации схемы на html-странице

Можно также переместить диаграмму на отдельный лист

Ссылки:

• Таблица, которая была создана в итоге: https://docs.google.com/spreadsheet/ccc?key=0AofhFA7uQyz0dEwxMGE2QWpsNUtpbDhmN0U3cXJ0MXc#gid=0

• Google Диск: https://drive.google.com

• Data Wrangler: http://vis.stanford.edu/wrangler/

top related