software engineering college 4 - exploring data

Post on 20-Jan-2017

198 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

College 4 – Exploring Data

https://play.google.com/store/apps/details?id=com.ionicframework.evspotter711839

Verzoek aan de groep – gebruik de EV spotter APP

WITH THE CHARGING DATA AS CENTRAL DATASET, THE DATABASE IS CONTINUOUSLY EXPANDED, EXTENDED AND ENRICHED AND SCRAPED

Data Extension

Data enrichment Data Scraping

Data Expansion

OCPI

Hoofdstukken

Kortom: Wat is er blijven hangen van het vorige college?

Het doel van dit college is dat je • Een nieuwe dataset gestructureerd kunt

exploreren• Ggplot2 kunt inzetten voor data exploratie• In timeseries enkele transformaties kunt maken

om de data te exploreren

Exploring data volgens Pr Dt Sc

Time serie changes

Opdracht komende week

Stel je voor je bent klaar…. Wat heb je dan????Metadata

Legacy

OLTP

ERP

External

Datamart 1

ETLStagingArea

BusinessIntelligenceApplications

(Q&R,OLAP,Visualization,Data Mining)

Datamart 2

Datamart n

‘Production’ ‘Assembly & Logistics’ ‘Consumption’

‘closed loop’

EAIEII ODS

ETL

Data Warehouse

SCREENSHOT RSTUDIO MET VEEL DATASETS

Juist ja.. Een Rstudio vol met dataframes

Hfst3 exploring data

Feitelijk zijn we in een soort tussenfase beland waar we wel de schone en uniforme data hebben maar nog geen inzicht in de data

Exploring data – wat is de 0e functie die je uitvoert als je en dataset binnenkrijgt??

Hebben alle variabelen in de juiste class

Exploring data – wat is de 1e functie die je uitvoert als je en dataset binnenkrijgt??

Waar kijk je naar? • Per variabele• NA’s• Scheve verdeling /outliers / technische onmogelijkheden

Exploring data – wat is de 2e functie die je uitvoert als je en dataset binnenkrijgt??Pairs[data.frame[,kolommen]]

Opdracht – analyseer deze dataset

Exploring data – voorbeeld uit het boek

Exploring data – voorbeeld uit het boek

Wat kun je zoal vinden

Missing valuesInvalid and outliersData rangeUnit issues (1,000$ vs $)

Wat haal je uit de grafische dataWhat is the peak value of the distribution? How many peaks are there in the distribution (unimodality versus bimodality)?

How normal (or lognormal) is the data?

How much does the data vary? Is it concentrated in a certain interval or in a certain category

Maak een schets in 1 figuur van …

TTV: Hoe zou je je data science project voortzetten als je data als custdata$age eruit zou zien?

Normale plots versus Log plots

Leg uit wat je van deze plot vindt en wat deze plot je vertelt

Normale plots versus Log plots

TTV: Beredeneer wanneer je een logplot wel/niet zou mogen gebruiken (boek pg 48), geef voorbeelden..

Normale plots versus Log plots

TTV: Beredeneer wanneer je een logplot wel/niet zou mogen gebruiken (boek pg

Opdracht (10 minuten)

Zoek een wiskundige uit waarvan je denkt dat hij/zij jou iets uit kan leggen zodanig dat jij het ons uit kan leggen.

Wat is het verschil tussen een normale en een lognormale verdeling

Wat is skewness?

Wat is kurtosis?

2 dimensionele grafieken tonen je het volgende

De stacked bar laat verschillen zien tussen twee groepen op basis van een 2e variabele

Facetting toont groepen van variabelen nast elkaar

http://sachaepskamp.com/files/CCStalkEpskamp.pdf

Correlation networks met qgraph

library(radarchart) library(tidyr) radarDF <- top20 %>% select(player_name, 10:42) %>% as.data.frame() radarDF <- gather(radarDF, key=Label, value=Score, -player_name) %>% spread(key=player_name, value=Score) chartJSRadar(scores = radarDF, maxScale = 100, showToolTipLabel = TRUE)

www.kaggle.com/datasets

TransferMatrix <- na.omit(TransferDf) %>% ungroup() %>% group_by(FormerLeague, CurrentLeague) %>% summarise(sub = n()) %>% ungroup() %>% na.omit() %>% mutate_each(funs(factor), FormerLeague:CurrentLeague) %>% acast(FormerLeague ~ CurrentLeague, value.var = "sub")

Hoeveel feitelijke variabelen hebben we eigenlijk?

Opdracht komende vrijdagExploreer één van de datasets op Kaggle.com/datasets

Presenteer iig het volgende1. Schets de context van de data (wat is gemeten, wat is de data, gebruik

plaatjes/figuren/illustrateis) -> wij moeten het begrijpen2. Download en ETL de data (leg uit wat je binnen ETL gedaan hebt)3. Exploreer de data als geheel, per variabele, paarsgewijs en als totaal*4. Leg uit wat je opvalt in de data en maak daar een uitleg bij in de context van de data5. Welke kansen of onderzoeksvragen of praktijkvragen kun je met de data oplossen6. Stel hypotheses over wat je verwacht als je een (voorspel) model zou maken7. Reflectie slide(s) (1) welke problemen / onverwachtse dingen ben je

tegengekomen (2) wat heb je geleerd

Zorg voor• Backup slides van de code die je gebruikt hebt• Backup slides van alle figuren die je niet als basis verhaal hebt maar wel als ondersteuning

Tip: Steel jat en ontleen aan Kaggle en Google, maar niet zonder dat je zelf kun uitleggen wat de code doet!* iig Summary / pairs / heatmap / ggplot /qgraph en vele andere….

Typische Tentamenvragen• geef enkele voorbeelden (inclusief R code) voor het exploreren

van data

top related