flexibel omgaan met data / feature engineering

19
FLEXIBEL OMGAAN MET DATA 'Feature engineering' Oude visie op data: volledig, (controleerbaar) juist, origineel Nieuwe visie: bijdragen aan nauwkeurigheid modellen, die voorspellen of oorzaken analyseren nieuwe norm kwaliteit: relevantie relevantie omhoog met: flexibele data - René Verbrugge -

Upload: rene-verbrugge

Post on 11-Apr-2017

11 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Flexibel omgaan met data / Feature Engineering

FLEXIBEL OMGAAN MET DATA'Feature engineering'

Oude visie op data: volledig, (controleerbaar) juist, origineel

Nieuwe visie: bijdragen aan nauwkeurigheid modellen,

die voorspellen of oorzaken analyseren nieuwe norm kwaliteit: relevantie relevantie omhoog met: flexibele data

- René Verbrugge -

Page 2: Flexibel omgaan met data / Feature Engineering

FLEXIBILITEIT om te .....

kneden, mixen, proberen, proeven, aanvullen, vervormen, weglaten, bakken

Page 3: Flexibel omgaan met data / Feature Engineering

WAT ZIJN DATA?

Data zijn niet alleen getallen, maar ook:

Tekst woorden, leestekens Logisch waar / niet waar Tijd jaar, maand, dag, weekdag, uur Klasse kleur, schoenmaat, beroep Psychologische factor waarde-oordelen, opinies

en indrukken > zelf scheppen met enquete of panel

Variabele (bijv. gemiddelde temperatuur)vs

Waarde (bijv. 21 )

Page 4: Flexibel omgaan met data / Feature Engineering

Voorbeeldvoorspellen parkeren

BIJZONDERE DATA NODIG

Page 5: Flexibel omgaan met data / Feature Engineering

ACHT MOGELIJKHEDENVOOR FLEXIBELE DATA

Page 6: Flexibel omgaan met data / Feature Engineering

MAG ALLES?

NEE, data beoordeel je op hun verhoging van de nauwkeurigheid van voorspelling en oorzaken-analyse

R² : % dat berekende model spreiding rondom gemiddelde verklaart

Page 7: Flexibel omgaan met data / Feature Engineering

1. Verwijderen van variabelen

als deze nauwkeurigheid niet verhoogt als deze hetzelfde meet als andere, als sterke

correlatie indien teveel waarden ontbreken

Page 8: Flexibel omgaan met data / Feature Engineering

2. Verwijderen van waarden

Onwaarschijnlijke waarden door: technisch niet mogelijk wijkt van beeld af

Page 9: Flexibel omgaan met data / Feature Engineering

3. Omvormen van variabelen

naar hanteerbare, naar uniforme bestandsopmaak (Excel > csv)

matchen andere periode i.v.m. vertraagde reactie(griep Google > bezoek huisarts) sommige getallen zijn klassen(schoenmaat, maand)

Page 10: Flexibel omgaan met data / Feature Engineering

4. Omvormen van waarden

Indien waarden lastig hanteerbaar onevenwichtige verdeling, verschillende grootte-intervallen, te groot voor softwareBijv. lengte tijdschrift-artikel

waarden omzetten in logaritmische schaal, waarden omzetten in hun vierkantswortel en waarden normaliseren (naar zelfde gemiddelde en

standaard-deviatie).

Page 11: Flexibel omgaan met data / Feature Engineering

5. Aanvullen van waarden

Gaten opvullen door hun waarden te schatten.

Veronderstel dezelfde verhouding tussen wel bekende waarden en waarden van andere variabelen.

Bijv. module 'mice' in programmeertaal R

Page 12: Flexibel omgaan met data / Feature Engineering

6. Uitbreiden met variabelenuit interne bestanden

Decentrale bestanden, rapporten en subadministraties

produktierapportage, project-administratie tijds-verantwoording en -registratie produkt- en dienst-beschrijvingen inkoop- en contracten-administratie redactionele teksten relaties-administratie

Page 13: Flexibel omgaan met data / Feature Engineering

7. Uitbreiden met variabelen uitexterne bestanden en

interviews/panelsExterne data: weer (neerslag, zonne-uren, windsnelheid, temperatuur,

extreme condities), aktiviteit alternatieven (prijzen, promoties en

diensten-eigenschappen) en macro-economische ontwikkelingen

(koopkracht, subsidie, werkgelegenheid, belastingaftrek).

Menselijke factor: data over waarde-oordelen, opinies en indrukkenZelf scheppen, meestal met interviews of een panel

Page 14: Flexibel omgaan met data / Feature Engineering

8. Uitbreiden variabelen met data-uit-data

('Feature engineering')

Data bevatten meer informatie als je zebewerkt, combineert, relativeert of ontleedt

8.a. Samengevatte informatie ontleden

Tijdstempel van transactie, behandeling of contact kan ontleed worden in:

jaar maand > seizoen dag > dag van de week uur

Page 15: Flexibel omgaan met data / Feature Engineering

8.b. Losse informatie over object samenvatten

Kwaliteit of profiel relatie/gebruiker

kenmerken + benaderwijze + gebruiksgedrag+ effect

>PROFIELBijv. 'Intensieve relatie', 'Incidentele relatie', 'Niet-relatie om

financiële reden'

Page 16: Flexibel omgaan met data / Feature Engineering

8.c. Absolute data omzetten in relatieve

Bijv.Aantal geslaagden > SlagingspercentageMatching-site : Absolute leeftijden >

Leeftijdsverschil

Nieuwe variabele, die nauwkeurigheid verhoogt

Page 17: Flexibel omgaan met data / Feature Engineering

8.d. Beschrijvende data scheppen

Tekst-analyse:voorspellen lezerswaardering of aantal lezers 'Aantal woorden' 'Gemiddelde zinslengte' 'Sentiment' 'Titel bevat vraagteken'

Klant-historie:effectiviteit behandeling voorspellen 'Wel/niet eerder gesproken' 'Aantal dagen sinds laatste contact'

Page 18: Flexibel omgaan met data / Feature Engineering

8.e. Combineren met externe variabelen

Geografisch bevolkingsonderzoek bevat economische informatie.

Postcode > 'Welstand' en 'Inkomen'

Page 19: Flexibel omgaan met data / Feature Engineering

Data-analyse vraagtcreativiteit en het volhardend uitproberen

om originele data flexibel in te zetten

Stel jezelf de vraag"Welke data zouden de nauwkeurigheid van

voorspelling of analyse kunnen verhogen?”

Hogere nauwkeurigheid door deze data is gelijk het bewijs dat de data-uit-data kloppen.