flexibel omgaan met data / feature engineering

FLEXIBEL OMGAAN MET DATA'Feature engineering'

Oude visie op data: volledig, (controleerbaar) juist, origineel

Nieuwe visie: bijdragen aan nauwkeurigheid modellen,

die voorspellen of oorzaken analyseren nieuwe norm kwaliteit: relevantie relevantie omhoog met: flexibele data

- René Verbrugge -

FLEXIBILITEIT om te .....

kneden, mixen, proberen, proeven, aanvullen, vervormen, weglaten, bakken

WAT ZIJN DATA?

Data zijn niet alleen getallen, maar ook:

Tekst woorden, leestekens Logisch waar / niet waar Tijd jaar, maand, dag, weekdag, uur Klasse kleur, schoenmaat, beroep Psychologische factor waarde-oordelen, opinies

en indrukken > zelf scheppen met enquete of panel

Variabele (bijv. gemiddelde temperatuur)vs

Waarde (bijv. 21 )

Voorbeeldvoorspellen parkeren

BIJZONDERE DATA NODIG

ACHT MOGELIJKHEDENVOOR FLEXIBELE DATA

MAG ALLES?

NEE, data beoordeel je op hun verhoging van de nauwkeurigheid van voorspelling en oorzaken-analyse

R² : % dat berekende model spreiding rondom gemiddelde verklaart

1. Verwijderen van variabelen

als deze nauwkeurigheid niet verhoogt als deze hetzelfde meet als andere, als sterke

correlatie indien teveel waarden ontbreken

2. Verwijderen van waarden

Onwaarschijnlijke waarden door: technisch niet mogelijk wijkt van beeld af

3. Omvormen van variabelen

naar hanteerbare, naar uniforme bestandsopmaak (Excel > csv)

matchen andere periode i.v.m. vertraagde reactie(griep Google > bezoek huisarts) sommige getallen zijn klassen(schoenmaat, maand)

4. Omvormen van waarden

Indien waarden lastig hanteerbaar onevenwichtige verdeling, verschillende grootte-intervallen, te groot voor softwareBijv. lengte tijdschrift-artikel

waarden omzetten in logaritmische schaal, waarden omzetten in hun vierkantswortel en waarden normaliseren (naar zelfde gemiddelde en

standaard-deviatie).

5. Aanvullen van waarden

Gaten opvullen door hun waarden te schatten.

Veronderstel dezelfde verhouding tussen wel bekende waarden en waarden van andere variabelen.

Bijv. module 'mice' in programmeertaal R

6. Uitbreiden met variabelenuit interne bestanden

Decentrale bestanden, rapporten en subadministraties

produktierapportage, project-administratie tijds-verantwoording en -registratie produkt- en dienst-beschrijvingen inkoop- en contracten-administratie redactionele teksten relaties-administratie

7. Uitbreiden met variabelen uitexterne bestanden en

interviews/panelsExterne data: weer (neerslag, zonne-uren, windsnelheid, temperatuur,

extreme condities), aktiviteit alternatieven (prijzen, promoties en

diensten-eigenschappen) en macro-economische ontwikkelingen

(koopkracht, subsidie, werkgelegenheid, belastingaftrek).

Menselijke factor: data over waarde-oordelen, opinies en indrukkenZelf scheppen, meestal met interviews of een panel

8. Uitbreiden variabelen met data-uit-data

('Feature engineering')

Data bevatten meer informatie als je zebewerkt, combineert, relativeert of ontleedt

8.a. Samengevatte informatie ontleden

Tijdstempel van transactie, behandeling of contact kan ontleed worden in:

jaar maand > seizoen dag > dag van de week uur

8.b. Losse informatie over object samenvatten

Kwaliteit of profiel relatie/gebruiker

kenmerken + benaderwijze + gebruiksgedrag+ effect

>PROFIELBijv. 'Intensieve relatie', 'Incidentele relatie', 'Niet-relatie om

financiële reden'

8.c. Absolute data omzetten in relatieve

Bijv.Aantal geslaagden > SlagingspercentageMatching-site : Absolute leeftijden >

Leeftijdsverschil

Nieuwe variabele, die nauwkeurigheid verhoogt

8.d. Beschrijvende data scheppen

Tekst-analyse:voorspellen lezerswaardering of aantal lezers 'Aantal woorden' 'Gemiddelde zinslengte' 'Sentiment' 'Titel bevat vraagteken'

Klant-historie:effectiviteit behandeling voorspellen 'Wel/niet eerder gesproken' 'Aantal dagen sinds laatste contact'

8.e. Combineren met externe variabelen

Geografisch bevolkingsonderzoek bevat economische informatie.

Postcode > 'Welstand' en 'Inkomen'

Data-analyse vraagtcreativiteit en het volhardend uitproberen

om originele data flexibel in te zetten

Stel jezelf de vraag"Welke data zouden de nauwkeurigheid van

voorspelling of analyse kunnen verhogen?”

Hogere nauwkeurigheid door deze data is gelijk het bewijs dat de data-uit-data kloppen.

flexibel omgaan met data / feature engineering

Data & Analytics