flexibel omgaan met data / feature engineering
TRANSCRIPT
FLEXIBEL OMGAAN MET DATA'Feature engineering'
Oude visie op data: volledig, (controleerbaar) juist, origineel
Nieuwe visie: bijdragen aan nauwkeurigheid modellen,
die voorspellen of oorzaken analyseren nieuwe norm kwaliteit: relevantie relevantie omhoog met: flexibele data
- René Verbrugge -
FLEXIBILITEIT om te .....
kneden, mixen, proberen, proeven, aanvullen, vervormen, weglaten, bakken
WAT ZIJN DATA?
Data zijn niet alleen getallen, maar ook:
Tekst woorden, leestekens Logisch waar / niet waar Tijd jaar, maand, dag, weekdag, uur Klasse kleur, schoenmaat, beroep Psychologische factor waarde-oordelen, opinies
en indrukken > zelf scheppen met enquete of panel
Variabele (bijv. gemiddelde temperatuur)vs
Waarde (bijv. 21 )
Voorbeeldvoorspellen parkeren
BIJZONDERE DATA NODIG
ACHT MOGELIJKHEDENVOOR FLEXIBELE DATA
MAG ALLES?
NEE, data beoordeel je op hun verhoging van de nauwkeurigheid van voorspelling en oorzaken-analyse
R² : % dat berekende model spreiding rondom gemiddelde verklaart
1. Verwijderen van variabelen
als deze nauwkeurigheid niet verhoogt als deze hetzelfde meet als andere, als sterke
correlatie indien teveel waarden ontbreken
2. Verwijderen van waarden
Onwaarschijnlijke waarden door: technisch niet mogelijk wijkt van beeld af
3. Omvormen van variabelen
naar hanteerbare, naar uniforme bestandsopmaak (Excel > csv)
matchen andere periode i.v.m. vertraagde reactie(griep Google > bezoek huisarts) sommige getallen zijn klassen(schoenmaat, maand)
4. Omvormen van waarden
Indien waarden lastig hanteerbaar onevenwichtige verdeling, verschillende grootte-intervallen, te groot voor softwareBijv. lengte tijdschrift-artikel
waarden omzetten in logaritmische schaal, waarden omzetten in hun vierkantswortel en waarden normaliseren (naar zelfde gemiddelde en
standaard-deviatie).
5. Aanvullen van waarden
Gaten opvullen door hun waarden te schatten.
Veronderstel dezelfde verhouding tussen wel bekende waarden en waarden van andere variabelen.
Bijv. module 'mice' in programmeertaal R
6. Uitbreiden met variabelenuit interne bestanden
Decentrale bestanden, rapporten en subadministraties
produktierapportage, project-administratie tijds-verantwoording en -registratie produkt- en dienst-beschrijvingen inkoop- en contracten-administratie redactionele teksten relaties-administratie
7. Uitbreiden met variabelen uitexterne bestanden en
interviews/panelsExterne data: weer (neerslag, zonne-uren, windsnelheid, temperatuur,
extreme condities), aktiviteit alternatieven (prijzen, promoties en
diensten-eigenschappen) en macro-economische ontwikkelingen
(koopkracht, subsidie, werkgelegenheid, belastingaftrek).
Menselijke factor: data over waarde-oordelen, opinies en indrukkenZelf scheppen, meestal met interviews of een panel
8. Uitbreiden variabelen met data-uit-data
('Feature engineering')
Data bevatten meer informatie als je zebewerkt, combineert, relativeert of ontleedt
8.a. Samengevatte informatie ontleden
Tijdstempel van transactie, behandeling of contact kan ontleed worden in:
jaar maand > seizoen dag > dag van de week uur
8.b. Losse informatie over object samenvatten
Kwaliteit of profiel relatie/gebruiker
kenmerken + benaderwijze + gebruiksgedrag+ effect
>PROFIELBijv. 'Intensieve relatie', 'Incidentele relatie', 'Niet-relatie om
financiële reden'
8.c. Absolute data omzetten in relatieve
Bijv.Aantal geslaagden > SlagingspercentageMatching-site : Absolute leeftijden >
Leeftijdsverschil
Nieuwe variabele, die nauwkeurigheid verhoogt
8.d. Beschrijvende data scheppen
Tekst-analyse:voorspellen lezerswaardering of aantal lezers 'Aantal woorden' 'Gemiddelde zinslengte' 'Sentiment' 'Titel bevat vraagteken'
Klant-historie:effectiviteit behandeling voorspellen 'Wel/niet eerder gesproken' 'Aantal dagen sinds laatste contact'
8.e. Combineren met externe variabelen
Geografisch bevolkingsonderzoek bevat economische informatie.
Postcode > 'Welstand' en 'Inkomen'
Data-analyse vraagtcreativiteit en het volhardend uitproberen
om originele data flexibel in te zetten
Stel jezelf de vraag"Welke data zouden de nauwkeurigheid van
voorspelling of analyse kunnen verhogen?”
Hogere nauwkeurigheid door deze data is gelijk het bewijs dat de data-uit-data kloppen.