Voorspellende Modellen

Door: Jan de Leeuw
Dit is het eerste artikel in een serie over voorspellende modellen. In toekomstige artikelen gaan we een aantal casussen uitwerken waar een voorspellend model wordt besproken.

Een van de meest bekende voorbeelden van een voorspellend model gaat over een veelbesproken onderwerp bij de koffieautomaat. Dit is, je raadt het al, het weerbericht. Meteorologen verzamelen allerlei gegevens, welke in een model gaan. De uitkomst van dit model is de voorspelling van het weer voor de komende 24 uur, maar ook voor de komende weken. Maar er zijn nog talloze alledaagse voorbeelden van voorspellende modellen, zoals de spamfolder in een email-box en de schatting van de energierekening.

Tegenwoordig worden voorspellende modellen alom gebruikt. De resultaten van voorspellende modellen worden regelmatig louter als advies gebruikt.1 Zonde, want voorspellingen die uit een model komen, kunnen in potentie een heleboel waarde opleveren. Wanneer er goed nagedacht wordt over het doel, de methode en de uitvoering kunnen de uitkomsten bijdragen aan de bedrijfsvoering en besluitvorming. In de rest van dit artikel wordt beschreven wat voorspellende modellen zijn en hoe ze te gebruiken zijn.

Waarde van voorspellende modellen

Er zijn veel sectoren waarin voorspellende modellen waardevol kunnen zijn. Door bepaalde facetten in ‘de business’ nauwkeurig te voorspellen naar de toekomst toe, is er beter in te spelen op (veranderende) omstandigheden. Doordat voorspellende modellen een goed beeld van de toekomst kunnen geven, worden organisaties in staat gesteld te anticiperen en vooruit te denken. Het kan helpen vraag en aanbod beter op elkaar af te stemmen. Doorrekenen van scenario’s met behulp van voorspellende modellen kan een goed beeld geven van het risico dat een organisatie loopt. Een voorspellend model kan daarnaast een grote bijdrage leveren aan kostenreductie. Toepassingen zijn te vinden in diverse sectoren, zoals:

  • Marketing: Het voorspellen van aankoopgedrag van bezoekers op een website. Hierbij kan data als het aantal bezoekers op een site, hoe lang bezoekers op een bepaalde pagina blijven hangen of het klikgedrag van bezoekers, gebruikt worden als variabele om te voorspellen wanneer een bezoeker iets koopt of juist afhaakt. Met deze informatie kan de website verbeterd worden teneinde meer te verkopen.

  • Mobiliteitssector: Door de kostprijs van leasecontracten nauwkeuriger vast te stellen, bijvoorbeeld door restwaarde van auto’s in de toekomst te voorspellen, kunnen auto’s tegen meer competitieve prijzen in de markt gezet worden; daarmee is het marktaandeel te vergroten.

  • Retail: Door de prijs en hoeveelheid van een product over tijd te voorspellen kan gericht en zo optimaal mogelijk inkopen worden gedaan. Hierdoor kan antwoord verkregen worden op vragen als: ‘Hoeveel denken we te gaan verkopen volgende week/maand/jaar?’ en ‘Tegen welke prijs?’.

  • Gezondheidzorg: Het voorspellen van patiëntenstromen zoals wachttijden, doorlooptijden, operatietijden en opnametijden, geeft inzicht in de patiëntenstromen en processen nu en in de toekomst. Dit kan leiden tot inzichten waaruit een efficiënter en beter (patiëntvriendelijker) proces kan voortkomen.

  • Telecom: Door te voorspellen wanneer een telefoon stuk gaat, kunnen gerichte aanbiedingen gedaan worden om klanten een nieuwe telefoon te verkopen.

  • Logistiek: Hoeveel trucks/bezorgers/uren heb ik nodig om alle leveringen op tijd te doen? Deze vragen goed voorspellen kan een betere capaciteitsplanning opleveren. Een planning gebaseerd op goede voorspellingen leidt tot meer ‘on-time deliveries’, meer tevreden personeel en afnemers, kostenoptimalisatie, etcetera.

Een voorspellend model

Predictive analytics is een veel gehoorde term wanneer geavanceerde ‘nieuwe’ technieken worden gebruikt. Technieken als Data Mining (het op zoek gaan naar nieuwe verbanden in een dataset), Artificial Intelligence ofwel AI (het slim oplossen van problemen door een machine) en Machine Learning (toepassing van AI, waarbij een machine data krijgt waarmee het zelflerend zoekt naar verbanden). Het creëren van (wiskundige) modellen speelt hier een grote rol.2

De meeste tijd van het modelleren gaat zitten in het verzamelen, controleren, aanvullen en verbeteren van de dataset (regelmatig 80%). Zodra de dataset is geprepareerd, kan er gekozen worden uit een grote variëteit aan modellen. Modellen zijn in grofweg 3 soorten te verdelen, namelijk beschrijvende modellen, voorspellende modellen en beslissingsmodellen (‘descriptive’, ‘predictive’, ‘prescriptive’). Deze soorten modellen zijn soms maar moeilijk uit elkaar te houden.3,4

Waar een beschrijvend model de vraag ‘Wat gebeurt er?’ beantwoordt en een beslissingsmodel de vraag: ‘Wat moeten we doen?’, beantwoordt een voorspellend model de vraag: ‘Wat gaat er waarschijnlijk gebeuren?’. Een voorspellend model kijkt naar trends en patronen in historische data uit een of meer bronnen. Als deze trends en patronen naar de toekomst kunnen worden doorgetrokken, kan een voorspellend model gebruikt worden. Echter, als de markt sterk verandert, veranderen trends ook. Zolang men bewust is van de aannames die gemaakt zijn (over bijvoorbeeld de markt), kan men rekening houden met veranderingen in deze aannames of de gevoeligheid van de resultaten ten aanzien van de aannames inzichtelijk maken.

Beschrijvend model

Een beschrijvend model beantwoordt de vragen ‘Wat gebeurt er?’ en ‘Waarom gebeurt het?’. Deze modellen beschrijven de bestaande relaties in een dataset. Een beschrijvend model presenteert een samenvatting van de data, waarbij de belangrijkste causale verbanden worden gezocht.

Wanneer de vraag is of afgelopen zomer extreem nat was, kan een beschrijvend model worden gebruikt. Het model gaat dan op zoek naar relaties in de historische weerdata. Uitkomsten zijn veelal uitspraken zoals: ‘in juli was het afgelopen 50 jaar maar 2 keer kouder dan dit jaar’,  ‘er is in de maand augustus nog nooit zoveel regen gevallen als afgelopen jaar’ of ‘het is morgen bijna nooit 10 graden warmer dan vandaag’.

Voorspellend model

De vraag die een voorspellend model beantwoord is: ‘Wat gaat er waarschijnlijk gebeuren?’. Voorspellende modellen zijn regelmatig een verlengde van een beschrijvend model. Voorspellende modellen kijken naar het voorspellen van een uitkomst welke nog niet bekend is, waar beschrijvende modellen kijken naar data waar de uitkomst al wel van bekend is.

Voorspellende modellen zijn ‘Use-Case’ gedreven: per situatie wordt gekeken naar de best mogelijke voorspelling voor die specifieke situatie. Per business case wordt er bekeken of een voorspellend model maken de juiste methode is.

Het weerbericht kan worden voorspeld met behulp van een model. De relaties en patronen die in het beschrijvende model zijn gevonden, worden gebruikt om het model te voeden. Met behulp van historische data voorspelt het model het weer voor de komende dagen. Uitkomst is de weersverwachting met bijbehorende waarschijnlijkheid, bijvoorbeeld: ‘morgen 80% kans op regen en een temperatuur tussen 14 en 16 graden’.

Beslissingsmodel

Een beslissingsmodel gaat over het nemen van beslissingen die de business ten goede komen. Een dergelijk model beantwoordt de vraag: ‘Wat moeten we doen?’ Hiervoor worden voorspellende modellen regelmatig als input gebruikt. Denk bijvoorbeeld aan een model dat het nemen van beslissingen optimaliseert, ‘gegeven deze voorspelling, is dit de beste optie’. Een beslissingsmodel neemt beslissingen waarbij de mens in principe geen rol meer hoeft te spelen.

Een boer kan een beslissingsmodel gebruiken. Een boer kijkt goed naar het weerbericht voor de komende dagen. Zijn input is dus een voorspellend model. Aan de hand van het weerbericht kan de boer een model gebruiken welke aangeeft wanneer oogsten het gunstigste is om met grote waarschijnlijkheid de optimale opbrengst te genereren, bijvoorbeeld: ‘in de tweede week van augustus brengt de oogst naar verwachting het meest op’.

Methode voorspellende modellen

Voordat een model kan worden gemaakt, moet eerst de data worden geprepareerd, gecontroleerd en waar nodig worden verbeterd. Daarna zijn er grofweg drie stappen die iteratief worden doorlopen tijdens het bouwen van een voorspellend model. Deze stappen worden meerdere keren doorlopen om de performance van het uiteindelijke model te optimaliseren.

  • Stap 1: Het kiezen van het wiskundige (voorspellend) model dat het beste geschikt is, gegeven de beschikbare data.

  • Stap 2: Het schatten van de parameters, het zogenaamde ‘trainen’ van het gekozen model.

  • Stap 3: Finetunen van het model.  Het finetunen van het model bestaat uit het onder andere schatten van parameters die niet uit de data berekend kunnen worden.  Hiervoor wordt zeer regelmatig input gevraagd van een expert op het gebied waar het model in opereert, bijvoorbeeld over subsidieplannen en het effect van de subsidie op de markt.

Welk model gebruikt wordt, is afhankelijk van de situatie, het doel, de gewenste uitkomst en de beschikbare data en resources. Regressieanalyse (zoals lineaire, logit en probit regressies) is een eenvoudige en vaak zeer effectieve vorm van modelleren. Het is een techniek voor het analyseren van een specifieke samenhang in data. Denk bijvoorbeeld aan de prijs van een huis ten opzichte van het aantal vierkante meters oppervlak. Meer woonoppervlak leidt tot een hogere huizenprijs. Met een regressieanalyse kan het verband tussen de prijs en het woonoppervlak worden gevonden.

In classificatie modellen wordt data gecategoriseerd in verschillende klassen. Doel is nieuwe data in de juiste klasse indelen, bijvoorbeeld ‘spam’ of ‘geen spam’. Hieronder vallen onder andere clustering algoritmes, support vector machines, logit/probit regressie, beslissingsbomen en random forests. In het eerder gepubliceerde artikel The incredible power of machine learning wordt een korte uitleg over regressieanalyse, support vector machines, k-means clustering en genetic algorithms gegeven.

Een beslissingsboom is een classificatiemodel, zie onderstaande afbeelding.

 

Valkuilen van voorspellende modellen

Verouderde of foutieve data gebruiken

Afgelopen maand kwam naar buiten dat de voorspelde waarde van de energierekening enorm veel hoger uitkwam dan verwacht. Er is een relatief simpele reden voor, namelijk de voorspelling was gemaakt op basis van verouderde data. Er moet goed nagedacht worden over welke data er in een model gaat. Wanneer data niet gecontroleerd wordt, kan dat leiden tot grote problemen. Als je foutieve of verouderde data gebruikt als input, dan komt uit het model hoogstwaarschijnlijk een fout of onbruikbaar antwoord. Een veelgebruikte term voor dit fenomeen is ‘Garbage in, Garbage out’.

Een ander goed voorbeeld van een valkuil met verouderde data is de Google flu trend voorspelling. Dit ging spectaculair mis omdat niet goed over data en methodiek was nagedacht. De zoektermen die mensen gebruiken, veranderden door automatisch aanvullen. Mensen werden effectiever in het gebruik van google. Door het gebruik van verouderde data om het model te trainen, zat het model er 140% naast.4

Aannames niet blijven toetsen

De wereld verandert. Daarmee veranderen condities en aannames waarmee het model te maken heeft. Blind de voorspellingen van een model volgen is nooit een goed idee. Elk voorspellend model wordt gevoed met aannames. Deze aannames dienen elke keer getoetst te worden. Enkele voorbeelden zijn sprongen in techniek, regelgeving van de overheid en voorkeur van consumenten.

Stel er komt een nieuwe smartphone op de markt. Deze smartphone is identiek aan de vorige in alle opzichten: dezelfde specificaties, prijs en performance. Door een sprong in technologie is er een nieuwe betere batterij beschikbaar en toegevoegd aan de nieuwe smartphone. Wat een model ook voorspeld heeft voor de verkoop en prijs van de verouderde smartphone, door de ‘onverwachte’ betere batterij zullen consumenten de verouderde versie niet meer willen hebben voor dezelfde prijs. De voorspelde opbrengsten voor de verouderde smartphone zullen dan dus lager uitvallen, waardoor het model minder accuraat is dan voorheen.

Niet maken van een business case

De waarde van een model kan zitten in allerlei factoren, bijvoorbeeld grote tijdwinst of grotere nauwkeurigheid. Echter, een voorspellende analyse is niet waardevol wanneer er niets met de uitkomsten gedaan wordt. Het is daarom raadzaam eerst na te gaan welke beslissing er genomen moet worden voordat er wordt geïnvesteerd in een model welke geen bruikbare voorspellingen doet.  Een businesscase geeft antwoord op vragen als ‘wat gaan de voorspellingen opleveren?’ en ‘hoe worden de uitkomsten van het model in de dagelijkste business ingezet?’.

Stel: een model levert 10% meer nauwkeurige voorspellingen op, waardoor de winst met €10.000,- per jaar stijgt. Als het model €200.000,- kost om te maken, duurt het 20 jaar voor de investering zichzelf terugverdient. Het is de vraag of dit de moeite waard is.

Wel gecorreleerd maar geen causaal verband

Een van de belangrijkste vragen in voorspellende modellen is: ‘Wat is het causale (oorzakelijke) verband tussen oorzaak en gevolg?’ Wanneer variabelen gecorreleerd zijn, is er een samenhang tussen de variabelen. Dat wil niet automatisch zetten dat er een causaal verband is. Het is belangrijk om na te gaan of iets alleen gecorreleerd is of dat er wellicht een causaal verband bestaat.5

Stel: de correlatie van Japanse auto’s verkocht in de VS en zelfmoord door het crashen van een motorvoertuig is 93,6% (zie afbeelding). Met een beetje gezond verstand zie je meteen dat een causaal verband zeer onwaarschijnlijk is. Meer gekke correlaties zijn te vinden op http://tylervigen.com/discover.

 

Over-Fitting

Een model maken dat te nauw met de dataset correspondeert, zodat nieuwe data niet past binnen het model. Elk model heeft ruis (‘noise’), data die niet netjes binnen het model past. Een model voorspelt ruis wanner het overfit wordt, dit creëert foutieve waarden. Dit gebeurt wanneer er teveel variabelen in het model worden gebruikt.6

Een schoolvoorbeeld van over-fitting is het volgende: Een klein meisje uit een rijk gezin ziet voor het eerst een latino baby en zegt: Kijk mam, een baby huishoudster.. Dit model is gebaseerd op alle data die het kleine meisje heeft; alle (waarschijnlijk 2 of 3) latino’s die het meisje gezien heeft zijn huishoudster. Als het meisjes vervolgens een latinobaby tegenkomt, bedenkt het meisje hoe ze de baby gaat classificeren. Ze komt tot de conclusie dat de baby in haar model over latino’s past en beslist dat de baby dus een huishoudster is. Het is evident dat niet alle latino’s huishoudsters zijn, terwijl dit een perfecte fit is op het model van het meisje.

Voorspellende modellen in de praktijk

Met het juiste plan, een positieve businesscase, goede en correcte data is een voorspellend model zeer waardevol. Belangrijk is dat er aandacht is voor de potentiele valkuilen. Een succesvoorbeeld van voorspellende modellen vind je bijvoorbeeld bij KPN.7 Zij gebruiken tientallen modellen om klantgedrag te analyseren en te voorspellen. Hiermee kunnen zij betere aanbiedingen doen aan klanten die dat willen en klanten die geen aanbiedingen willen met rust laten. Hiermee benutten zij voorspellende modellen om klanttevredenheid en omzet te vergroten.

2019-03-25T08:49:06+01:0026 februari 2019|Tags: , , , , , |