Coney Logo

3 Kolommen en 3 wetenschappen

Het is wel bekend dat de hoeveelheid data op de wereld sterk toeneemt. Door de stijging in slimme toestellen, social media platformen, en het delen van foto’s en video’s, zijn wij de groei van data aan het stimuleren met een hoge snelheid. We slaan meer en meer data op. De data is “Big”, en wordt alleen maar “Bigger”. Dit geldt natuurlijk ook voor de data in bedrijven. En wij willen graag weten wat we er mee kunnen. De hoofdvraag die hierbij een belangrijke rol speelt is: “Hoe halen we Big kennis uit Big Data? ”. Maar is Big Data ook altijd nodig voor Big kennis?

Voor deze blog ligt de focus op de hoofvraag van Big data net wat anders, namelijk

Hoe halen we Big kennis uit Small Data? ”.

Lastig? Niet persé! In deze blog laat ik zien hoe we het meeste uit slechts 3 data kolommen halen met behulp van 3 wetenschappen. In deze blog wordt er gedemonstreerd hoe Process Science, Data Science en Econometrics technieken op een real-life event log toegepast kunnen worden. Hiervoor heb ik de data van een Nederlands Financieel Instituut van de afgelopen Business Process Intelligence Challenge 2017 gebruikt.

De Event Log

De dataset van de Nederlandse Financiële Instituut (NFI) bestaat o.a. uit de volgende datavelden: Case ID, Activiteiten en Tijdstempel. Deze drie velden samen bevatten gedetailleerde informatie van het bedrijfsproces van de NFI. Het bedrijfsproces van de NFI bestaat uit het uitstrekken van leningen aan haar applicanten. Ieder applicant heeft een eigen unieke procesnummer (Case ID). Met behulp van dit nummer is de voortgang van de applicanten in het proces bijgehouden. De processtappen (Activiteiten) in het bedrijf komen gepaard met een Tijdstempel. Hierdoor weten we welke stappen en wanneer deze gezet voor het afhandelen van een applicant. In Tabel 1 is een voorbeeld weergegeven van Case ID 857715587 en zijn/haar procesdata.

 

Sub Data Event Log
 
Case ID Activiteiten Tiijdstempel
 
857715587 Create Application 2016-01-02T14:59:43
857715587 Complete Application 2016-01-02T14:59:43
857715587 Complete Application 2016-01-02T14:59:43
857715587 Application Accepted 2016-01-02T15:03:31
857715587 Create Offer 2016-01-02T15:06:15
857715587 Offer Created 2016-01-02T15:06:17
857715587 Sent Offer to Applicant 2016-01-02T15:06:27
857715587 Complete application 2016-01-02T15:06:27
857715587 Call After Sending Offers 2016-01-02T15:06:27
857715587 Call After Sending Offers 2016-01-02T15:06:27
857715587 Complete Application 2016-01-02T15:06:27
857715587 Call After Sending Offers 2016-01-02T15:07:26
857715587 Call After Sending Offers 2016-01-06T10:30:24
857715587 Call After Sending Offers 2016-01-06T10:30:46
857715587 Cancel Application 2016-02-02T07:00:33
857715587 Cancel Offer 2016-02-02T07:00:33
857715587 Call After Sending Offers 2016-02-02T07:00:33

Tabel 1: Sub Data Event Log NFI van Applicant 857715587

De Tabel weergeeft de route van bedrijfsactiviteiten weer uitgevoerd zijn voor Case 857715587. De case start met de uitvoering van de activiteit Create Application en eindigt met Call After Sending Offers. Voor iedere case worden er offertes aangemaakt met de voorwaardes van de lening. De event log bevat in totaal 31509 cases en bevat 23 verschillend bedrijfsactiviteiten in 2016.

Process Science

Process Science kijkt naar de inrichting en prestaties van bestaande bedrijfsprocessen. Het doel van Process Science is het ontwerpen van nieuwe of herontwerpen van bestaande werksystemen en/of bedrijfsprocessen. Vaak wordt er een procesmodel gecreëerd door stakeholders en managers te interviewen om het huidige bedrijfsproces te begrijpen in de vorm van een flowchart. Een procesmodel in de vorm van een flowchart is een visualisatie die de opeenvolgende stappen van de bedrijfsactiviteiten weergeeft. Het model toont de stappen die uitgevoerd kunnen worden voor het afhandelen van een case. Dergelijke procesmodellen zijn echter meestal gebaseerd op de percepties van de belanghebbenden en managers of op vooraf gedefinieerde bedrijfsregels en weerspiegelen vaak niet de realiteit.

De drie bovengenoemde kolommen vormen de basis voor Process Mining (PM). PM-technieken maken het mogelijk om gericht te zoeken naar manieren om verbeteringen voor de organisatie te realiseren door het daadwerkelijke procesmodel te vinden (Process Discovery) i.p.v. percepties of bedrijfsregels. Nadat het daadwerkelijke bedrijfsproces in kaart is gebracht kunnen we het bedrijfsproces analyseren. In Figuur 1 is het daadwerkelijke proces van de NFI gevisualiseerd met afwijkende routes (blauw) t.o.v. de meest voorkomende routes (oranje) in het bedrijfsproces.

Figuur 1: Visualisatie Afwijkingen Bedrijfsproces NFI in Minit

De event log van de NFI is geanalyseerd met de PM tool van Minit Process Mining. In Figuur 1 is er duidelijk te zien dat er veel meer verschillende paden voorkomen in het bedrijfsproces om applicanten van leningen te voorzien dan dat er verwacht wordt. De aantallen op de paden weergeven de frequentie van de paden. In 2016 is er ruim 3000 keer van de extra paden gebruik gemaakt om de applicanten van leningen te voorzien.

Na het in kaart brengen van het daadwerkelijke proces kunnen we de proces gerelateerde KPI’s analyseren. Dit is mogelijk omdat de dataset een kolom met tijdstempels van de uitgevoerde activiteiten bevat. Met behulp van dit dataveld kan de tool de wachttijden en doorlooptijden van de bedrijfsactiviteiten en cases berekenen. Zo is er in Figuur 2 te zien dat de langste doorlooptijd tussen de activiteiten Send Offer en Cancel Application plaats vindt. Oftewel, de bottleneck in het proces!

Figuur 2: Performance Bedrijfsproces NFI in Minit

 

Data Science

Data Science maakt het mogelijk om patronen te vinden in data. Patronen in data kunnen bijvoorbeeld gevonden worden met Machine Learning (ML) technieken. Een van deze technieken is het toepassen van Decision Trees (DT). Een DT is een model voor de weergave van verschillende alternatieven en keuzes in een besluitvormend proces. Het weergeeft regels die gevolgd moeten worden om in het einde (bladeren) van de boom te komen.

Een DT kan gemaakt worden door het algoritme achter de DT te trainen met behulp van een trainings-set. De data set kan gesplitst worden in een train-en test-set. Na het trainen van een DT met de trainings-set kan de deze gevalideerd met resterende test-set op betrouwbaarheid (accuracy).

De event log moet wel als eerst getransformeerd worden om bruikbaar te zijn voor ML. Dit doen we door simpelweg bij te houden welke en hoe vaak de activiteiten zijn uitgevoerd voor een case. Verder, moeten we het algoritme laten weten wat de response variabele is. De response variabele is een kolom die de besluiten weergeeft voor de cases. In het bedrijfsproces van de NFI kan de response variabele zijn het wel of niet verstrekken van lening aan haar applicanten. In Tabel 2 is deze transformatie te zien voor onze voorbeeld applicant: 857715587.

Case ID 857715587
 
Aantal
 
Create Application 1
Complete Application 3
Application Accepted 1
Create Offer 1
Sent Offer to Applicant 1
Call After Sending Offers 5
Offer Accepted NO

 

Tabel 2: Event Log Transformatie van Case 857715587 voor Machine Learning

In Tabel 2 is er te zien dat er een nieuwe activiteit is bijgekomen, namelijk Offer Accepted. Dit is onze response variabele. Op basis van de bedrijfsactiviteiten Offer Cancelled en Offer Accepted weet ik welke applicanten er wel en welke geen lening hebben gekregen. De activiteiten Offer Cancelled Application Cancelled heb ik uit de log verwijdert, omdat deze samen sterk correleren met de activiteit Offer Accepted. Als een offerte niet geaccepteerd is dan is de aanvraag ook altijd geannuleerd. De NFI heeft aan Case 857715587 geen lening verstrekt. De event log is getransformeerd voor alle cases. Tevens, is de dataset getransponeerd waardoor elke activiteit een eigen kolom heeft en elke rij een case is.

Figuur 3: Decision Tree van het NFI Bedrijfsproces in R

In Figuur 3 is de getrainde DT met een accuracy van 87% weergegeven. De DT is getraind in de statistische analyse tool R. Het opmerkelijkste patroon die ik uit deze DT haal is rechts weergegeven. De DT laat zien dat er blijkbaar een verschil is in het wel en niet verstrekken van leningen op basis van het aantal offertes die de NFI uitbrengt aan een applicant. Er zijn meer YES’ bij meerdere (≥ 2) Offers dan bij 0 of 1 Offers (< 2). Laten we is kijken waarom de DT deze split vertoont. Tijd voor een specifiek onderzoek!

In Figuur 4 is te de verdeling van de cases te zien die wel en geen lening hebben gekregen. Het is duidelijk dat de kans op het verstrekken van een lening hoger is bij het uitbrengen van meerdere offertes. Ook is de kans op het verstrekken van geen lening kleiner bij het uitbrengen van meerdere offertes. Een applicant accepteert dus uiteindelijk sneller een offerte wanneer er meerdere offertes gemaakt worden voor de applicant.

Figuur 4: Verdeling Verstrekte Leningen NFI

Econometrics

Econometrie is een van de wetenschappen in de economie. In de econometrie is men vooral bezig met het leggen van verbanden tussen economische variabelen. Een veelal gebruikte analyse in de econometrie is Time Series Analysis. Het modelleren en voorspellen van tijdreeksen. In een event log zijn er stiekem tijdreeksen verscholen. We kunnen namelijk bepalen hoeveel cases er over de loop van de tijd in het proces binnen liepen, maar ook hoe lang ze aanwezig waren in het proces. Dus ook nu moet de dataset getransformeerd worden. Om de tijdreeksen nauwkeurig te kunnen benaderen heb ik gebruik gemaakt van ARIMA modellen.

Figuur 5: Time Series Analysis op Event Log NFI

In Figuur 5 zijn de zijn de twee tijdreeksen van het aantal cases en de gemiddelde doorloop van die cases te zijn (zwart). De blauwe lijnen zijn de ARIMA modellen die de daadwerkelijke (zwarte) tijdreeksen modelleren. Beiden hebben een accuracy rond de van 95%. Rechts in de Figuur is de voorspelling van de tijdreeksen te zien in R. Wat opvalt is dat er meer cases voorspeld worden dan voorgaande periode, maar de gemiddelde de doorlooptijd van deze cases is ook meer dan voorgaande cases.  Is er een correlatie tussen het aantal cases en de gemiddelde doorlooptijd van die cases? Ook nu is het voor wat meer onderzoek.

Na het uitvoeren van een correlatie test blijkt het dat de twee (zwarte) reeksen een positieve correlatie hebben van 70%. Er bestaat dus een positieve invloed op hoe meer cases hoe langer de doorlooptijd. Nu we dit weten kunnen we de voorspellingen gebruiken om de toekomstige bottlenecks te identificeren op basis van de beschikbare fte. In Figuur 6 is dit te zien. Het aantal verwachtte cases en de verwachte doorlooptijd van die cases is te zien (links) en het fte plafond (links). De verwachte drukke periodes in het proces van de NFI zijn makkelijk te herkennen!

Figuur 6: Toekomstige Bottleneck Periodes NFI

Conclusie

Ja! Het is zeker mogelijk om Big kennis uit Small data te halen. De krachtige technieken van de drie wetenschappen Process Science, Data Science en Econometrics kunnen goed gebundeld worden om veel informatie uit een event log te halen. En dat met maar drie kolommen! Het bundelen van verschillende technieken is een waardevolle “toolbox” om het huidige proces beter te begrijpen. Een uitgebreide toolbox kan meer dynamiek en efficiency in het huidige proces te brengen. De toegepaste analyses in deze blog ondersteunen de blog: ‘Statistisch procesmodel is dood!’ van mijn collega Onno Wouters.

Helaas geldt dit niet voor alle datasets met maar drie kolommen. Er zit veel variatie in de verschillende kolommen van een event log. Dit maakt het mogelijk om informatie op verschillende vakgebieden te winnen. Maar het is het proberen waard.

WELLICHT OOK INTERESSANT VOOR JOU:

Yonas Khanna

Junior Data Analist
+31 (0)6 36 15 66 21
Stuur e-mail

DEZE BLOGPOST DELEN:

Laat een reactie achter

*

\ \
Send this to a friend