Investeer verstandig: vijf keuzefactoren voor big-dataoplossingen

273129_h_ergb_s_gl

Door Occo Vreezen |

De keuze voor een big data-analyseoplossing weegt zwaar. Het zijn serieuze investeringen, ook in mankracht, die zich over meerdere jaren moeten bewijzen en zich bovendien niet binnen een paar dagen terugverdienen. Wie beslagen ten ijs komt, voorkomt teleurstellingen. Vijf belangrijke aandachtspunten.

1. Aansluiting bij de business

Het allerbelangrijkste aspect is – uiteraard – of de gekozen oplossing antwoord geeft op de vragen waar de business mee kampt. Bedenk daarom goed wat je van een big data-analyseoplossing verwacht. Moet het tijdswinst opleveren, een efficiëntere verkoopstrategie uitpluizen? Of moet het vooral voorspellende inzichten bieden?

Sommige bedrijven maken de vergissing door teveel tegelijk te willen. Het is beter een specifiek deelprobleem goed te tackelen, dan duizend halve antwoorden te krijgen op vragen die je van tevoren nog niet gesteld had. 

2. Breedte en diepte van de analysemogelijkheden

Niet alle analyseoplossingen gaan even ver in hun mogelijkheden. We kennen de nodige verschillen in de beschikbare analysemodellen. Denk hierbij aan regressieanalyse, dat verbanden tussen verschillende variabelen in kaart brengt.

In het verlengde daarvan ligt predictive analytics, dat voorspelt wat er gebeurt wanneer bepaalde variabelen wijzigen (zogeheten what-if-analyses). Of voorspellen wat in de toekomst gebeurt op basis van cijfers en trends uit het verleden. Een aantal oplossingen werkt zelfs met neurale netwerken, die de structuur van het menselijke brein simuleren en zo kunstmatige intelligentie en zeer efficiënte verwerking mogelijk maken.

Naast het aantal modellen is ook de diepte van de analyse van belang. De gebruikte formules en algoritmen zijn niet bij alle oplossingen even uitgebreid en nauwkeurig. Dat hoeft niet erg te zijn: minder technisch onderlegd personeel is waarschijnlijk beter af met algoritmen waarbij ze niet geconfronteerd worden met tal van extra opties. Terwijl datawetenschappers juist wel om dergelijke mogelijkheden verlegen zitten en de algoritmen naar wens moeten kunnen aanpassen.

3. Gebruiks- en beheergemak

Ga na wie de beheerders en eindgebruikers van het analytics-pakket zijn. De oplossing moet namelijk wel aansluiten bij de kennis en kunde van beide type medewerkers. Hetzelfde geldt voor goed geschoolde databasebeheerders. Als deze mensen niet in een organisatie aanwezig zijn, dan is het beter om die krachtige oplossing gebaseerd op die specifieke database beter links laten liggen.

Een optie voor organisaties die geen capaciteit of kunde hebben voor in-house beheer is BDaaS (Big Data as a Service), een perfecte oplossing: daarmee heb je wel de lusten, maar niet de lasten van een eigen analyticstool (zie punt 5).

Ook de eindgebruikers zijn bepalend voor de keuze. Wanneer je bijvoorbeeld geen enkele datawetenschapper in dienst hebt, kun je alle abstracte, high-end-oplossingen die uitgebreide handmatige invoer vereisen wel overslaan.

Steeds meer big data-analytics richten zich op het C-level-management en business-analisten zonder statistische achtergrond. Deze pakketten zijn vooral gemaakt voor het vereenvoudigen van de beslissingsvorming via bijvoorbeeld overzichtelijke dashboards en vereisen weinig tot geen technische kennis. Ook het overwegen waard zijn plug-ins voor pakketten die organisaties al gebruiken. Dat verlaagt de leercurve, zeker voor niet-technisch personeel.

4. Technologische aspecten

De reeds aanwezige data en IT-structuren moeten uiteraard wel geschikt zijn voor de analyseoplossing. Belangrijk is dat de gekozen analyseoplossing overweg kan met de datasets van een organisatie.

Allereerst is de variëteit van de te analyseren data van belang. Datasets zijn soms gestructureerd, maar veel vaker ongestructureerd van aard. Denk bij die laatste categorie bijvoorbeeld aan opgenomen telefoongesprekken, presentaties, socialmediapostings, afbeeldingen en video. Maar ook bijvoorbeeld nieuws uit de branche. Vaak zit in ongestructureerde data een rijke bron van informatie en inzichten. Het is in veel gevallen zonde als een analyticstool weinig tot niets met dat soort data kan.

Een ander aandachtspunt is het soort databases waarin de data verborgen liggen. Gegevens in gedistribueerde databases als Hadoop of NoSQL-databases als MongoDB en Apache Cassandra bevatten soms cruciale informatie. Analyticsoplossingen moeten daar dan wel bij kunnen. Ook moet het overweg kunnen met een brede range aan bestandsformaten en datamodellen.

Ten slotte is het belangrijk goed te kijken in hoeverre de oplossing aansluit bij de huidige IT-infrastructuur. Sommige oplossingen vereisen de aanwezigheid van een specifieke omgeving. Zo vereisten op de statistische programmeertaal R gebaseerde oplossingen een draaiende R-omgeving. Mocht de bestaande infrastructuur niet aansluiten, dan moeten organisaties rekening houden met extra investeringskosten voor bijvoorbeeld nieuwe servers.

Andere oplossingen vereisen bijvoorbeeld een in-memoryplatform, zodat razendsnelle verwerking van gegevens en real-time overzichten mogelijk zijn. De IT-infrastructuur moet daarop wel zijn voorbereid, tenzij je kiest voor een BDaaS-oplossing (zie volgende punt).

5. Lokaal versus BDaaS

BDaaS is een zeer aantrekkelijk alternatief als de big-datawens maar moeilijk in de huidige infrastructuur is in te passen. Een BDaaS-oplossing stelt geen specifieke vereisten aan de lokale IT-omgeving, waardoor investeringen op dat gebied niet nodig zijn.

BDaaS is ook een zeer geschikte oplossing als je in-house niet beschikt over de juiste beheercapaciteiten. Of het nu gaat om een gebrek aan kennis, mankracht of een combinatie van beide: met BDaaS ligt het beheer en onderhoud in de handen van de provider. Daarmee hebben IT-afdelingen hun handen vrij om zich te focussen op de business zelf, in plaats van op technisch beheer.

Uiteraard heeft een oplossing in eigen beheer ook zijn voordelen. Organisaties zijn immers de baas over de oplossing en hebben zo de volledige controle over de (technische) inrichting ervan.

Occo Vreezen is senior consultant bij T-Systems

 
Meer over
Lees ook
Cegeka Data Solutions van start in Nederland

Cegeka Data Solutions van start in Nederland

De integratie van de in mei 2020 door Cegeka overgenomen dataspecialist Finavista is voltooid. Per 1 maart gaat Finavista verder als Cegeka Data Solutions, waarin alle data-gerelateerde activiteiten van Cegeka in Nederland zijn gebundeld.

Dassault Systèmes continueert omzet- en winstgroei in vierde kwartaal en fiscaal jaar 2020

Dassault Systèmes continueert omzet- en winstgroei in vierde kwartaal en fiscaal jaar 2020

Het bedrijfskritische belang van het Dassault Systèmes platform is het meest zichtbaar in de Life Sciences-markt, waar in 2020 een meerderheid van de klinische tests voor COVID-19 zijn uitgevoerd met MEDIDATA-oplossingen.

JADS onderzoekt data science en ondermijnende criminaliteit in nieuw Centrum voor de studie van Ondermijning

JADS onderzoekt data science en ondermijnende criminaliteit in nieuw Centrum voor de studie van Ondermijning

De Provincie Noord-Brabant, Taskforce-RIEC Brabant-Zeeland, Gemeente Tilburg en het Strategisch Beraad Ondermijning vestigen het JADS Centrum voor de studie van Ondermijning. Binnen het Centrum zal onderzocht worden hoe data science kan helpen meer grip te krijgen op het probleem van ondermijnende criminaliteit in Nederland.