Het is periodiek even goed om stil te staan bij wat nu precies big data is en of je huidige project wel een moeilijke technische opzet benodigd heeft omdat het big data betreft of dat het inmiddels al small data is.
Big data is eigenlijk geen vaststaande term en is zeker, zoals veel dingen, aan inflatie onderhevig. Op het moment verschijnen er mobiele telefoon met 20GB ram terwijl dat eerder meer zwaar desktop werk was. Of zelfs server werk. Ook maken 100 plaatjes in een folder nog geen big data, noch wat json’s of xml’s die je dient te verwerken.
Big data is denk ik beter te vatten in het past niet meer op 1 server qua omvang en verwerkingssnelheid. En juist op het server of hardware vlak zie je eigenlijk dat er afgelopen jaren stilaan continue progressie is geweest. Het is geen supercomputer meer die benodigd is om 1000 cores of 4000 GB RAM+ te behalen in 1 machine. Nee, dit is effectief nu mogelijk met een server die je zelf in elkaar kan zetten. Uiteraard met een deftig prijskaartje maar met hardware die simpel te bestellen is. En met al die kracht is heel veel big data eigenlijk small geworden in de wereld van data engineering.
En met het worden van small data zijn veel technische oplossingen zoals Kubernetes, Hadoop, Spark en Ray een beetje overbodig geworden voor een hele rits aan data toepassingen die weer simpelweg op 1 machine zijn uit te voeren. Dit betekend simpelere solution designs en minder FTE die je kwijt bent aan inrichting en ondersteuning van diverse tooling.
Verder zeker ook interessant de kijk van Wikipedia op small data.
Terug naar thuis