Als je wilt starten met Big Data, is starten met het lezen van dit handzame boek een goed idee. Succes met Big Data van Wiebe en Bert van der Zee uit 2020 vertelt je wat de basisconcepten zijn in korte hoofdstukken die met name ingaan op de techniek. Handig om te zorgen dat jouw BD-projectgroep dezelfde basiskennis heeft en de bijbehorende termen kent, waaronder Data lake en Data reservoir, in een zee van andere weetjes.
In deze recensie van Succes met Big Data ….
… vind je informatie over de inhoud, een voorbeeld, mijn evaluatie, rating en koop-informatie. Waarom zeg ik dit? Omdat je het gebruik van leeswijzers ook kunt overdrijven. In dit boek heeft elk hoofdstuk, hoe kort ook, een overzicht waarover de paragrafen gaan, zelfs het hoofdstuk Ethiek van maar 6 pagina’s, waar op de 3de pagina wordt uiteengezet wat we op de pagina’s 3 tot en met 6 zullen lezen. Voor mij volstaat de inhoudsopgave, waarin bij elk hoofdstuk toch óók de paragrafen worden genoemd. Heel makkelijk als je over een specifiek onderwerp wat wilt lezen, want alle hoofdstukken zijn min of meer zelfstandig leesbaar. Fijn!
Het boek bestaat uit 11 korte hoofdstukken …
… die het volgende afdekken:
- Big Data – over het verschil met ‘gewone’ data in databases en toepassingen van BD;
- Opslag – over data ontwerp, met ook informatie over programmeertalen Fortran, Unix en C en over data opslag, met een beschrijving van de werking van (no)SQL databases, datawarehouse en data mart, data lake en data reservoir)
- Proces – over data-analyse, data-mining, Big Data verwerken en Predictive Analytics;
- Beslisboom – over deze analysemethode met bijbehorende wiskundige formules;
- Neurale netwerken – over de voordelen en beperkingen en de (zelf)lerende methoden;
- Clusteren – hoe je grote dataverzamelingen behapbaar maakt met hiërarchisch, puntsgewijs en dichtheidsgewijs clusteren;
- Lineaire regressie – over het visualiseren van meetpunten;
- Naaste buur – over patroonherkenning;
- Regels afleiden – uit grote hoeveelheden data, met een mooi voorbeeld van hooikoorts wat er heel herkenbaar uitziet: dit gebruiken we nu bij het onderscheid tussen verkoudheid en Corona;
- Zin en onzin – over kwaliteitsmanagement en manipulatief presenteren;
- en Ethiek – over bijvoorbeeld Cambridge Analytica en het beïnvloeden van je klanten.
Verder zijn er 3 appendices, die een praktijkvoorbeeld geven, verder ingaan op statistische methoden, en op technisch niveau uitwerken hoe te starten met Big Data – welke IT architectuur je nodig hebt en hoe je een BD project aanpakt, zodat BD niet voor Big Disappointment staat. Ook is er een lijst met tools.
Veel voorbeelden
Elk hoofdstuk heeft (uitgewerkte) voorbeelden. In het hoofdstuk Big Data is het interessante en heel actuele voorbeeld van het Corona-dashboard van de John Hopkins Universiteit opgenomen. De input daarvoor komt uit een aantal internationale databases maar ook uit datamining op Twitterfeeds en nieuwsberichten. JHU stelt de data gratis beschikbaar; overheden in alle landen gebruiken ze voor de Corona-bestrijding. Wat een nuttige toepassing!
Voor wie is dit boek nuttig?
Er zal bijna geen bedrijf meer zijn wat niet aan de slag wil, of moet, met Big Data, en voor deze bedrijven is dit boek relevant en actueel. De titel vind ik iets te veel verwachtingen scheppen. Na het lezen weet je zeker meer over gestructureerde en ongestructureerde data, algoritmes, etc. maar er is nog wel wat meer nodig om ‘Succes met Big Data’ te hebben.
De schrijvers geven aan dat de doelgroep ‘iedereen is die met Big Data te maken krijg’, van programmeur, via analist tot gebruiker. Het boek lijkt geschreven te zijn voor mensen die al in de IT werkzaam zijn en de stap willen maken naar Big Data. Een beetje kennis van statistiek is ook wel handig, anders gaan de formules, met name die in de appendix, je al snel duizelen. Ik moest ‘polynoom’ even opzoeken….. (dat blijkt toch wel basiskennis statistiek te zijn die bij mij is weggezakt, ha ha).
Evaluatie
Ik vond het boek vrij breed, goed voor een naslagwerk, maar van een aantal onderwerpen vroeg ik me echt af of ik dat wel nodig had om Big Data te begrijpen, bijvoorbeeld de exacte werking van databases. Anderzijds was deze informatie wel handig om juist de verschillen tussen gestructureerde en ongestructureerde data te begrijpen. In het hoofdstuk ‘Opslag’ bijvoorbeeld, komen het data warehouse en de data mart aan de orde, als voorbeelden voor model driven storage, en data lake en data reservoir, als voorbeelden van data driven storage.
Het boek raakt de meest relevante zaken die bij BD komen kijken. De afbeeldingen en plaatjes voegen niet altijd wat toe, en soms worden er fouten bij gemaakt. Slordig. Ondanks het uitgebreide gebruik van termen is het toch goed leesbaar (met of zonder leeswijzer), en de vele voorbeelden zijn goed te volgen. Daardoor reikt het boek een soort gemeenschappelijke taal aan, wat de onderlinge communicatie tussen programmeurs en gebruikers van BD zeker zal bevorderen.
Mijn kennis van terminologie is in ieder geval weer bijgespijkerd, al heb ik de indruk dat je voor de ‘basiskennis’ uit dit boek wel wat basiskennis IT en statistiek nodig hebt …
Ik gaf het boek 3 1/2*
Ken je het? Wat vond je ervan?
Je kunt dit boek kopen bij Managementboek.nl en bij Bol.com
Verder lezen?
Een uitstekend boek over Big Data, Artificial Intelligence en Deep Learning, maar met name over causaliteit en correlatie, is Het boek Waarom van Judea Pearl uit 2019. Hierin worden onder andere de vragen beantwoord waarom het zo lang duurde voordat wetenschappers stelden dat roken longkanker veroorzaakt, en waarom het verbad tussen ons gedrag en de opwarming van de aarde zoveel discussie oplevert. Lees hier meer over dit boek!
Een prima boek is Sociale Big Data van Alex Pentland uit 2016. Pentland is onderzoeker en hoogleraar aan et MIT, en gaf zijn proefpersonen sociometers, die alles, maar dan ook alles, meten. En daarmee werd hun gedrag heel voorspelbaar. Deze toepassing van Big Data laat zien hoe goede ideeën zich verspreiden door groepen mensen, en ook hoe écho chambers’ werken. Fascinerend, en absoluut lezenswaardig als je tegen het arrogante toontje van Pentland kunt….Lees mijn uitgebreide recensie hier.
Artificial Intelligence in actie van Muriel Serrurier Schipper en Taco Hiddink gaat wat dieper in op de toepassingen van Big Data en AI. Hierin komen naast de meer technische aspecten ook wet- en regelgeving, ethiek, privacy en implementatie aan de orde. Er is met name veel aandacht voor chatbots, en de (vermeende) intelligentie daarvan. Lees mijn mini-recensie hier.
Elly Stroo Cloeck is project- en interim-manager op het gebied van Finance, Internal Audit en Risk Management via haar bedrijf ESCIA. Daarnaast schrijft ze recensies en samenvattingen van managementboeken. Abonneer je hier op de kwartalige nieuwsbrief.