Big data en Hadoop lijken op korte termijn synoniem van elkaar te zijn geworden, maar wat is nou die Hadoop? In wezen betreft het een implementatie van het MapReduce-programmeermodel voor geparallelliseerde en gedistribueerde data-intensieve toepassingen in clusteromgevingen, ondersteund door een aangepast gedistribueerd bestandssysteem.
Het werd ontwikkeld door Doug Cutting en Michael Cafarella in 2005, en kende vroege (en
Hadoop-framework
Het MapReduce-model voorziet in de opsplitsing van grote datasets in kleinere verzamelingen voor verwerking op een aantal ‘nodes’, waarna het ‘reduce’-deel de resultaten weer samenvoegt. Het bestandssysteem voorziet in de verdeling van de taken over de verschillende nodes. In de Apache Hadoop implementatie – een Apache top-level project – nemen Hadoop MapReduce en het Hadoop Distributed File System deze taken voor hun rekening. De basis van het framework wordt gevormd door Hadoop Common, waarmee de omgeving wordt opgestart en die ondersteuning biedt voor alle modules.
Kritiek dat het MapReduce-gebeuren zich op een te laag niveau afspeelt om echt een breed spectrum aan oplossingen te bieden (een kritiek van onder meer database expert Michael Stonebraker), wordt goeddeels aangepakt door een veelheid aan Hadoop-randprojecten. Zo voorziet de Apache Hadoop implementatie in modules als onder meer Pig (een high level data-flow taal), Cassandra (een scalable multi-master database), HBase (een schaalbare gedistribueerde database), Hive (een datawarehouse-infrastructuur) en Mahout (een schaalbare machine learning en data mining bibliotheek).
Hadoop-‘distributies’
Hadoop-beginners moeten voorts zich niet alleen inwerken in Hadoop zelf, maar ook de verschillende ‘distributies’ die rond dit framework zijn opgebouwd. Op het Parijse Big Data kreeg je als beginner allicht snel een punthoofd om de aanbiedingen (producten en/of diensten) door ‘nieuwkomers’ als Cloudera en Horton-works te beoordelen, naast deze van ‘klassiekers’ als IBM en Oracle, EMC (Greenplum) en VMware, en ‘specialisten’ als MapR Technologies, (MapReduce framework), Pentaho (BI), Talend (IDE)…. Om niet te spreken over een Amazon die big data in de cloud aanbiedt, of een Debian-uitvoering voor de ware Linuxfans. Je zou je al om minder eerst laten adviseren, en ja, bedrijven als Accenture, PwC, Capgemini e.d. waren van de partij.
Overigens zijn big data en Hadoop niet echt synoniem, en op Big Data werd dan ook steevast benadrukt dat Hadoop geen ‘one size fits all’ oplossing is. En dat ongestructureerde data ook wel door andere omgevingen kunnen worden verhapstukt, zoals door het brede ‘noSQL’-gebeuren wordt onderstreept (databases die niet de relationele basisstructuur hebben, maar vaak wel met SQL kunnen worden geraadpleegd, waarbij noSQL dan weer zou staan voor ‘not only SQL’…). En, zo wordt nog op het hart gedrukt: Hadoop en andere big data middelen zullen de klassieke bestaande data-infrastructuur in bedrijven niet vervangen maar aanvullen..
Guy Kindermans
Fout opgemerkt of meer nieuws? Meld het hier