Exploderende datavolumes veroorzaken ook in 2012 heel wat kopzorgen. Het Diabetes Research Center van de VUB vond een structurele oplossing voor zijn big data-uitdaging in een Hadoop-cluster en de toepassing van het MapReduce-algoritme. Het Belgische consultancybedrijf DataCrunchers voert de implementatie uit.

DataCrunchers bundelt de dienstverlening rond big data-technologie van Java-consultants Foundation.be uit Berlare. Het bedrijf realiseerde één van zijn eerste big data-projecten bij het Diabetes Research Center (DRC) van de VUB. Het DRC voert onderzoek naar methodes om de insulineproductie in de pancreas van diabetespatiënten te verbeteren. Bij dat onderzoek produceert het DRC grote hoeveelheden data: beelden van experimenten op basis van weefselstalen.

Tot voor kort bewaarden de onderzoekers van het DRC de beelden – niet geïndexeerd en zonder back-up – op afzonderlijke, externe harde schijven van 1 TB. Ook al opteerde het DRC ervoor de beelden in lage resolutie te bewaren, dan nog bleef het datavolume te snel groeien. Het onderzoekscentrum ging daarom op zoek naar een oplossing om op incrementele manier beelden te kunnen opslaan en back-uppen in de hoogst mogelijke resolutie.

Metadata

In een eerste fase zette DataCrunchers een Hadoop-cluster in om de beelden op te slaan en te indexeren aan de hand van metadata. Het DRC maakt daarbij gebruik van Lily, een openbron content repository van het Gentse bedrijf Outerthought. Hadoop is de openbronversie van de oplossing die Google bedacht voor big data. Google stelde in de jaren ’90 al vast dat het technisch weliswaar mogelijk is om binnen een traditionele, relationele databank incrementeel data te blijven verzamelen en verwerken, maar dat de prijs van de oplossing exponentieel stijgt naarmate de datavolumes blijven toenemen. Google bedacht daarop het MapReduce-raamwerk: een gedistribueerd filesysteem in combinatie met parallelle verwerking. Het raamwerk laat toe om incrementeel data op te slaan overheen een cluster van nodes. Elk bestand wordt – naargelang zijn omvang – verspreid over één of meer systemen. Dat is de oplossing die DataCrunchers ook bij het DRC implementeerde. Het DRC zal de bestaande systemen via een netwerk verbinden met de cluster. Via zoektermen kunnen de onderzoekers de geïndexeerde beelden daarna weer opzoeken en verder bewerken. In de tweede fase van het project zal DataCrunchers onderzoeken hoe het bij het DRC het MapReduce-algoritme kan aanwenden om op een snellere manier beelden te verwerken in de Hadoop-cluster.

Dries Van Damme

Fout opgemerkt of meer nieuws? Meld het hier

Partner Content