Bedrijven verzamelen en hebben toegang tot steeds grotere hoeveelheden data. Cloudera biedt een oplossing aan om deze grote datavolumes tegen een lage prijs op te slaan, te verwerken en te analyseren. "Het volume, de verscheidenheid en de snelheid van de data kennen een explosieve groei", stelt Mike Olson, ceo van Cloudera, vast.

Big data

Uitgaande van deze vaststelling was de onderneming de eerste die een commercieel platform ontwikkelde op basis van Hadoop (geïnspireerd op het product MapReduce en ontwikkeld door Google om in batchmodus grote hoeveelheden logs te verwerken die de onderneming stockeerde, en dat daarna werd overgenomen door Yahoo en Facebook). "Je kunt onze aanpak eigenlijk vergelijken met die van RedHat ten opzichte van Linux", legt Olson uit. Cloudera werkte rond het Hadoop-aanbod immers een reeks (beheer)tools uit en biedt bovendien professionele ondersteuning aan. "Onze ambitie is om legacy tools te vervangen, zoals BD of opslagmotors voor documenten. We stellen ons niet in de plaats van de datawarehouses, maar we geven ondernemingen de mogelijkheid om bepaalde verwerkingen over te brengen naar goedkopere infrastructuren." Daarnaast richtte Cloudera een ecosysteem op van ontwikkelaars en een netwerk van zowat 450 partners (isv's, hardwarefabrikanten, systemintegratoren, toolleveranciers, enz.).

"We willen dé big data company worden", aldus de ceo, die benadrukt dat Cloudera het zich niet kon veroorloven om enkel te leven van de inkomsten uit de distributie van Hadoop. "We bieden een open source-platform aan dat gekoppeld is aan eigendomsfuncties."

SQL

Tegenwoordig is Cloudera niet langer een nichespeler, maar is het bedrijf vooral aanwezig in sectoren waar een grote vraag bestaat naar de analyse van grote datavolumes, zoals financiën, retail en gezondheidszorg. Daarnaast zet het de deur open naar nieuwe gebieden zoals de energie- en biofarmaceutische sector, en binnenkort zelfs naar discrete manufacturing of productieateliers.

Maar het product zelf blijft ook niet ter plaatse trappelen. "We stellen vast dat er veel vraag is naar sql en interactiviteit. Hadoop is zeker erg flexibel en soepel, maar een beetje traag omdat het in batchmodus werkt. Ook datamanagement is nog te complex", geeft Charles Zedlewski, vicepresident products, toe. Cloudera introduceerde amper enkele weken geleden onder de naam Impala een sql-zoekmotor om gegevens die zijn opgeslagen in Hadoop te raadplegen. "Deze oplossing is 10 tot 40 keer sneller dan Hive op MapReduce", beweert Zedlewski, terwijl de gebruiker wint aan gebruiksgemak en flexibiliteit en het product is geïntegreerd de business intelligencetools van de markt.

"Impala kan beschouwd worden als een peer van MapReduce, dat wordt gebruikt als algemene oplossing, terwijl Impala speciaal werd ontworpen om het onderzoek van data in sql te vergemakkelijken", merkt de vicepresident products nog op. Hij voegde er nog aan toe: "De uitdaging is nu om meer actieve gebruikers van Hadoop te krijgen, een beetje zoals de bi-software-uitgevers doen."

Tot slot benadrukt Olson dat Hadoop zich momenteel toespitst op gegevensanalyse en gegevensverwerking, maar het product zou zich in de toekomst kunnen openstellen voor opslag (dankzij de prestaties van de ssd) of voor relationele databases.

Marc Husquinet

" We stellen vast dat er veel vraag is naar sql en interactiviteit.