sv.onlinewebcreations.com

Apache Hadoop, den viktigaste tekniken för bearbetning av Big Data, har sin födelsedag. Hadoop härrörde från ett äldre projekt för indexering av webbplatser, men 2006 blev ett separat projekt på Yahoo. Hadoop har nu blivit mainstream. Från Microsoft till Oracle och IBM stöder även stora mjukvaruleverantörer tekniken i sina produkter.

Doug Cutting, huvudutvecklaren och visionären av Hadoop, tittade tillbaka en dag på Hadops tioåriga historia. I dagarna före Hadoop använde företagen ofta anpassning för att bearbeta data. Det då relationella databashanteringssystemet (RDBMS) visade sig olämpligt för indexering av webben. Därför startade Cutting ett projekt för utveckling av en öppen källkods "web crawler", robotteknik för att samla stora mängder data.

Skärning bestämde sig snabbt för att anta teknik från Google, som hade utvecklat sitt eget distribuerade filsystem (GFS) med ett exekveringslager (MapReduce). Omkring 2005 överfördes projektet till Yahoo. Namnet var Hadoop, efter en leksak elefant från Cuttings son.

År 2007 körde en första prototyp på prisvärd hårdvara. Akademiska forskare plockade upp det, och genom åren har många ytterligare projekt lagts till. Cutting fortsatte sitt arbete från 2008 till företaget Cloudera, som fick i uppdrag att överföra tekniken till stora företag.

Det verkar framgångsrikt: traditionella databaser är ännu inte borta, men Hadoop har blivit standarden för behandling av ostrukturerade data. De flesta Fortune 500-företagen använder Hadoop. Forrester Research kallar även Hadoop oumbärligt för ambitiösa organisationer.

Självklart ser originalen inte ut som den nuvarande versionen längre. Olika kärnkomponenter har ersatts eller utvecklats, MapReduce har mer eller mindre ersatts av Apache Spark. Nya lagringssystem som Apache Kudu är under utveckling. Distribuerade dataplatformar som IBM Infosphere innehåller för närvarande en Hadoop-kärna och utökar den med funktionalitet. Hadoop, skriver Cutting, är redo för "talet av data".

Top