Waaruit bestonden in grote lijnen de stadia van de it-evolutie bij CERN?

FREDERIC HEMMER: De eerste computers - die in die tijd nog vrij onstabiel waren - werden in de jaren '60 geïnstalleerd, voordat ze werden vervangen door mainframes zoals IBM 3090 en Cray XMP 48. Een eerste grote bocht kwam er in de vroege jaren '90 met de introductie van RISC-werkstations die een prijs/prestatieverhouding boden die tot 1.000 keer interessanter was. Eind jaren '90 deden de pc's met Pentium Pro-processor hun intrede, eerst onder Windows en later onder Linux, met systemen met torens en later met racks. Intussen telt het park ongeveer 10.000 servers en 90.000 cores. En we slaan meer dan 120 PB aan data op. Sinds de eerste botsingen van de LHC of de Large Hadron Collider eind maart 2010, genereren de experimenten ongeveer 30 PB aan data per jaar. Data die worden opgeslagen op magnetische tape, terwijl de verwerking gebeurt via een kopie op schijf, met voortaan dus 100 PB op tape en 120 PB op schijf. Het verschil met vroeger is dat de gegevens nu binnenkomen via netwerken in plaats van magnetische tapes van de experimentele zones te vervoeren naar het rekencentrum. Ik wil hieraan toevoegen dat de gegevens altijd voor lange termijn worden opgeslagen op tapes, maar rechtstreeks in het rekencentrum ook kortstondig opgeslagen worden op schijven voor een eerste verwerking, op een netwerk van 10 Gbit/s. Een van de uitdagingen hierbij is om de gegevens wereldwijd en voor altijd toegankelijk te kunnen maken. Vandaar de noodzaak om deze gegevens regelmatig te migreren in functie van de evolutie van de drager, meer bepaald de overgang naar cartridges van 5 PB, en later 8,5 TB vandaag. Voor elke verandering moeten de gegevens worden gelezen en gekopieerd, wat ervoor zorgt dat de gegevens altijd le...

FREDERIC HEMMER: De eerste computers - die in die tijd nog vrij onstabiel waren - werden in de jaren '60 geïnstalleerd, voordat ze werden vervangen door mainframes zoals IBM 3090 en Cray XMP 48. Een eerste grote bocht kwam er in de vroege jaren '90 met de introductie van RISC-werkstations die een prijs/prestatieverhouding boden die tot 1.000 keer interessanter was. Eind jaren '90 deden de pc's met Pentium Pro-processor hun intrede, eerst onder Windows en later onder Linux, met systemen met torens en later met racks. Intussen telt het park ongeveer 10.000 servers en 90.000 cores. En we slaan meer dan 120 PB aan data op. Sinds de eerste botsingen van de LHC of de Large Hadron Collider eind maart 2010, genereren de experimenten ongeveer 30 PB aan data per jaar. Data die worden opgeslagen op magnetische tape, terwijl de verwerking gebeurt via een kopie op schijf, met voortaan dus 100 PB op tape en 120 PB op schijf. Het verschil met vroeger is dat de gegevens nu binnenkomen via netwerken in plaats van magnetische tapes van de experimentele zones te vervoeren naar het rekencentrum. Ik wil hieraan toevoegen dat de gegevens altijd voor lange termijn worden opgeslagen op tapes, maar rechtstreeks in het rekencentrum ook kortstondig opgeslagen worden op schijven voor een eerste verwerking, op een netwerk van 10 Gbit/s. Een van de uitdagingen hierbij is om de gegevens wereldwijd en voor altijd toegankelijk te kunnen maken. Vandaar de noodzaak om deze gegevens regelmatig te migreren in functie van de evolutie van de drager, meer bepaald de overgang naar cartridges van 5 PB, en later 8,5 TB vandaag. Voor elke verandering moeten de gegevens worden gelezen en gekopieerd, wat ervoor zorgt dat de gegevens altijd leesbaar zijn. Zo nam de vorige oefening 2,5 jaar in beslag. De kopieën van deze gegevens worden verdeeld over de 12 Tier 1-centra en vervolgens naar ongeveer 150 Tier 2-rekencentra die met elkaar verbonden zijn binnen de WorldwideLHC Computing Grid of WLCG. Per dag worden er 2 miljoen berekeningen gemaakt met deze gegevens en dus doorgegeven naar de WLCG, die toegankelijk zijn voor 10.000 wetenschappers uit 100 landen en 600 universiteiten. Hierin schuilt trouwens nog een andere uitdaging, namelijk analyses maken van gegevens die wereldwijd verspreid zijn. Het volledige optische glasvezelnetwerk van CERN is maar liefst 40.000 km groot. Onze databases moeten ook hun beste beentje voorzetten want er worden maar liefst 200.000 wijzigingen per seconde uitgevoerd op een aantal van onze databases. FREDERIC HEMMER: De budgetten zullen niet positief evolueren, dus moeten we zoals in vele organisaties meer doen met minder. In dit opzicht gaan we onze platforms migreren naar de volgende generatie van multicore Intel Xeon-processors. Dit vraagt een aanpassing van alle codes van onze programma's om dit soort processors zo goed mogelijk te benutten. Ik spreek dan van enkele miljoenen coderegels. Een andere uitdaging bestaat erin om de efficiëntie van onze systemen te verhogen, in de wetenschap dat onze inkoopcycli zich uitstrekken over vier jaar, waarvoor de indienststelling of operaties geoptimaliseerd moeten worden. In het kader van ons agile infrastructure-programma maken we gebruik van virtualisatie en OpenStack voor het beheer van duizenden verspreide machines. Een andere grote uitdaging is de beschikbare plaatsruimte en de elektrische stroom in ons rekencentrum in Genève, waar we 3 zalen hebben van 1.400, 1.200 en 200 m², met een totaal vermogen van 3,5 MW, met luchtkoeling voor 2/3de van de machines en met waterkoeling voor de rest. Vandaar de beslissing om ons huidig rekencentrum uit te breiden met een 2de rekencentrum in Hongarije, vooral omdat kosten voor de onderlinge verbinding gunstiger bleken dan verwacht. Zo worden onze rekencentra verbonden door 2 redundante verbindingen van 100 Gbit/s. We dachten dat zowel onze lokale als internationale netwerken de zwakke schakel zouden vormen en onbetaalbaar zouden zijn, maar ze bleken betrouwbaarder en minder duur dan verwacht. CERN heeft de taak om een eerste kopie op de site te hebben en te zorgen voor een eerste verwerking. Het zou dan ook interessant zijn om de gegevens te verdelen naar de centra waar de kosten lager zijn. Een derde van de kosten van een centrum is namelijk toe te schrijven aan het stroomverbruik. Zo zouden we net als Google kunnen overwegen om berekeningen te doen op de plaatsen waar de kosten lager zijn. Dit is trouwens de ambitie van het agile infrastructure-project en de virtuele machines. Zo zouden we zelfs bepaalde berekeningen kunnen uitvoeren op de Amazon-infrastructuur als ze bijvoorbeeld onbenutte capaciteit zou hebben. Ik wil er wel bij zeggen dat we ons rooster, waar 160 centra genieten van een grotere onafhankelijkheid en waarmee service level agreements werden gesloten, niet mogen verwarren met cloud, dat wordt beheerd door een organisatie die de volledige controle op de operaties heeft. FREDERIC HEMMER: Bij CERN is informatica alom aanwezig: it staat in voor de wetenschappelijke processen, zoals de verwerking van de gegevens van de versnellers en detectoren, maar ook voor de administratieve processen, zoals human resources, financiën, enz. Begrippen als criticality, business continuity en planning nemen een centrale plaats in binnen onze zorgen. Wetenschappelijke vrijheid staat bovendien voorop, wat betekent dat we elk soort toestel van gelijk welk merk aanvaarden en overal wifi aanbieden. Met een maximaal niveau van veiligheid, want de onderzoeksresultaten zijn dan wel openbaar, elke indringing in onze systemen zou schadelijk zijn. Onze gebruikers zijn wetenschappers en we moeten dan ook bewijzen dat we beter en betrouwbaarder, voorspelbaarder en professioneler kunnen werken en tegelijk inspelen op de behoeften, zonder iets op te leggen. De echt onderscheidende factor van onze it is de hoeveelheid gegevens, meer dan 100 PB, en de verwerking van deze gegevens. Maar andere wetenschappen zullen ook te maken krijgen met dergelijke volumes, zoals genetische sequencing, dat zeer grote hoeveelheden gegevens zal produceren uit genoomanalyse. Op dit vlak delen we onze ervaringen op het gebied van big data en analytics. CERN wil heel open zijn en wetenschappelijke democratie bevorderen. Dit is onze missie en onze plicht. FREDERIC HEMMER: Zoals ik al zei gaan de budgetten niet positief evolueren want de investeringen zijn vooral toegespitst op de versnellers en detectoren, terwijl it eerder een verwerkingstool is. De kostprijs van de softwarelicenties is bijvoorbeeld gestegen van 2,8 miljoen CHF in 2008 naar 5 miljoen nu. In deze context kan open source een antwoord vormen, ook al lost het niet alle problemen op. Dit geldt bijvoorbeeld voor het hardware open source licentieproject op basis van het design van de elektronica die verbonden is met de detectoren, het OpenStack-initiatief waar we op het gebied van authenticatie en integratie bijdragen aan de Active Directory. Soms blijkt open source duurder dan een commercieel product, zoals we zagen voor ons intern berichtensysteem. Open source werkt mee aan onze filosofie inzake delen en intellectuele opbrengst voor de wetenschappelijke gemeenschap. FREDERIC HEMMER: De it-afdeling telt ongeveer 220 interne informatici en in totaal ongeveer 300 medewerkers, als je de bezoekers, beursspecialisten, enz. eraan toevoegt. Ik probeer één derde mensen te hebben die niet onder een contract voor onbepaalde duur werken om zoveel mogelijk te kunnen vernieuwen en te beschikken over mensen die wel eens baanbrekende ideeën zouden kunnen hebben. Want het is aan de jongeren om ons te leren en niet andersom, en om nieuwe ideeën aan te brengen. We hebben trouwens een groot aantal contracten met de privésector, met name in het kader van het openlab van CERN, een initiatief om geavanceerde technologieën in verband met LHC te ontwikkelen met als slogan 'you make it, we break it'. Innovatie staat immers centraal, niet alleen in de it, maar in alle gebieden die CERN aanpakt, om de grenzen van de kennis steeds te verleggen. Dergelijke uitdagingen moeten precies door jongeren worden aangepakt. In de it-wereld innoveren we vooral op het vlak van het rekenrooster, meer bepaald het X509-certificaat voor de authenticatie van de gebruikers, een tool nu ook gebruikt wordt door onze traditionele it als single-sign-on. In bepaalde gebieden en periodes kunnen we maar moeilijk jongeren rekruteren. Dit geldt vooral voor systeembeheerders, specialisten in databases. De concurrentie van de banken is zeer sterk in deze domeinen. Maar CERN blijft uiteraard zeer aantrekkelijk voor jongeren. Marc Husquinet