ojd : 43957 surface approx. (cm²) : 3268 page 1/8...

8
26 RUE D'ORADOUR SUR GLANE 75504 PARIS CEDEX 15 - 01 44 25 30 11 19 NOV 09 Hebdomadaire Paris OJD : 43957 Surface approx. (cm²) : 3268 N° de page : 32-39 Page 1/8 KEYRUS 5103991200505/GAD/AMS/2 Eléments de recherche : KEYRUS : groupe d'ingénierie informatique, toutes citations DECISIONNEL LE DATAWAREHOUSE CHANGE DE DIMENSION • L'augmentation des volumes de données et la multiplication des applications décisionnelles rendent le rôle du data- warehouse de plus en plus critique pour les entreprises. • Face aux SGBD relationnels, des technologies alternatives apparaissent. L'architecture massivement parallèle, quant à elle, se démocratise. DOSSIER REALISE PAR VINCENT BERDOT, RENAUD BONNET ET ALAIN CLAPAUD 5 H*J SH L e datawarehouse haute per formance de plusieurs teraoc têts reserve aux entreprises du CAC40 •> Cette vision est en tram de voler en éclats La pression du fonctionnel est la le volume des donnees grimpe aune vitesse vertigineuse, les applications décisionnelles sont de plus en plus nom breuses, de même que le nombre de leure utilisateurs Sans compter ces < power users » qui reclament toujours plus de souplesse dans leure analyses et des temps de réponse instantanés A ton pour autant atteint les limites du SGBD relationnel, alors que les gigaoctets de donnees s'ajou tent de mois en mois 7 Le leader Oracle a pris la mesure du risque de voir son SGBD relègue au seul marche du transactionnel (OLTP) Le rachat de Sun lui a offert l'occasion de doter Ora cle llg d'une plate-forme pour le datawa rehousing Exadata Face aux fabricants spécialises que sont Teradata et Netezza, Oracle joue la carte de l'apphance La course à la puissance n'est peut-être pas une fatalité Microsoft, de son côte, a acquis un spe- cialiste du datawarehouse Datallegro,mais ne suit pas Oracle dans la voie de Tap pliance Tout comme ses offres Fast Track, ou SQL Server est premstalle sur des confi gurations certifiées, le prochain SQL Server sera en mesure de côtoyer les SGBD capa bles détenir la charge surplusieurs dizaines de teraoctets de donnees, grâce a l'archi lecture MPF(massivement parallele)concue par Datallegro La tendance est a la bana lisaûon des plates-formes matérielles Même Netezza, avec sa nouvelle gamme Twinfin,

Upload: others

Post on 18-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: OJD : 43957 Surface approx. (cm²) : 3268 Page 1/8 DECISIONNELlclx.free.fr/articles/bf_01_19nov09.pdf · pliance Tout comme ses offres Fast Track, ou SQL Server est premstalle sur

26 RUE D'ORADOUR SUR GLANE75504 PARIS CEDEX 15 - 01 44 25 30 11

19 NOV 09Hebdomadaire Paris

OJD : 43957

Surface approx. (cm²) : 3268N° de page : 32-39

Page 1/8

KEYRUS5103991200505/GAD/AMS/2

Eléments de recherche : KEYRUS : groupe d'ingénierie informatique, toutes citations

DECISIONNELLE DATAWAREHOUSECHANGEDE DIMENSION• L'augmentation des volumes de données et la multiplication

des applications décisionnelles rendent le rôle du data-warehouse de plus en plus critique pour les entreprises.

• Face aux SGBD relationnels, des technologies alternativesapparaissent. L'architecture massivement parallèle,quant à elle, se démocratise.

DOSSIER REALISE PAR VINCENT BERDOT, RENAUD BONNET ET ALAIN CLAPAUD

5 H*J SH

Le datawarehouse haute performance de plusieurs teraoctêts reserve aux entreprises duCAC40 •> Cette vision est entram de voler en éclats Lapression du fonctionnel est lale volume des donnees grimpe

aune vitesse vertigineuse, les applicationsdécisionnelles sont de plus en plus nombreuses, de même que le nombre de leureutilisateurs Sans compter ces < powerusers » qui reclament toujours plus desouplesse dans leure analyses et des tempsde réponse instantanés A ton pour autantatteint les limites du SGBD relationnel,alors que les gigaoctets de donnees s'ajoutent de mois en mois 7

Le leader Oracle a pris la mesure durisque de voir son SGBD relègue au seulmarche du transactionnel (OLTP) Le rachatde Sun lui a offert l'occasion de doter Ora

cle llg d'une plate-forme pour le datawarehousing Exadata Face aux fabricantsspécialises que sont Teradata et Netezza,Oracle joue la carte de l'apphance

La course à la puissancen'est peut-être pas une fatalité

Microsoft, de son côte, a acquis un spe-cialiste du datawarehouse Datallegro,maisne suit pas Oracle dans la voie de Tappliance Tout comme ses offres Fast Track,ou SQL Server est premstalle sur des configurations certifiées, le prochain SQL Serversera en mesure de côtoyer les SGBD capables détenir la charge surplusieurs dizainesde teraoctets de donnees, grâce a l'archilecture MPF (massivement parallele)concuepar Datallegro La tendance est a la banalisaûon des plates-formes matérielles MêmeNetezza, avec sa nouvelle gamme Twinfin,

Page 2: OJD : 43957 Surface approx. (cm²) : 3268 Page 1/8 DECISIONNELlclx.free.fr/articles/bf_01_19nov09.pdf · pliance Tout comme ses offres Fast Track, ou SQL Server est premstalle sur

26 RUE D'ORADOUR SUR GLANE75504 PARIS CEDEX 15 - 01 44 25 30 11

19 NOV 09Hebdomadaire Paris

OJD : 43957

Surface approx. (cm²) : 3268N° de page : 32-39

Page 2/8

KEYRUS5103991200505/GAD/AMS/2

Eléments de recherche : KEYRUS : groupe d'ingénierie informatique, toutes citations

»>,

45

s'y rallie et a adopté l'architecture x86. Maîsil a dû conserver des cartes spécifiques pourtenir la charge.

Si augmenter la puissance avec deséquipements spécialisés très performants(scale up) ou en multipliant les serveursbanalisés (scale out) constitue une solutionpour accompagner la croissance des da-tawarehouses, il existe désormais d'autresapproches. Ainsi Sybase mise sur la rupturetechnologique avec le mode de stockage encolonnes (ou vertical). Celui-ci présente desavantages certains pour les applicationsdécisionnelles, notamment un chargementen mémoire de par sa compacité. Depuis,ce mode a été repris par SAP sur BW Acce-lerator ou encore par Qliktech.

Les solutions exploitant ce mode destockage se multiplient, y compris dans lacommunauté open source. Ingres prépareune solution libre avec le groupe de recher-

Si les éditeurs de SGBDtraditionnels [Oracle,IBM, Microsoft] etles grandsequipementiersdu datawarehouse(Teradata, IBM,Nctezza]occupentle carre des leaders,nombreux sontles challengersCe sont des start up(lOlOdata, Illuminate)ou des editeurs etfabricants quis'appuient surdes technologiesinnovantes[Greenplum, Vertica,Sybase), ou encoredes prétendants issusde t'open source(MySQL, Ingres)

Acteurs de niche Visionnaires_^—M^_^_ Eundut di la stratégie •

Source Gartner (carte établie er dëcembre ?0083

che universitaire Vectorwise. Par ailleurs,MySQL, capable d'exploiter de multiplesmodes de stockage, sert de base à plusieursoflres de datawarehouse émergentes. Info-bright est la solution open source la plusavancée dans ce domaine. De son côté,Kickfire a conçu un composant pour doperles performances desesappliances MySQLEnfin, Calpont tente de mettre au point unesolution MPF pour ce même moteur de basede données.

Si constructeurs d'appliances et éditeursde logiciels rivalisent d'innovations pourdynamiser le marché du datawarehouse,l'avenir de ce dernier pourrait venir ducloud Computing. Les premiers services deDaas (Datawarehouse as a Service) existentdéjà et les géants du cloud ont leur mot àdire. Les capacités de stockage virtuellementinfinies d'Amazon SS, de Google App Engine,ou d'IBM Smart Business Storage Cloudrisquent fort de changer la donne. •

Page 3: OJD : 43957 Surface approx. (cm²) : 3268 Page 1/8 DECISIONNELlclx.free.fr/articles/bf_01_19nov09.pdf · pliance Tout comme ses offres Fast Track, ou SQL Server est premstalle sur

26 RUE D'ORADOUR SUR GLANE75504 PARIS CEDEX 15 - 01 44 25 30 11

19 NOV 09Hebdomadaire Paris

OJD : 43957

Surface approx. (cm²) : 3268N° de page : 32-39

Page 3/8

KEYRUS5103991200505/GAD/AMS/2

Eléments de recherche : KEYRUS : groupe d'ingénierie informatique, toutes citations

INFRASTRUCTURE LOGICIELLE.

La révolutiontechnologique esten cours• L'accroissement continu des volumes de données

manipulés dans les datawarehouses pose la questionde leur stockage.

• Les utilisateurs exigent désormais plus de souplesseet la livraison des données en temps réel.

Apres des annees de domination dequèlques constructeurs travaillantpour quèlques grands clients, lemarche des solutions de datawa-

rehouse s'ouvre Bouscule par la monteeen puissance des SGBD traditionnels, il avu la creation de multiples start up pourpromouvoir des technologies alternativesDes technologies matérielles avec, parexemple, Netezza et Kickfïre maîs surtoutune pléthore de solutions logicielles quireposent tant sur des offres MPF que surdu materiel banalise et donc a faible coutLe framework MapReduce, notamment,place ce type d'architecture a la portée denombre d'éditeurs

Les innovations interviennent aussi ducôte du mode de stockage Car si le SGBDrelationnel presente de nombreux atoutspour les applications transactionnelles,pour les applications décisionnelles etanalytiques il est désormais possible de

faire mieux, voire beaucoup mieux, pourstocker des donnees Le cas le plus emblé-matique est celui de Sybase, qui aligne deuxproduits différents pour repondre auxexigences de deux marches Alors que sonSGBD relationnel ASE (Adaptive ServerEnterprise) s adresse au secteur de POLIT;purement transactionnel, Sybase IQ, lui,vise uniquement le datawarehousing « Cestun choix historique que Sybase a effectue endjjjermaant ses offres setondes usages, souligneIsabelle Genestoux, directrice marketingde l'éditeur en France Nousnecroyionspasen la base de donnees o tout f mee pour le tran-sacfocmeWamlyttqwethmcfoMe Cestnches,de natures distinctes, imposent des caractèretiques techniques mdiwkriient afférentes >

Et cette offre connaît un veritable successur le marche, alors que son editeur étaitconsidère comme en perte do vitesse auprèsdes entreprises La raison de ce rebondsurprise ? Le mode de stockage revolution

n colonnes pour le déc]POINTS FORTS -,• Pas d information Iredondante• Taux de compressiondes donnees dè I ordrede 20 fois par rapport austockage traditionnel•Aucun index a creer• Administration des basesréduite• Ajout de champs dansles ta bles tres simple

POINT FAIBLE• Stockage inadapteau transactionnel difficilede modifier ou de supprimerdes enregistrements

STOCKAGE CLASSIQUE

Table

Champ I Champ 2 Champ 3

STOCKAGE EN COLONNES

Table

Champ I Champ 2 Charrp 3

9 Enregist emen J

naire mis en oeuvre dans Sybase IQ lestockage en colonnes (ou stockage vertical)Bien adapte aux recherches de type business intelligence (BD analytique, ce modede stockage permet de fortement compresser les donnees, et donc d accroître la capacite utile des infrastructures de stockageUne compacité qui offre aussi la possibilitéde charger les donnees directement enmemoire, et donc d'accélérer l'accès auxinformations Mieux, aucun index n'estnécessaire pour accroître la vitesse d'accèsaux donnees, d'où une grande souplessedans le requetage et I administration detelles bases

Le moteur de recherche, unealternative plutôt inattendue

< AuœuriebaseOmck,IBMDB2ouS'$xiseASE une requête coûte tres chei en termesd'entrées sorties car on doit balayei de grosvolumes de donnees pour délivrer la réponse,explique François Guerin directeur avant-vente de Sybase Des solutions comme Exadata d'Orack distribuent ces entrées-sorties surun grand nombre de ressources pour dmser ktemps de l^wtement Avec le stockage en cokm-nes,ontmiïelaquestKmdfferemment,etdartsun contexte analytique, cela constitue unavantage significatif > Randy Lea, vice-pré-sident du marketing produits et serviceschez Teradata, tempère les arguments dececoncurrent « Le stockage ericofotwsexistedepuis des annees, ensai, d ne s'agit pas d'unenouvelle technologie Sybase IQ n est presentque dans quèlques environnements, lesquelsn'obl^ennertdebonnesrjerjbrmancesguegmcea la compression de donnees MaisûfiMtpredéfinir lesjomtures entre les tables Ce n'est passuffisamment dynamique et flexible pour lesdatawarehouses » Teradata prefere misersur la consolidation des datamarts dans unearchitecture de datawarehouse unique,l'EDW (Enterprise Data Warehouse), afind'abaisser le coût total de possession (TCO)des infrastructures décisionnelles

Néanmoins, l'appannon des processeurs64 bits a brise les limitations qui pesaientsur l'adoption du stockage vertical Etaujourd'hui Sybase IQ a ete choisi par1700 clients dans le monde, soit 3 DOO instal-lations On retrouve ce stockage en colonneschez SAP et son offre Netweaver BW Acce-lerator ou encore chez le Suédois Qhktechqui, avec sa plate-forme analytique Qkkview,revendique pas moins de ll 400 clients ' Lemonde open source s'est lui aussi emparedu phénomène Infobnght a développe untel mode dc stockage pour MySQL

Etonnamment, une autre solution,plutôt inattendue, vientapporterun elementde réponse dans cette quête du meilleur

Page 4: OJD : 43957 Surface approx. (cm²) : 3268 Page 1/8 DECISIONNELlclx.free.fr/articles/bf_01_19nov09.pdf · pliance Tout comme ses offres Fast Track, ou SQL Server est premstalle sur

26 RUE D'ORADOUR SUR GLANE75504 PARIS CEDEX 15 - 01 44 25 30 11

19 NOV 09Hebdomadaire Paris

OJD : 43957

Surface approx. (cm²) : 3268N° de page : 32-39

Page 4/8

KEYRUS5103991200505/GAD/AMS/2

Eléments de recherche : KEYRUS : groupe d'ingénierie informatique, toutes citations

L'AVIS DES ANALYSTES

Curt Monash,de Monash Research

*« Des technologies peugpjtguses autojgejiit,,Éajalyse de données 'Lemrnamedessoîutionsanalytiques efaeaatlwarehouseest désormais plus excitant que celui des SGBD transactionnels, tant sur le plan de la technologie que du point de vuemarche Et si cela s'inverse a nouveau, ce sera au travers del'intégration du transactionnel et de l'analytique, comme parexemple dans les Fusion Apps d'Oracle Les logiciels de ges-tion de donnees, tout comme le stockage en colonnes ou

j,,les nouvelles architectures MPF, participent pour une grande'part a cet essor Lapparition de technologies peu coûteusesautorise désormais I analyse de quantite de donneesqui ne l'étaient pas jusqu'à present, telles celles des fichiers

Jde logs Autre possibilité, prendre .des donnees jusqu'alorsanalysées en mode hatch et par datamming, et les rendredisponibles en mode temps reel pourdes applications

^utilisateurs, des sites web ou dans les centres d appel »

James Kobielus,analyste senior au seindu cabinet Forrester

Dans le cadre de la recherche de la plate forme optimalepou r apporter des capacites CPU et de stockage pourdes applications analytiques, les entreprises me demandentsouvent si MapReduce et Hadoop constituent la solutionMapReduce est un thème tres a la mode Ma position estque c'est un point au sem d une solution plus large ll s'agitd'une solution cle, maîs pas de la solution unique ll existedes alternatives proprietaires telles que Teradata qui offrentles mêmes capacites Porte par Google et Yahoo depuisplusieurs annees, Hadoop est un projet qui évoluerapidement ll n'est toutefois pas encore un standard ouvertOn peut espérer que les travaux de standardisationde MapReduce débuteront l'année prochaineLa migration vers un framework analytique en lignede type MapReduce ou Hadoop dans le cloud représenteun projet a long terme »

mode de stockage le moteur de rechercheStephane Donze, directeur techniqued"Exalead, explique cette mutation Lesdevers modes de stockage ont des caractenstiquestres différentes Avecscmmodekrelationnet, fa, base de donnees traditionnelle s avèretresflextbk on peut, mettre en ceuvre toutessortesdemodèlesdedonnées Enrevanche ellereste difficile a optimiser Le stockage vertical,lui, se prête mieux aux applications decisionnettes, en ce sens que l'on a besoin d'accéder acertaines colonnesseulementmaîs-surunitesgmndnombre de lignes. Lemateurderecherche,enfin, travaille sur un modele objet Toutes lesdonnees sont physiquement placées au mêmeendroit, et effectue! une reclierche sur 10 axesau lieu de deux n'est que marginalement pluscher en calculs Exalead a notamment eteretenu par Gefco pour la constitution de sestableaux de bord Cette frontière entrestructure et non structure, I AmericainAttivio n'hésite pas non plus a la franchiravec Active Intelligence Engine (AIE), qu'ilpositionne aussi bien face aux moteurs derecherche et aux plates formes de BI queface au datawarehouse traditionnel

Le succes de ces offres, les géants duSGBD relationnel l'ont bien identifie IBM,qui par ailleurs vend des appliances SybaseIQ aux Etats Unis, maîs aussi les apphancesSAPBW Accelerator, s est souvenu détenirlui-même cette technologie dans son impo-sant portefeuille de produits II s'agit del'offre TM1, issue de l'acquisition de Cognosqui la tenait lui même d'Apphx TM1 estdevenu le socle de Cognos Express presentedernièrement Pour Oracle, en revanche,

la marge de manœuvre s avère plus étroiteImpensable, pour le leader mondial duSGBD de remettre en cause ses parts demarche plutôt confortables sur le segmentdu datawarehouse L'éditeur mise donc surune gamme d'apphances spécialisées pouraffronter les spécialistes du secteur

Lavenir est aux solutions MPF

L'offre Exadata, lancée dans sa premiereversion sur plate-forme HP en septembre2008, est désormais alignée sur le catalogueproduits de Sun Une tactique intéressantepour Oracle puisqu il donne de l'air a Oracle llg sans remettre en cause profondément son modele Pour Larry Ellison, il s'agitde gagner du temps dans cette course auvolume Car a ce petit jeu, ce sont les solutions MPF qui vont, de facto, l'emporterDans son etude intitulée Uasswe But AgdeBestPmctwesForScalmgTheNext-GeneTahanEnterprise Data Warehouse parue en juindernier, James Kobielus, analyste chezForrester estime que le modele SMP nepourra pas aller plus loin que quèlquescentaines de teraoctets Au-delà règne leMPF! un domaine encore récemment reserveaux machines spécialisées de Teradata etde Netezza, autant d acteurs dont l'avenirsemble assure par la croissance inexorabledes volumetnes

Maîs ceux qui se frottaient les mains enobservant la taille des datawarehousess'accroître inexorablement, risquent de voirleur fenêtre de tir plus étroite que prévueLa faute a l'adoption des technologies MPF

par toujours plus d editeurs, que ce soit dansle datawarehouse ou 1"ETL (Extract, Transform, Load) Le framework MapReduce,avec notamment ses implementations opensource dans le cadre du projet ApacheHadoop, est une réponse alternative auxsolutions proprietaires Ainsi, Greenpluma déjà démontre la pertinence de cetteapproche sur de tres gros volumes de donnees chez son client eBay, qui gere plus de6,5 Po de donnees sur 96 nœuds

La voie sul vie par Microsoft est originalepuisque l'éditeur, qui a tout a prouver surce marche, a décide d'adapter ces innovamons a SQL Server Avec l'acquisition deDatallegro en 2008, Microsoft s'est dote d'unetechnologie MPF qui va pouvoir accompa-gner SQL Server sur des volumetnes de-passant la centaine de teraoctets < Jusqu'àI tt) Ib, WMS awnsrros rn pface te programmeFast Track, souligne Lionel Sillon, chef deproduit SQL Server chez Microsoft FranceII s'agit d'architectures de reference quahfeeset mises enplace avec nospartenazres construc-teurs > Les configurations MPF, s'appuyantsur les technologies Datallegro, permettronta SQL Server 2008 R2 de passer la barre des100 To des 2010 Maîs contrairement a Ora-cle, Microsoft ne mise pas tout sur la puissance machine En parallèle de sa strategieMPF, le geant du logiciel s'est égalementempare du phénomène du stockage encolonnes son projet Gemini touche a sonterme, rebaptise Power Pivot, il offre unesolution de stockage en colonnes en me-moire dans Excel, ainsi que sur SQL Server2008 R2»

Page 5: OJD : 43957 Surface approx. (cm²) : 3268 Page 1/8 DECISIONNELlclx.free.fr/articles/bf_01_19nov09.pdf · pliance Tout comme ses offres Fast Track, ou SQL Server est premstalle sur

26 RUE D'ORADOUR SUR GLANE75504 PARIS CEDEX 15 - 01 44 25 30 11

19 NOV 09Hebdomadaire Paris

OJD : 43957

Surface approx. (cm²) : 3268N° de page : 32-39

Page 5/8

KEYRUS5103991200505/GAD/AMS/2

Eléments de recherche : KEYRUS : groupe d'ingénierie informatique, toutes citations

INFRASTRUCTURE MATERIELLE.

Un mondede systèmes dédiés• Les architectures massivement parallèles continuent àrégner pour traiter de grands volumes de données.

• La tendance est cependant à une banalisationdes composants employés, tendance qui se renforceavec l'apparition des solutions virtualisées.

Avant même que le conceptd'entre-pôt de donnees (datawarehouse)n'apparaisse, les premieres solutiens analytiques reposaient sur

des architectures dédiées, dont celtes despionniers Teradata et Bntton Lee Lesexigences spécifiques a ce type de traite-ments, différents des operations transacuonnelles, engagèrent les fournisseurs dansla creation de systemes massivementparal-leles (MPF) en mode sans partage (share-nothmg), ou chaque nœud contrôle sesressources de memoire et de stockage, etcommunique sur un bus haute vitesse avecses voisins En résume diviser la chargepour mieux traiterde grandes quantites dedonnees

Trente ans plus tard, ces principesrestent valables L'évolution des technolo-gies informatiques a cependant transformeles approches marche De plus, comme le

rappelle Bernard Fitoussi, directeur asso-cie d'Adwance, « les entrepôts de donneesinférieurs a W To représentent 95% de la demande II existe donc un veritable besoinpour des datawarehouses de faible volume,qui fait évoluer les offres vers le bas

Généralisation du principedes appliances

Chez les grands fournisseurs, la tendance generale est a la banalisation desinfrastructures, avec des serveurs et desbus de communication standards Teradatase fournit chez Intel pour la motorisationde ses nœuds de traitement (processeursXeon), chez Novell pour son systeme d'ex-ploitation (Lmux), et envisage une migrationvers Ethernet 10 Gbit pour les mterhaisonsDe son côte, IBM a pns depuis longtempsune voie comparable et propose une gamme

Les orochaii s évolutionsLes disques durs sondes SSCCapables de délivrer 100 fois plusd'entrees/sorties que les disquesdurs traditionnels, les SSCdevraient trouver leur place dansles infrastructures décisionnellesEn revanche, ils coûtent cher etoffrent de faibles volumes, ce quiles destinera davantage aux petitsentrepôts et aux bases verticales

MaLe framework de traitement distribueMapReduce, et sa déclinaison opensource Java Hadoop, simplifientl'élaboration de systemesmassivement parallèles en offrantune base de conception facilement

accessible pour la constitutiond'entrepôts de donneesCe qui devrait se traduire parI apparition de nouveaux acteurs

Le cloud et les offres Saas.Pas question de déplacerles traitements les plus lourdset les énormes volumes de donneesvers I infrastructure d un prestatairede services En revanche,pour des operations plus légères etplus ponctuelles, la multiplicationdes services en ligne paraît unesolution logique L'éditeur Aster Datas'est déjà associe a Amazon etrevendique deux déploiementssur EC2

de solutions pléthorique Décline en modeparallèle depuis 1996, DB2 règne aux côtesd'Informix IQ et de produits de partenairescomme B W Accelerator de SAP, ou SybaseIQ qu'IBM intègre < Leprmc^del'apphancese généralise dans le domaine du datawarehouse afin d'accélérer la mise en place des so-lutions », souligne Isabelle Clavene-Berge,specialiste de la gestion de l'informationchezIBMFrance Les systemes dédies dTBMfonctionnent sur les serveurs maisons x86ou Power, avec Windows, Linux ou AIX,selon le volume de donnees a traiter et lesexigences de disponibilité

Oracle, quant a lm, a développe avecHP, puis avec Sun, les systemes ExadataL'éditeur prétend en faire indifféremmentdes solutions transactionnelles ou decisionnelles Les matériels, la aussi n'ont rien departiculier des serveurs Xeon d'origineSun relies par un reseau Infiniband Enfin,HP a privilégie la demande haut de gammeet la concurrence frontale avec Teradataen entrant sur ce marche il y a trois ans Sessystemes Neoview exploitent des nœudsserveurs Intel Itanium (Integnty), intègresdans une architecture MPF évolutive jusqu'à512 nœuds grâce au reseau proprietaireServemet, issu de Tandem

Quelques approchesnovatrices

Apparu plus récemment, Netezza s'estfait un nom en popularisant la notion deserveur de datawarehouse dedie Dans soncas, il s'agit de matériels banalises (serveursPowerPC puis x86) associes a des compo-sants programmables FPGA (Field-Programmable Gate Array) pour l'accélérationdes traitements < L'approche de Netezza estoiTgmale,etkmarcheal'atrdeswwe,aurjomtque d autres constructeurs utilisent leurs accé-lérateurs , assure Bernard Fitoussi

Un autre constructeur, Kickfire, s'essayea une demarche comparable et vise lespetits entrepôts Kickfire ajoute a MySQLun moteur de stockage materiel maison, luiaussi bâti sur un FPGA. Dataupia et Datal-legro(rachete par Microsoft) proposent aussides serveurs dédies Cependant, avec lagénéralisation des bases verticales, uneautre tendance commence a se faire jourconcevoir des architectures sur de simplesnœuds x86 relies par Ethernet 10 Gbit, eten partant de machines virtuelles Uneforme de banalisation qui va dans le sensde l'informatique actuelle, maîs qui ne repondra probablement pas aux besoins lesplus pointus Les grands systemes de datawarehouses proprietaires cohabiterontdonc encore longtemps avec des solutionssimplifiées et bon marche •

Page 6: OJD : 43957 Surface approx. (cm²) : 3268 Page 1/8 DECISIONNELlclx.free.fr/articles/bf_01_19nov09.pdf · pliance Tout comme ses offres Fast Track, ou SQL Server est premstalle sur

26 RUE D'ORADOUR SUR GLANE75504 PARIS CEDEX 15 - 01 44 25 30 11

19 NOV 09Hebdomadaire Paris

OJD : 43957

Surface approx. (cm²) : 3268N° de page : 32-39

Page 6/8

KEYRUS5103991200505/GAD/AMS/2

Eléments de recherche : KEYRUS : groupe d'ingénierie informatique, toutes citations

FONCTIONNALITES.

Des traitementsanalytiques exécutésdans l'entrepôt• Désormais, certaines fonctions analytiques comme

le scoringsont directement embarquéesdans le datawarehouse.

• Objectif : limiter au maximum les transferts de donnéesentre l'entrepôt et la plate-forme de datamining.

Pourquoi déplacer les donnees quandon peut les traiter sur place ? Tel estle message des fournisseurs de datawarehouses depuis deux ou trois

ans Leur objectif limiter au maximum leséchanges entre leurs entrepôts et les plates-formes de traitements analytiques et pré-dictifs (régression, prevision optimisationde donnees ) Et ces échanges sont legionDéjà, pour bâtir leurs modeles prédictifs,les statisticiens récupèrent des échantillonsdans le centre de donnees Maîs c'est surtoutlors de l'exécution de ce modele que le bâtblesse, car les plates formes analytiquesdoivent copier dans le datawarehousetoutes les donnees concernées par le mo-dele, puis, apres traitement, les reinjecterdans l'infocentre Largement répandue,cette pratique presente au moins trois in-convénients notaires D'abord elle mobiliseune grosse bande passante Surtout, elleconsomme beaucoup de temps, en l'occur-rence celui du chargement des donnees etde leur reinjection dans l'entrepôt Enfin,ces déplacements de donnees sont parfoismal vus De nombreux, odrmrustrateurs debases de donnees acceptent mal l'idée qu'dfaillemigrer tes donnees de l'mfocentre vers notre

reconnaît Keith Collms CTO de SASCette isolation traduit la separation

entre deux mondes celui du décisionnel,des bases de donnees relationnelles desrequêtes SQL, bref celui des informaticiens,et celui de l'analytique et du datamining,dont seuls les spécialistes (les statisticiensnotamment) maîtrisent la logique Cettevolonté des spécialistes de l'analytiqued'embarquer leure fonctions au cœur desdatawarehouses procede précisément de

la réconciliation des deux mondes « Denor^yreusestâcheseffectiiieesrMrnotrelangagen'ont pas d équivalent en SQL, expliquaitKeith Collms en mai 2008 Le travail d mte-grationquenowrnenansavœT^mdatacansistedoncajvzredecestcœhesdeseoctensKmsdeSQLElki, apparaîtront sous farme de ' itserdeftnedfancttons " et masqueront notre langage Al'époque Teradata et SAS annonçaient lepremier fruit de leur collaboration SASSconng Accelerator Ce module de SASexécute des scores - des notations et classements hiérarchiques - directement dansTeradata A noter qu'avant lui, Kxen et SPSSont également mené ce travail d'intégrationavec Teradata A terme SAS entend expo-ser d'autres outils analytiques sous formede user defined functions » Voire desbouts d applications analytiques (analysede la rentabilité et gestion des risques decredit, par exemple)

Concentrer un maximum detraitements sur la plate-forme

Une telle configuration satisfait naturellement chacune des parties Lesspecialistes du datamining misent sur elle pourétendre certaines de leurs fonctions au-delàdes statisticiens - un vœu pieux du datamimug Quant aux fournisseurs de dataware-houses, ils comptent sur les enjeux analytiques pour concentrer un maximum detraitements au sem de leur plate-forme

La nouvelle strategie de Netezza s'inscritdans cette lignée Elle prétend même allerplus lom que ce que pratique TeradataLe constructeur compte faire de son apphance une plate-forme d'accueil pour lesapplications analytiques et prédictives II

2 QUESTIONS A.,

Denis Skalski,directeur conseilchez Keyrus

Fwwptre ce rappro-du datawajiaii4sarnining I*

« Mon avis estmmgeJe ne peuxrn empêcher de penser queces traitements embarques risquentd accaparer de la puissance de calculCest pourquoi, chez Keyrus, nouspréférons que les deux mondes res-tent isoles D'une maniere generale,sur le terrain, les problématiquesanalytiques associées au datawarehouse concernent bien peude monde La priorité est ailleurs elleporte sur la qualite des donnees »

« Si, pour realiser du sconng demasse et déterminer si un client est" gold ' ou pas, par exemple Seulement toute la mecanique des reglesstatistiques liées a ce score (le calculde la rentabilité du client) ne dort pasêtre exécutée dans le datawarehouse ll faut que ce rôle soit en partieassure lors des operations de transformation des plates formes d'ETL »

met ainsi plusieurs douzaines d'algorithmesopen source (transformation de donnees,normalisation, tri ) a la disposition d editours tiers Ces modules analytiques fmctumnent au sem, d'un processus isole dansI appbance, en dehors de tout traitement SQL,explique Phil Francisco, vice presidentmarketing produit de Netezza Ils profitentaenotrearchitecturemasswementparalkket

a certaines tables Et pour les editeurspréférant conserver leurs propres outilsanalytiques NetezEafournitune plate-formed'exécution supportant C++ Java, Python,R ou S+ (la grammaire de Spotfïre-Tibco)

Cette course vers les analytiques est laprincipale - l'unique ? - voie de diversification choisie par les < constructeurs » dedatawarehouses Une façon égalementpour eux de se différencier d une part desnouveaux entrants, open source pour laplupart, et d'autre part, de l'ogre Oraclequi mise, lui, sur l'association décisionneltransactionnel •

Page 7: OJD : 43957 Surface approx. (cm²) : 3268 Page 1/8 DECISIONNELlclx.free.fr/articles/bf_01_19nov09.pdf · pliance Tout comme ses offres Fast Track, ou SQL Server est premstalle sur

26 RUE D'ORADOUR SUR GLANE75504 PARIS CEDEX 15 - 01 44 25 30 11

19 NOV 09Hebdomadaire Paris

OJD : 43957

Surface approx. (cm²) : 3268N° de page : 32-39

Page 7/8

KEYRUS5103991200505/GAD/AMS/2

Eléments de recherche : KEYRUS : groupe d'ingénierie informatique, toutes citations

LOFFRE DU MARCHE

Acteurs historiques et start upfournissent pléthore de solutionsLes solutions matérielles

FOURNISSEUR PRODUIT

Dataupia Dataupia Satori Server

Neoview

Smart Analytics

Kona

Serie 3 O 00

Gamme Twinfin

Exadata Storage Server

Netweaver Business WarehouseAccelerator*•»•Gammes Data Malt Appliance,Data Warehouse Appliance, etActive Enterpnse Data Warehouse

CARACTERISTIQUES

Plate forme de type MRP qui s intègre aux bases de donnees Microsoft SQLServer, IBM DB2 et Oracle

Plate forme MPF s appuyant sur les serveurs, commutateurs et equipements de stockage du constructeurLa base de donnees baptisée Neoview DBMS est issue de Tandem NonstopSOL

IBM commercialise des appliances pour datawarehouses a base d Infosphere Balanced Warehouse

Appliance proposée sul la base de Netezza Twinfm afin de fournir une solution décisionnelle complètede I ETL( Extract Transform Load) a la restitution de donnees

Cette appliance repose sur MySQL afin de supporter des entrepots de donnees de quèlques tearoctetsElle exploite un composant spécifique baptise SQL Fngme

Avec des capacites de un a plusieurs teraoctets la nouvelle gamme Twinfin s appuie sur une architecturetechnique mixte x86 et composants proprietaires

Appliances destinées au décisionnel ct au transactionnel Tous les produits de cette gamme s appuient surOracle llg, ainsi que sur des serveurs et des equipements de stockage d origine Sun

Appliance d accélération du datawarehouse SAP SW Elle est assemblee et commercialisée parIBM

Teradata propose trois gammes d appliances selon les besoins en capacite de stockage Ces equipementsmettent en œuvre la base de donnees Teradata 13 sur plates formes SEES 10

Les solutions logiciellesEDITEUR LOGICIEL

Aster Data

Infobright

Microsoft

Daraccel.

nCluster

Greenplum Database 3 3

IBM Red Brick Warehouse

iLummate

ICE [Infobnght CommunityEdition) et IEE(lnfobnghtEnterpnse Edition]

KognitioWXZPu

SOL Server 2008 R2

Paraccel Analytic Database'PADB)

Sensage 4

Sybase IQ 151

Vertica Analytic Database

; CARACTERISTIQUES

La base nCluster est mise en oeuvre surune architecture MapReduce tout en étant exploitable via SOLLa solution est disponible sous forme d appliance [Dell] et d images cloud (Amazon et AppNexus]

Base de donnees MPF s'appuyant surMapReduce, compatible SOL Disponible sous divers Linux et Mac OS X

Cette solution de datawarehouse de la gamme Informix côtoie au catalogue IBM la solution Infosphere Warehousequi s appuie, elle surDB29?

Base de donnees mettant en œuvre un mode de stockage par corrélation Disponible uniquement sous Windows XP

Base de donnees en colonnes open source disponible sous Windows et plusieurs Linux 64 bits

Lediteur propose sa base de donnees en colonnes WX2 sous forme de logiciel (sur Linux), d appliance virtuelleou encore de service Daas (Datawarehouse as a Service)

Apres I acquisition de Dataliegro Microsoft dévoilera son offre MPF a I occasion du lancement de la version 2de SOL Server 2008, attendue pour 2010

Base en colonnes déployable en architecture MPF sur serveurs Sun Solai is ou Linux

Base de donnees en colonnes architecturee selon le modele MPF (y compris sur plates formes VMware)Elle est proposée sous forme de logiciel ou d appliance (materiel HP]

Base de donnees en colonnes disponible sur plate forme HP UX, IBM AIX, Linux Solaris et Windows, ainsi quesur Amazon EC2 IBM commercialise le logiciel sous forme d appliance aux Etats Unis

Cette base de donnees en colonnes développée selon le framework MapReduce, sexecute en architecture MPF

Page 8: OJD : 43957 Surface approx. (cm²) : 3268 Page 1/8 DECISIONNELlclx.free.fr/articles/bf_01_19nov09.pdf · pliance Tout comme ses offres Fast Track, ou SQL Server est premstalle sur

26 RUE D'ORADOUR SUR GLANE75504 PARIS CEDEX 15 - 01 44 25 30 11

19 NOV 09Hebdomadaire Paris

OJD : 43957

Surface approx. (cm²) : 3268N° de page : 32-39

Page 8/8

KEYRUS5103991200505/GAD/AMS/2

Eléments de recherche : KEYRUS : groupe d'ingénierie informatique, toutes citations

ET DEMAIN...

« Faut-il ou pas se tourner versles nouvelles architectures ? »

, directeurdes opérations de Keyrus

«Lesbasesde donnéestraditionnellesn'ont pas ditleur demiermot »

Le SGBDtradhionnel a-t-il atteint ses limitestechniques ?Radulpsas Les bases traditionnelles n'ontpas dit leur dernier mot Je pense qu'unebase Oracle convenablement configuréeen mode cluster RAC est capable de déli-vrer de bonnes performances sur de nombreux projets de datawarehouse Et avecses offres Exadata, Oracle peut attemdiede tres grosses volumetnes de donneesBernard Fitoussi L'approche d Oracleconsiste a fournir une base de donneescapable de faire tant du transactionnelque de l'analytique Maîs en entreprise,personne n'exploite des bases transac-tionnelles et des datamarts dans les memes instances du SGBD Leur demarches'apparente a celle de Microsoft avecWord, dont on n'utilise qu'un faible pourcentage de ses capacites Au final, celacoûte une fortune alors que l'on ne se sertque d une fraction des possibilités

Les solutions traditionnelles restent-ellespertinentes face aux appliances 'BF Oracle et Microsoft s'orientent vers lehardware Ils ont compris que hors del'architecture MPF il n'y avait point desalut pour eux Pourtant, depuis deux ans,les bases verticales ont littéralement explose Elles prouvent que l'on peut fairebeaucoup mieux avec des infrastructuresplus légères, a un cout ridicule comparea celui des solutions traditionnellesRl Avec sa base Exadata, dotée d'une architecture pensée pour le parallélisme,

Oracle est a même de faire face aux solulions de Teradata ou de Netezza De plus,avec cet éditeur, l'entreprise a la certitudede disposer de 50 SSH et de 2 000 mdependants pour l'aider dans ses projets Micro-soft, quant a lui, a réussi a se positionnersur le marche de la business intelligence(BD H a toutefois un vrai problème, tantle gap entre les fortes capacites de sa solution Datallegro et la perception que lesutilisateurs ont de son positionnement estimportant

Le stockage en colonnes représente-t-ilvraiment la solution miracle ?Rl Le stockage en colonnes est LA solution du strict point de vue technique Lesgrandes entreprises du CAC 40 nous solhcitent sur le sujet et sont aujourd'hui dansune position d'alerte La question est desavoir quelle sera la pérennité des acteurs proposant ce type d'offre Attentionaux effets de mode, nous n'avons pas en-core explore toutes les possibilités duSGBD traditionnelBF Aujourd'hui, ne pas considérer lesbases verticales pour des projets de BIserait une erreur II existe un choix impressionnant d'architectures différentesdans le vertical > qui couvrent tout lespectre de la BI du simple datamartjusqu au datawarehouse centralise desmoteurs de stockage MySQL (Infobright,Kickfïre ) jusqu a l'infrastructure MPF ouau grid a haute disponibilité et hauteperformance (Vertica)

Bernard Fitoussi,directeur Associé c'Àdwance

compte desbases verticalesdans les projetsde BI seraitmie erreur»

L'apparition de solutions à faible coût et opensource surle marché peut-elle démocratiserces technologies7

BF Nous n en sommes effectivement paslom Maîs les constructeurs et editeursaméricains doivent encore mûrir leurpositionnement marketing Ils communi-quent beaucoup sur les tres grosses capacites, de l'ordre de plusieurs dizaines deteraoctets voire au delà du petaoctet,alors que 95 % des projets, en France, nedépassent pas la dizaine de tera-octets Lemodele open source est bon et aujourd'huicopie A l'image de Greenplum, qui propose une version monoserveur gratuite,assortie d'une offre de servicesRl Dans le secteur de la BI, Qliktech faitun formidable travail d evangehsationMaîs il n'est pas certain que les entrepnses ne reviennent pas vers les plates formes traditionnelles Quant au modeleopen source, je me méfie de ces acteursUne solution comme Infobright, par exem-ple, a une valeur éducative énorme sur lemarche C'est parfait pour les étudiants etleur faire comprendre la technologie,maîs en entreprise il faut avoir une demarche plus analytique La presence del'éditeur garantit aussi que les briques duSI sont suivies et supportées de maniereprofessionnelle Cela dit le prix du hautde gamme tend a baisser les premieresconfigurations dévoilées par Oracle surExadata version I coûtaient de l'ordre dumillion de dollars, la version 2, elle, estproposée a partir de IOU DOO dollars •