Après une brève introduction au Big Data (que vous pouvez retrouver ici), parlons aujourd’hui des outils dont vous allez indéniablement entendre parler si vous intégrez un projet qui souhaite mettre en place une technologie Big Data.
Ces outils rendent plus accessible le traitement massif des données, mais encore faut-il les connaitre pour se familiariser avec ces nouvelles solutions logicielles ou ces nouveaux langages de programmation.
Pas de panique, voici un petit topo qui vous présente quelques uns de ces outils Big Data.
— Arbre de décision —
Cette méthode s’appuie sur un modèle dans lequel chaque « branche » représente un chemin, et à chaque extrémité, une décision, une solution possible.
Cette forme de représentation en arbre le rend calculable par des algorithmes, et permet une extraction des statistiques claire et précise. Cette méthode permet de faciliter les prises de décisions sur des sujets complexes.
Avec le besoin croissant de traitement de données en temps réel et de calculs rapides, ces arbres de décision permettent d’obtenir de bonnes performances.
— Cluster —
Le mot « cluster » signifie « grappe de serveurs » en français. Il désigne plus communément une technique de regroupement de plusieurs serveurs indépendants.
Cela permet d’obtenir de plus grandes capacités de stockage et de mémoire vive. L’utilisation de plusieurs serveurs génère un traitement et une distribution de la donnée plus efficace et plus fiable que si tout était regroupé dans un seul et unique serveur.
— Data Lake —
Le Data Lake peut être vu comme un grand réservoir où sont déversés les flots de données qui transitent dans le système d’information.
Contrairement à un Data Warehouse qui stocke les données en les classant en fichiers, le Data Lake va recevoir les données dans leurs formats natifs. L’information n’étant plus structurée en silo, la donnée garde sa neutralité en attendant qu’un usage lui soit attribué. Cette structure permet d’intégrer des données structurées ou non sans nécessairement passer par un processus ETL. Elle permet donc d’accueillir rapidement des données dans leurs formats natifs et de les rendre rapidement disponibles pour analyse.
Les projets n’auront qu’à venir se servir directement dans le Data Lake dès qu’ils en auront l’utilité et devront interpréter la donnée dans sa structure.
— DMP —
La Data Management Plateforme est une plateforme de gestion d ‘audience. Elle permet d’unifier des données consommateurs en segmentant des cookies à des fins d’optimisation du marketing.
Les DMP sont devenues des technologies indispensables pour enrichir sa base de connaissance client pour ainsi, piloter des campagnes publicitaires importantes.
Les agences et les annonceurs par exemple, pourront contrôler et cibler leur audience en la segmentant efficacement.
— DPI —
Le Deep Packet Inspection est une méthode consistant à analyser dans le détail le contenu d’un paquet réseau. Cela permet notamment de détecter et bloquer, les paquets assimilables à des spams ou qui peuvent constituer une menace d’intrusion.
Cet affinage permet également la compréhension des paquets dans une optique de traitement massif des données.
— ETL —
L’Extract Transform Load processus, permet le migration et la synchronisation des données de base vers une autre.
Les données sont d’abord extraites depuis des sources différentes puis transformées dans un format qui permettra une analyse efficace pour enfin être envoyée vers sa destination cible. En d’autres termes, la première étape est de collecter ces données multi sources (extract) pour les faire correspondre dans un format partagé (transform) avant de les charger dans les applications de destination (load).
— Hadoop —
Il s’agit de l’application d’un framewok Java développé par Apache, qui, par son architecture distribuée en clusters, autorise le stockage de très gros volumes et permet ainsi aux applications de travailler sur des pétaoctets de données.
Les géants comme Facebook, Microsoft ou Yahoo travaillent avec cette solution Hadoop depuis plusieurs années. Hadoop a rendu possible l’exploitation de volumes d’informations conséquents à des prix raisonnables. Cette plateforme Open Source est une révolution dans le domaine du Big Data.
— Langage R —
Ce logiciel libre de traitement de données et d’analyse statistiques est devenu l’un des langages de programmation de référence pour le Big Data.
Son caractère Open Source séduit les entreprises. Le langage R est l’un des langages de programmation les plus plébiscités par les data scientists car ils offrent une rapidité de prise en main et encapsulent facilement des programmes codés dans d’autres langages.
— Python —
Ce langage orienté objet est flexible, facile à apprendre et à utiliser. Il présente l’avantage d’être en Open Source et permet une manipulation et une analyse de la donnée efficace.
C’est un langage devenu incontournable car applicable aussi bien à une tablette, qu’à un téléphone. Python joue un rôle important dans le développement des technologies Big Data, de par sa richesse et sa versatilité.
— Spark —
Ce framework Open Source dispose d’un écosystème d’outils, permettant à la fois le traitement de batch, l’analyse en continu de flux de donnée; le machine learning, le calcul de graphes et l’interrogation de données en SQL-like.
Ce modèle de programmation permet des temps de traitement rapides et permet de créer rapidement des applications innovantes. Spark s’intègre facilement dans l’écosystème Hadoop, avec lequel il est entièrement compatible.
— Yarn —
Yarn (Yet Another Resource Negociatior) est une des évolutions architecturales de la nouvelle génération d’Hadoop. C’est une plateforme de gestion de ressources qui va permettre à Hadoop d’offrir un plus large éventail d’applications et de processus qu’auparavant.
Le framework d’Apache, va, grâce à Yarn, être capable de faire tourner des requêtes interactives, des flux de données, et des travaux sur des batch classiques simultanément. Yarn rend possible le temps réel sur Hadoop, grâce à cette gestion des ressources par clusters.
Source : L’encyclopédie du BigData 2016
1 réflexion sur “Les outils du Big Data”
Thanks for sharing your niche information. It is very valuable article for me .
Keep it continue thanks
Les commentaires sont fermés.