11/08/2022
Digital Technology Insights
Quel outil data de Microsoft Azure choisir ?
Digital Technology Insight
Quel est l’enjeu des données au sein d’une organisation ?
Sauriez-vous reconnaitre la force d’une entreprise ? Eh bien, c’est son patrimoine de données. La data a une importance cruciale et représente un enjeu majeur pour une entreprise dans l’élaboration de l’ensemble de ses stratégies commerciales, marketing et opérationnelles.
Certaines organisations ont bien compris l’intérêt de constituer un large patrimoine de données, notamment pour gagner en productivité et d’être toujours plus proches de leur marché. Elle se sont donc lancées dans une collecte de données de plus en plus massive, ce qui a créé un défi technologique majeur souvent appelé « Big Data ».
Le cloud, un atout majeur pour la Big Data ?
Microsoft Azure propose un large catalogue de services pour les projets Data, qu’ils soient à faible ou forte volumétrie, en différé ou en temps-réel.
Les outils Data de Microsoft Azure
Azure SQL
Azure SQL est une famille de produits de stockage gérés, sécurisés et intelligents qui utilisent le moteur de base de données SQL Server dans le Cloud Microsoft Azure.
L’offre Azure SQL est constituée de plusieurs produits notamment :
1- Azure SQL Database :
Base de données en tant que service (DBaaS) relationnelle, qui appartient à la catégorie PaaS (Plateforme en tant que service).
SQL Database est un outil serverless proposant des possibilités de mise à l’échelle pour obtenir plus de puissance sans interruption du service, de la haute disponibilité et de l’intelligence.
Azure SQL Database propose les options de déploiement suivantes :
- Base de données unique disposant de son propre ensemble de ressources, gérées par un serveur SQL. Une base de données unique est similaire à une base de données autonome dans SQL Server.
- Un pool élastique, qui représente une collection de bases de données partageant un ensemble de ressource, gérées par un serveur SQL. Cette solution est avantageuse rentable pour gérer les performances des bases de données ayant des modèles d’utilisation variables.
2- Azure SQL Managed Instance :
Cette solution PaaS (Plateforme en tant que service) est souvent adoptée dans le cadre des migrations de base de données (Replatforming / lift-and-shift) vers le cloud. Elle prend en charge la migration de base de données depuis un emplacement local avec un minimum de changements, voire sans aucun changement.
Ce service de base de données évolutif est complétement managé et offre une compatibilité proche de 100 % avec le SQL Server local.
A la différence de Azure SQL Database, SQL Managed Instance prend en charge la planification des tâches d’administration via SQL Agent ainsi que le traitement asynchrone de messages via le service Broker.
3- SQL Server sur les machines virtuelles Azure :
Cette solution IaaS (Infrastructure en tant que service) permet d’exécuter des charges de travail SQL Server sur une machine virtuelle managée dans Azure. Elle est idéale pour le portage virtuel (lift-and-shift) des applications existantes on-premise.
La différence la plus significative par rapport à SQL Database et aux instances SQL Managed Instance est que SQL Server sur des machines virtuelles Azure permet un contrôle total du moteur de base de données (Choix des créneaux de maintenance et de mise à jour corrective, choix de passer d’un mode de récupération simple à un mode utilisant les journaux de transactions, d’arrêter ou de démarrer le service quand c’est nécessaire …etc.)
De plus, les charges de travail SQL Server Integration Services (SSIS) sont disponibles dans l’offre Azure SQL. Il est tout à fait possible de déployer, d’exécuter et de gérer les projets et packages SSIS dans le catalogue SSIS (SSISDB) au sein d’Azure SQL Database ou SQL Managed Instance.
Pour , l’offre Azure SQL est très bien adaptée aux projets dont la volumétrie est faible – Quelques dizaines de To.
Azure Synapse
Azure Synapse est un service d’analyse illimité « en termes de mise à l’échelle » réunissant l’entreposage de données d’entreprise (DataWarehousing) et l’analyse Big Data. Il donne la liberté d’interroger les données en utilisant des ressources serverless ou provisionnées à grande échelle. Azure Synapse réunit ces deux mondes avec une expérience unifiée pour ingérer, préparer, gérer et servir des données (ETL/ELT) pour des besoins immédiats de BI et de machine learning.
L’architecture Synapse se base sur les technologies SQL pour l’entreposage de données, Spark pour la partie Big Data/ transformation de la donnée, les pipelines pour l’ingestion de données et Power Bi pour l’analyse et la création de rapports visuels.
L’un des atouts majeurs de Synapse Analytics est qu’il permet aux data engineers de l’entreprise de gérer les données à partir d’un seul endroit, ce qui réduit considérablement la complexité de maintenance.
Bien que Azure Synapse présente beaucoup d’avantages, il ne prend pas en charge toutes les fonctionnalités SQL proposées par Azure SQL (Tels que les triggers, les fonctions de table intégrées/système OPENXML.etc).
En résumé, l’offre Synapse est très bien adaptée aux projets dont la volumétrie est grande – centaines / milliers de To, mais pas pour des scénarios IoT et temps réel.
Azure Data Explorer
Azure Data Explorer (ADX) est une plateforme d’analyse de Big Data facilitant la prise de décision en temps réel, ou du moins, en quasi-temps réel.
Cela inclut l’ingestion de données (structurées, semi-structurées et non structurées) dans un cluster de bases de données ADX, l’interrogation, la visualisation et la gestion de données.
Quelles sont les caractéristiques d’Azure Data Explorer ?
ADX est un moteur de requête à faible latence
Azure Data Explorer exploite des magasins de colonnes et de lignes compressés innovants et contemporains, ainsi qu’un paradigme de cache hiérarchique soutenus par la mémoire et le disque local, avec une persistance des données sur Azure Storage.
ADX est un système distribué
Azure Data Explorer est un système informatique en cluster Big Data composé de plusieurs nœuds permettant la gestion et l’orchestration des données notamment l’ingestion de données et la gestion des partitions.
ADX, riche écosystème d’intégration de données
Azure Data Explorer dispose d’un riche écosystème de connecteurs pour l’ingestion de données par batch ou en streaming. Il prend en charge les systèmes d’intégration open source tels que Kafka Connect d’Apache Kafka et Logstash de la pile ELK ou encore Apache Spark.
Quand choisir Azure Data Explorer ?
Azure Data Explorer est un outil très utilisé en interne chez Microsoft et alimente de nombreuses offres Azure de base telles qu’Azure Monitor, Azure Sentinel, Azure Time Series Insights, etc. Il est entièrement géré par Microsoft, évolutif, sécurisé, robuste et prêt pour l’entreprise et constitue une plate-forme populaire pour l’analyse des journaux, l’analyse des séries chronologiques, l’IoT et l’analyse exploratoire à usage général.
Dans le schéma suivant sont explicités les cas d’usages de ADX
En conclusion, Azure Data Explorer convient parfaitement en tant que base de données analytique principale pour les applications où les performances des requêtes analytiques sont critiques.
Quelques scénarios d’utilisation des solutions Data de Microsoft Azure
- Entrepôt de données
- Analyse descriptive
- Rapports et visualisation : Intégration avec Power BI
- Analyses avancées : Exploitation d’Azure Databricks
- Stockage de données transactionnelles (Type e-commerce)
- Analyse de télémétrie IOT
- Analyse de séries temporelles
- Analyse de données en temps réel
Conclusion
En adoptant une approche cloud, les compagnies bénéficient désormais d’une agilité incomparable avec ce qu’elles auraient pu avoir en déployant leurs propres datacenters, et avec des frais réduits. Cela dit, le cloud n’est pas une solution à tous les problèmes et présente aussi quelques inconvénients qu’il faudra prendre en compte, notamment la sécurité des données qui y sont stockées.
Rafik BELLAHSENE
Consultant Consultant Cloud, Data engineer