Je souhaite obtenir des informations sur une formation complète concernant le thème DIVI dispensé
par un organisme de formation certifié par l’état.
Que la formation soit finançable par mon CPF (idéalement) ou autre


En octobre 2020, Cloudera en a fait un acquisition stratégique d’une société appelée Eventador. L’objectif principal était d’étendre nos capacités de streaming dans Cloudera DataFlow. Eventador était habile à faciliter la création d’applications de streaming. Leur produit phare, SQL Stream Builder, permettait un accès facile aux flux de données en temps réel en utilisant uniquement SQL (Structured Query Language). Les clients de Cloudera avaient du mal à résoudre le même défi: interroger de grandes quantités de flux de données en temps réel avec quelque chose d’aussi simple que SQL.

Dans les 5 mois suivant l’acquisition d’Eventador, Cloudera a annoncé que SQL Stream Builder sera désormais redémarré en tant que Cloudera SQL Stream Builder. Cela se produit une fois qu’il a été entièrement intégré Plateforme de données Clouderade (CDP) Expérience de données partagée (SDX). Cela signifie qu’en utilisant SDX, SQL Stream Builder peut bénéficier de la même sécurité et gouvernance unifiées que le reste de la plate-forme.

Qu’est-ce que SQL Stream Builder?
Cloudera SQL Stream Builder étend désormais les capacités Fonctions de traitement de flux de Cloudera DataFlow (CDF) plateforme de streaming. Il offre une interface utilisateur claire pour écrire des requêtes SQL pour des flux de données en temps réel dans Kafka ou Flink. Cela permet aux développeurs, aux analystes de données et aux data scientists d’écrire des applications de streaming en utilisant uniquement SQL. Vous n’avez plus besoin de compter sur des développeurs Java ou Scala expérimentés pour écrire des programmes spéciaux pour accéder à ces flux de données.

Générateur de flux SQL exécute en continu SQL via Apache Flink. Il fournit la vérification de la syntaxe, le rapport d’erreurs, la détection de schéma, la création de requêtes, les résultats d’échantillonnage et la création de sorties avec son interface utilisateur simple mais intuitive. Il propose également un moteur de visualisation matérialisée avancé qui permet à d’autres applications d’accéder à des ensembles de données en direct agrégés via une simple API REST.

Les données expirent
Oui, les données sont durables. Dans l’environnement commercial actuel, les données que vous recevez doivent être traitées instantanément afin de comprendre et de répondre à l’impact commercial. Une solution d’analyse en continu n’est pas bonne si vous pouvez simplement collecter toutes les données en temps réel, mais vous ne pouvez pas mettre la valeur des données à votre service. Imaginez un fabricant qui reçoit chaque jour des flux de données contenant des millions de messages de sa douzaine d’usines ou plus. Lorsqu’ils ont besoin de comprendre d’où provient une surtension particulière dans les flux, ou lorsqu’ils ont besoin de détecter une anomalie particulière dans les flux, ils devraient être en mesure d’interroger les flux en temps réel. Vous ne pouvez pas vous permettre de tout envoyer dans un magasin de données, puis de l’analyser le lendemain pour trouver de telles informations exploitables. À cette fin, les données sont sans valeur le lendemain. Pour effectuer de telles requêtes en temps réel, les compétences sont généralement entre les mains de quelques personnes de l’entreprise qui ont des compétences uniques comme Scala ou Java et peuvent écrire du code pour obtenir de telles informations. Ce n’est pas un modèle évolutif.

SQL est un langage universel

Depuis plus de trois décennies, SQL est une méthode acceptée pour interroger une variété de systèmes de bases de données. SQL est également l’une des compétences les plus populaires parmi les personnalités clés des données d’entreprise. Alors que les analystes de données et les scientifiques des données ont du mal à accéder facilement aux flux de données en temps réel, SQL devient un choix facile pour la tâche. Il y a cependant un défi majeur. Contrairement aux tables de base de données, qui ont généralement un nombre fixe de lignes à un moment donné, les flux sont illimités. Cela signifie qu’ils sont intrinsèquement continus et n’ont pas de limites. Ils ne viennent pas un à la fois non plus. Certains messages peuvent être en retard ou dans le désordre. Cela rend difficile l’utilisation de SQL tel quel pour interroger les flux de données.

Streaming SQL

Les flux de données doivent être traités avec de minuscules tranches de temps appelées «fenêtres», par ex. B. les 5 dernières secondes. Chaque message du flux a également un horodatage qui peut être utilisé pour déterminer l’ordre dans lequel il doit être traité. En utilisant SQL comme construction de base, des mots-clés supplémentaires ont été ajoutés pour traiter les flux de données dans le contexte des fenêtres temporelles. C’est ainsi qu’est né le streaming SQL ou le SQL continu. Ils ressemblent et fonctionnent comme du SQL normal, mais vous disposez également de nombreuses constructions supplémentaires que vous pouvez utiliser pour regrouper les flux sur une fenêtre de temps spécifique. Il prend également en charge un certain nombre de fonctions d’agrégation afin que vous puissiez effectuer diverses tâches d’enrichissement sur les flux, telles que: B. Trouver des moyennes, des sommes, des décomptes, etc. Cela permet aux analystes de données et aux data scientists de l’organisation d’interroger instantanément les flux de données avec SQL! C’est comme ça que Cloudera l’appelle Démocratisation des données en temps réel au sein de l’organisation.

Pourquoi devriez-vous être enthousiasmé par SQL Stream Builder?

  • Libère l’accès de tout le monde aux données en temps réel – les analystes de données et les data scientists peuvent utiliser eux-mêmes SQL Stream Builder pour exécuter des requêtes ad hoc à l’aide de SQL
  • Simplifie la création d’applications de streaming – SQL Stream Builder fournit une interface utilisateur interactive qui prend en charge le streaming SQL. Cela permet aux utilisateurs d’interroger en permanence les flux de données sur des fenêtres temporelles spécifiques. Vous pouvez également connecter plusieurs flux de données et effectuer des agrégations.
  • Rend les flux de données agrégés disponibles pour d’autres applications – SQL Stream Builder vous permet de créer des vues matérialisées qui peuvent facilement être mises à la disposition d’autres applications à l’aide des API REST. Cela déverrouille la valeur verrouillée dans les flux de données en temps réel pour plus d’applications dans l’entreprise.
  • Accélère les requêtes avec un impact minimal sur les systèmes de base – La vraie force de SQL Stream Builder réside dans le moteur sous-jacent qui permet à ces requêtes d’être exécutées extrêmement rapidement sans alourdir les systèmes de base où de tels flux de données sont stockés, par ex. B. Les courtiers Kafka qui contiennent des flux de données.

Si vous souhaitez en savoir plus sur SQL Stream Builder, téléchargez le Cloudera Lettre technique ou la Fiche technique.

Inscrivez-vous gratuitement sur insideBIGDATA Bulletin.

Rendez-nous visite sur Twitter: @ InsideBigData1 – https://twitter.com/InsideBigData1





Source link

Recent Posts