Rubrik facilite l'exploitation des données non structurées par l'IA

Rubrik veut aller plus loin dans l'exploiration des données non structurées avec sa solution Annapurna. Elle analyse et catalogue les données non structurées directement là où elles se trouvent, dans des systèmes distribués. La solution publie ensuite un catalogue interrogeable dans un lakehouse et réduit les besoins de duplication des données ainsi que les coûts liés aux processus d’extraction, de transformation et de chargement, ou ETL, qui ont longtemps freiné l’utilisation des données non structurées dans les pipelines d’IA.

« Pendant des années, rendre les données non structurées exploitables pour l’IA impliquait de les déplacer, de les transformer et de les stocker une seconde fois, tout en supportant les coûts de l’ensemble de l’environnement afin de n’en utiliser qu’une partie », déclare Anneka Gupta, Chief Product Officer de Rubrik. « Annapurna inverse cette logique. La solution active les données là où elles se trouvent, fournit uniquement les données dont les plateformes de Data Intelligence ont réellement besoin et aligne les coûts d’infrastructure sur l’usage. C’est ainsi que les entreprises peuvent déployer l’IA à grande échelle. »

Les données non structurées représentent 90 % de l’empreinte de données de la plupart des entreprises modernes. Faute de visibilité sur ces environnements de fichiers, des données métier importantes sont souvent restées cloisonnées, difficiles à suivre et inaccessibles aux applications de data science et d’IA. Les pipelines ETL coûteux et les architectures historiques lourdes ont souvent obligé les organisations à dupliquer des environnements entiers dans un data lake, puis à consacrer plusieurs mois à des travaux d’ingénierie manuels pour identifier les moins de 10 % de données réellement nécessaires aux opérations IA, tout en continuant à supporter les coûts associés au reste des données non utilisées.

Les principales fonctionnalités :

  • La découverte automatisée des données : Annapurna découvre, analyse et indexe automatiquement l’ensemble des données non structurées réparties sur des environnements NAS, S3 et des magasins d’objets. Les fichiers sources bruts sont traités là où ils se trouvent, sans nécessité de copie ou de migration.
  • L’intégration native au lakehouse : La solution automatise la mise à disposition des données auprès des applications de Data Intelligence en aval, en publiant directement dans un lakehouse un catalogue interrogeable des métadonnées de fichiers non structurés. Les data engineers peuvent interroger l’index pour identifier les fichiers exacts à utiliser, et Annapurna ne prépare que ce sous-ensemble pour les workflows suivants.
  • Les coûts de pipeline alignés sur la demande : Les coûts des pipelines sont alignés sur le volume de données réellement utilisé par l’IA. Les clients paient uniquement pour les données qu’ils extraient, et non pour la duplication de l’ensemble de leur environnement.
  • Une gouvernance continue : Annapurna conserve les contrôles d’accès natifs des systèmes sources directement dans le catalogue. Les plateformes de Data Intelligence peuvent ainsi continuer à appliquer les contrôles dans les workflows en aval, ce qui réduit les risques de sécurité liés à la perte des permissions d’accès lors des transferts ETL traditionnels.
  • Une chaîne de traçabilité immuable : La solution s’appuie sur les fondations Zero Trust de Rubrik afin que chaque fichier préparé par Annapurna dans son magasin d’objets managé conserve une traçabilité vérifiable ainsi qu’un historique des versions depuis la source jusqu’aux usages IA. Ces capacités de provenance soutiennent directement les programmes de conformité, notamment le RGPD et d’autres cadres réglementaires.
  • Une solution conçue sur Rubrik Security Cloud : Annapurna étend Rubrik Security Cloud, le plan de gestion unifié de Rubrik, pour créer une couche de données non structurées prête pour l’IA en entreprise. La solution se déploie aux côtés des environnements de stockage et de lakehouse existants, sans nécessiter de nouvelle infrastructure ni l’installation d’agents supplémentaires.

Lire plus