Data

IA Souveraine et Open Source : bénéficier des LLMs en toute sécurité

by Marc Hugon 4 octobre 2024

L’avènement des IA génératives a entraîné certains changements dans le comportement des salariés. En effet, ces outils sont particulièrement utiles pour améliorer l’efficacité opérationnelle. Toutefois, l’utilisation de l’intelligence artificielle au travail pose question, notamment pour la sécurité des données. Ces risques ne doivent pas être ignorés par les dirigeants des entreprises. Quels sont les dangers réels de leur utilisation ? Doit-on interdire ChatGPT aux salariés ? Dans cet article, nous vous expliquons quels sont les risques liés à l’utilisation de l’IA en entreprise, les solutions pour y remédier, et comment l’IA souveraine peut répondre à ces enjeux de sécurité tout en préservant les bénéfices de l’intelligence artificielle.

Qu’est-ce que l’IA souveraine ?

L’IA souveraine fait référence à une intelligence artificielle développée, hébergée et régulée au sein d’une entité géographique, en général nationale ou européenne, afin de garantir un contrôle total sur les données et les infrastructures.

Contrairement aux IA américaines, souvent soumises à des législations comme le Cloud Act qui autorisent l’accès aux données par les autorités américaines, l’IA souveraine assure que les informations sensibles restent protégées sous les réglementations locales, notamment le RGPD en Europe. L’IA souveraine, souvent adossée à des solutions open source et hébergée sur des Clouds européens tels que Scaleway, est donc une réponse adaptée pour les entreprises cherchant à garantir l’intégrité et la confidentialité de leurs données.

Les risques liés à l’utilisation de ChatGPT au travail

L’IA : un outil utile qui se nourrit de données

Les outils d’intelligence artificielle permettent de traiter plus rapidement certaines tâches. Ainsi, utiliser ChatGPT au travail est un avantage pour de nombreux salariés. Outre sa capacité à rédiger des contenus, l’application est efficace pour extraire et synthétiser les données. Elle s’impose donc comme une solution idéale pour gagner du temps sur les tâches fastidieuses et chronophages.

Cependant, pour accomplir ces tâches, l’IA se nourrit de données. Or, lors de leur traitement, ces dernières sont collectées par la base de données d’OpenAI. Le principal risque est la réutilisation des données par ChatGPT pour entraîner l’IA. Dans ce cas, il y a un risque important de fuites de données confidentielles via l’outil et la divulgation de ces dernières à d’autres utilisateurs. Ce problème ne se limite pas à ChatGPT, mais à tous les modèles d’IA qui ont un fonctionnement identique comme Google Gemini.

Un risque réel de fuite de données via ChatGPT

Face à ce risque, de nombreuses grandes entreprises ont décidé d’interdire l’utilisation de l’IA à leurs salariés. C’est le cas d’Apple, d’Amazon ou encore de Samsung. Samsung a pris cette décision après que des incidents se soient réellement produits. Plusieurs salariés ont été mis en cause :

Suite à un problème lors de l’exécution d’un programme, un salarié avait téléchargé le code source de ce dernier sur ChatGPT pour trouver une solution ;
Un autre employé avait optimisé le code d’un autre projet, toujours en introduisant le code source dans l’application ;
Un troisième employé avait fourni à l’IA le compte-rendu d’une réunion afin de réaliser une présentation.

Certes, les données fournies à l’IA ne restent que pendant un temps limité sur la base de données d’Open AI. Cependant, durant les 30 jours où ces données sont conservées, il existe de nombreuses opportunités qu’elles soient communiquées à un ou plusieurs utilisateurs.

Cela implique que les outils d’intelligence artificielle sont susceptibles de divulguer des contenus protégés par la propriété intellectuelle, mais également des données clients. Une erreur qui peut entraîner différents litiges et être contraire au RGPD.

L’utilisation de l’IA ChatGPT non conforme aux RGPD

En France, le traitement des données doit être conforme au RGPD.

Pour être en conformité avec le règlement général pour la protection des données, le traitement des données doit :

être consenti par toute personne concernée ;
être transparent, c’est-à-dire que toute personne concernée connaisse l’usage et la finalité pour lesquels ses données sont collectées et ses droits les concernant ;
avoir une finalité et ne pas être utilisé dans un autre but ;
être minimisé afin d’être pertinent : en d’autres termes, seules les données utiles doivent être collectées pour répondre à leur finalité ;
être temporaire : le temps de conservation doit être connu et les données supprimées une fois son terme échu ;
être sécurisé afin que la confidentialité de ces données ne puisse pas être compromise.

Or, ChatGPT est en infraction par rapport à ce règlement européen. D’une part, il peut utiliser des informations sans le consentement de l’utilisateur. D’autre part, les utilisateurs ne sont pas informés de l’utilisation de leurs propres données pour l’entraînement de l’application.

En cas de diffusion des données personnelles de ses clients, c’est le gérant de l’entreprise qui est tenu responsable. Les sanctions peuvent aller de simples rappels à l’ordre à des sanctions pénales et des amendes administratives pouvant aller jusqu’à 20 millions d’euros ou 4 % du chiffre d’affaires d’une entreprise. Il s’agit d’une raison légitime d’interdire l’utilisation de ChatGPT à ses salariés.

De plus, les RGPD encadrent précisément l’envoi de données à l’étranger en dehors de l’Union européenne. Tout responsable du traitement des données doit prendre des garanties suffisantes pour leur protection. Ainsi, l’utilisation de n’importe quel outil d’intelligence artificielle américain peut aller à l’encontre de ces règles lorsque les données sont placées sur leur interface. D’autant plus que celles-ci peuvent tomber sous le coup du Cloud Act.

Les risques liés au Cloud Act

Le Cloud Act est né à la suite d’un contentieux entre Microsoft et le gouvernement américain. La firme stockait une partie de ses données en dehors des État-Unis, ce qui empêchait l’administration américaine d’y accéder. Suite à cette bataille juridique, la loi fédérale du Clarifying Lawful Overseas Use of Data Act est née. Son objectif est de pouvoir saisir des données hébergées dans le Cloud par toute entreprise américaine, quel que soit le pays où celles-ci sont hébergées.

Elle donne le droit à l’administration américaine de procéder à leur consultation sans en avertir l’entreprise, sans autorisation et sans faire de demande d’entraide internationale.

Il est évident que le Cloud Act ne respecte pas les RGPD, notamment le consentement des individus et les conditions de transfert des données à l’étranger.

Utiliser des services Cloud basés aux États-Unis constitue un risque important pour les entreprises. L’utilisation de services d’IA américains est tout aussi risquée. Si vos données confidentielles se retrouvent sur la base de données d’OpenAI ou d’une autre IA, elles peuvent donc être accessibles au gouvernement américain. Dans ce cas, la confidentialité des données n’est pas assurée.

Quelles solutions pour empêcher les fuites de données liées à l’utilisation des IA ?

Interdire ChatGPT aux salariés

La solution la plus radicale pour empêcher toute fuite via une IA est d’interdire ChatGPT aux salariés. Nous avons vu que de grands groupes l’avaient fait, mais ce ne sont pas les seuls. Ainsi, selon une enquête menée par OnePoll pour Black Berry, 82 % des entreprises françaises et 75 % des entreprises mondiales envisagent l’interdiction des IA génératives au travail.

Dans les faits, c’est déjà le cas pour certains types d’entreprises. Dans les banques, les personnels commerciaux ne peuvent pas les utiliser afin d’éviter la divulgation des données sensibles.

D’autres entreprises se tournent vers une autre approche. Elles encadrent l’utilisation de l’IA en sensibilisant le personnel et en le formalisant par une charte informatique. Ce document définit les règles d’utilisation informatiques et numériques dans l’entreprise. Une clause dédiée à l’IA est particulièrement appropriée. Elle doit rappeler :

L’importance de l’éthique dans l’utilisation de l’IA en insistant sur la transparence et l’équité ;
Les bonnes pratiques pour le respect des droits de la propriété intellectuelle ;
La protection des données à caractère personnel en regard avec le RGPD ;
Une utilisation responsable des données fournies par l’IA qui impose une vérification des données et de poser un regard critique sur ces dernières.

Utiliser des IA on-premise

Les IA on-premise sont une alternative intéressante aux IA de type ChatGPT. En effet, avec ce modèle d’IA, vos données sont hébergées au sein de l’entreprise. Cet usage sur site améliore considérablement la sécurité et la confidentialité des données. Celles-ci ne peuvent pas se retrouver sur une base de données extérieure où elles peuvent être vues par d’autres utilisateurs. Il est possible d’installer et d’utiliser des IA on premise robustes et performantes grâce à leur disponibilité en open source comme Ollama.

Bien sûr, le modèle on-premise demande des efforts en termes d’investissement matériel et humain. La confidentialité des données ne sera respectée que si la maintenance est effectuée correctement et les infrastructures parfaitement sécurisées.

Se tourner vers le Cloud souverain

Pour garantir l’intégrité et la confidentialité des données, le Cloud souverain s’avère une solution idéale. Un service Cloud basé en France ne dépend que des lois françaises et européennes. En aucun cas, les données hébergées ne peuvent tomber sur le coup du Cloud Act. Il s’agit d’ailleurs de la solution utilisée par les collectivités territoriales, les établissements du secteur public, de recherche et de santé, qui collectent de nombreuses données sensibles.

La solution Scaleway offre un Cloud fiable et 100 % européen utilisé par différents acteurs du secteur public. Scaleway est certifié ISO/IEC 27001:2022, une norme qui garantit la sécurité de l’information, la cybersécurité et la protection de la vie privée et également certifié HDS (certification des hébergeurs de données pour la santé).

De plus, Scaleway permet de créer des applications d’intelligence artificielle performantes. Vous pouvez développer des modèles d’IA adaptées à vos besoins et à votre secteur d’activité. Créez, entraînez, optimisez et déployez vos modèles dans un environnement sécurisé avec vos données hébergées en Europe, en conformité avec le RGPD.

Scaleway garantit la souveraineté des données, leur transparence et leur traçabilité. Elles ne peuvent pas se retrouver sur une base de données tierce comme lors de l’utilisation d’IA américaine telles que ChatGPT.

Privilégier un usage souverain des données : la meilleure alternative

Pour résumer, toute entreprise a le choix entre interdire ChatGPT à ses salariés ou choisir un modèle d’IA différent. L’usage d’IA américaines, bien que pratique pour les employés s’avère peu sécurisé. Les données utilisées stockées sur la base de données d’OpenAI peuvent se retrouver sous les yeux d’un autre utilisateur ou saisies par l’administration américaine. C’est pourquoi opter pour une IA on-premise ou développer une IA sous Scaleway sont les meilleures solutions pour conserver la souveraineté de ses données.

Toutefois, les IA ne sont pas les seuls outils utilisés par les entreprises qui présentent de tels risques. Ainsi, une application comme WhatsApp qui met en avant le chiffrement des messages de bout en bout, n’est pas aussi sécurisée qu’elle n’y paraît.

D’une part, l’application n’est pas exempte de vulnérabilités et plusieurs ont déjà été corrigées par le passé. D’autre part, WhatsApp est la propriété de Meta. Or, la société multiplie les amendes pour violation de données personnelles. Cette dernière a, en 2021, modifié les politiques de confidentialité de WhatsApp afin de recueillir un plus grand nombre de données utilisateurs. D’autre part, en tant qu’entreprise américaine collectant des données, elle peut tomber sous le coup du Cloud Act.

Il est donc utile de choisir avec soin les applications et outils utilisés en entreprise et de privilégier les solutions européennes et sécurisées.

Comment fonctionne l’IA souveraine en entreprise ?

En entreprise, l’IA souveraine repose sur des infrastructures locales ou sur un Cloud souverain, évitant ainsi le transfert des données hors des frontières réglementées. Par exemple, les entreprises peuvent héberger des modèles de traitement de langage, de gestion de données ou d’analyse directement sur des serveurs internes (on-premise) ou via des services européens certifiés, tels que le Cloud d’OVH ou Scaleway. Cela permet de conserver une maîtrise complète des données, en réduisant les risques d’accès non autorisé et en assurant une conformité stricte avec les normes locales de protection des données. En misant sur des solutions open source et transparentes, l’IA souveraine devient ainsi un levier stratégique qui permet aux entreprises de bénéficier des avancées de l’IA tout en limitant les risques liés à la sécurité et à la confidentialité des données.

Capacités et applications des IA génératives

Les IAs génératives sont capables de générer des contenus, mais surtout de faire en sorte que la source de leur rédaction (machine) ne soit pas visible. En effet, elles savent reproduire un type de rédaction pour répondre à une demande d’adaptation par rapport à un public cible. Si on demande à une IA d’expliquer un principe technique et qu’on lui demande d’adapter son discours à un interlocuteur novice ou averti, on a deux contenus bien distincts.

Cette capacité est d’ores et déjà utilisée en ligne, de façon plus ou moins heureuse. Si elle permet par exemple d’optimiser des contenus pour avoir un bon référencement, elle permet aussi de créer par dizaines des contenus qui ne servent qu’à polluer internet pour attirer du trafic.

Mais comme cet aspect de génération de contenu ne s’arrête pas au texte, on les voit aussi utilisées dans de nombreux autres contextes, notamment d’un point de vue créatif, de par leur faculté à générer des images qui peuvent être des photographies réalistes ou non. Elles savent générer de la voix, de la vidéo, de la musique.

IA Générative : extraction et analyse avancée de données

Un autre aspect innovant de ces technologies repose sur la faculté à extraire et synthétiser des informations qui peuvent être issues de documents très hétérogènes. Il n’est plus forcément nécessaire de se livrer à un travail chronophage de transformation de données pour pouvoir en tirer des recoupements et des analyses pertinentes. De la même façon qu’on sait générer des contenus multimédias, ils peuvent aussi être utilisés comme sources de données. Il devient possible de faire croiser des enregistrements audio avec des bases documentaires pour en tirer des analyses, avec des suggestions.

Gestion des Agents de discussion et amélioration de la productivité

Enfin, il est indispensable de revenir à la notion d’agent de discussion. Grâce à ce que l’on a vu, l’agent sait interpréter les questions qu’on lui pose, trouver les informations les plus pertinentes pour y répondre et enfin proposer une réponse qui s’adapte à ce qui lui est demandé. C’est le cas par exemple de la génération de code qui améliore la productivité d’une équipe de développement. Mais qui plus est, on y a aussi adjoint une mémoire de la discussion, ce qui va permettre de prendre en considération l’historique des échanges pour mieux comprendre l’objet de la question.

Défis et solutions pour la souveraineté des données avec l’IA

Pour toutes ces raisons, il est naturel de rechercher avec ces outils de nouvelles opportunités pour améliorer sa R&D, son service après-vente, sa productivité, son fonctionnement interne…

Comme on l’a évoqué, ce qui est indispensable pour pouvoir profiter de ces outils, ce sont les données.
Qui plus est, dans de nombreux cas évoqués ici, les données considérées peuvent être sensibles, voire très sensibles. Il y a tout intérêt à travailler avec des données juridiques, comptables, documentaires, car les opportunités sont présentes. Mais il ne faut pas oublier l’importance de ces données et les risques auxquels on les expose.

Il est déjà compliqué de s’assurer en interne que les données sont bien protégées. L’actualité est hélas courante d’attaques et de fuites de données en masse. Si vos données doivent être utilisées par un service externe, quel niveau de confiance peut-on avoir concernant leur gouvernance ?

Il reste aussi à considérer le pays d’origine du prestataire. Le cas des sociétés américaines est un exemple qu’on doit prendre en compte dans sa réflexion. En effet, l’USA Freedom act permet au FBI d’avoir accès à tout type de données détenu par une société sur son sol, sans forcément qu’on puisse avertir le détenteur de ces données en amont.

Souveraineté technologique et innovations locales

Même si la probabilité qu’un incident de ce type arrive est faible, selon la sensibilité des informations considérée, on peut comprendre la réticence de certaines entreprises à permettre l’usage de solutions comme chatGPT.
Pour toutes ces raisons, il est légitime de se demander s’il est possible de profiter de ces nouvelles technologies en assurant un usage souverain de ces données. Et si oui, comment ?

Il s’avère que c’est possible. Il y a même deux options possibles.

Il s’avère que la France a pour volonté de ne pas se laisser distancer sur le sujet des IA génératives. Le gouvernement français a annoncé des aides pour le développement de ce domaine (2,2 milliards), mais a aussi communiqué sur les débuts de la mise en place de son propre agent Albert, présenté comme un bot 100% souverain. En novembre 2023 a aussi été annoncé le lancement de Kyutai, qui a pour ambition d’être LE laboratoire de recherche européen dédié à l’IA.

Nous avons de plus la présence de Mistral, qui propose son propre agent conversationnel (LeChat). Même si celui-ci n’est pour le moment pas au niveau de chatGPT concernant les extensions proposées, il n’en est pas moins particulièrement pertinent. Enfin, il est possible de faire appel à des ressources de calcul chez Scaleway, qui propose une capacité de calcul qui se situe au niveau de ses concurrents internationaux. La société propose depuis peu une offre pour faciliter la mise en place d’agents open source, avec un système d’inférence à la demande.

Il y a donc des solutions pour reposer sur des partenaires qui assurent une meilleure souveraineté des solutions mises en place.
Il reste aussi une solution qui permet de totalement internaliser les solutions basées sur l’IA générative, l’open source.

Vers une souveraineté renforcée grâce à l’open Source

Depuis le début de l’année 2023, des entreprises ont en effet mis à disposition en open source des modèles sur lesquelles elles ont considérablement investi pour arriver à des capacités qui rivalisent avec ce que propose le leader du secteur (OpenAI). On peut citer Meta, Microsoft, Google pour les plus connues, mais il y en a de nombreuses autres.

Cette mise à disposition a permis à la communauté open source de s’approprier ces technologies sans avoir à disposer de moyens considérables, et elle a été très productive.
Il est donc tout à fait possible de mettre en place une solution basée sur l’IA générative, hébergée par ses propres soins, ce qui en fait un choix totalement souverain.

Mais le plus intéressant est la possibilité de bénéficier de capacités de personnalisation qui n’existent pas dans les solutions proposées sous la forme de services. En effet, il s’avère par exemple qu’il est possible de surentraîner un modèle open source pour un coût nettement inférieur à celui nécessaire pour créer le modèle initial. Il suffit en effet de quelques jours d’entraînement pour rendre un modèle plus connaisseur et plus spécialisé sur un domaine particulier.

C’est ainsi qu’on a pu voir apparaître des modèles spécialisés dans le domaine médical (medecine chat de type Llama2 ou open bio llm de type Llama3), un modèle entraîné sur la législation française (Llamandment de type Llama2), etc.

Utiliser des solutions open source, c’est avoir accès à des dizaines de milliers de modèles différents, capables de répondre à des besoins fonctionnels ciblés.

Mais c’est aussi une opportunité pour aborder le sujet de la dépense énergétique. L’IA générative est énergivore, c’est un fait. Dans une démarche d’internalisation et de maîtrise des ressources mises en œuvre pour ses propres besoins, l’open source permet de faire des choix qui prennent en compte le bon usage des ressources qui sont mises à contribution. On peut par exemple parler du projet llama.cpp, projet open source qui est massivement utilisé par toutes les autres solutions pour faire fonctionner les modèles d’IA générative.
Ce projet permet d’utiliser au mieux les ressources de types GPU mises à disposition, en utilisant par exemple plusieurs modèles en parallèle sur une même carte, évitant ainsi de dupliquer des composants onéreux et consommateurs, quand un seul permet d’arriver au même résultat sans impact visible pour l’utilisateur final.

Aborder le sujet de la souveraineté dans l’usage des IA génératives est donc possible, donc nécessaire, comme tout sujet d’utilisation de données. De plus, l’open source n’est pas forcément un moins disant par rapport à ce que proposent les solutions les plus avancées. On peut même y trouver des facteurs de différenciation qui vous permettront de mieux répondre à vos besoins.

Chaîne de valeur de l’IA souveraine : Les piliers de la souveraineté numérique

L’écosystème français de l’intelligence artificielle souveraine s’appuie sur une architecture stratégique articulée autour de cinq composantes clés :

1- Infrastructure technologique critique

Datacenters certifiés SecNumCloud : 35 sites opérationnels d’ici 2026, dont le méga-centre Mistral AI dans l’Essonne (1GW de capacité)
Supercalculateurs nationaux : Accès à 18 petaflops de puissance via le GENCI, intégrant des processeurs européens RISC-V
Énergie décarbonée : Alimentation nucléaire à 89% permettant une intensité carbone 6x inférieure aux datacenters américains

2- Gouvernance des données souveraines grâce au stockage local avec un hébergement sur cloud Scaleway et OVHcloud par exemple pour les secteurs stratégiques

3- Formation des talents à grande échelle

Programme « AI Factory » : 10 000 experts formés annuellement via 9 pôles d’excellence
Dispositif CMA (Compétences et Métiers d’Avenir) : 87 M€ investis pour former 100 000 professionnels d’ici 2030

4- Écosystème R&D intégré

Modèles de fondation souverains : Développement de LLMs francophones comme Mistral
Recherche collaborative : 28 M€ annuels alloués à l’ANR pour les projets IA générative
Partenariats public-privé : Consortium européen sur l’IA générative regroupant 14 pays

5- Déploiement industriel sécurisé

Usine logicielle Gaia-X : Environnement de développement certifié pour les jumeaux numériques
Plateformes sectorielles :
- HealthData Hub pour la recherche médicale
- AgriNum pour l’agroalimentaire 4.0
Fonds souverain IA : 5 à 8 milliards €/an d’investissements publics-privés

Cette structuration permet à la France de contrôler 72% de sa chaîne de valeur IA contre 35% en 2023. L’objectif national vise à capter 15% du marché mondial de l’IA embarquée d’ici 2026, avec un impact économique estimé à +2,4% de PIB selon France Stratégie.

Sources :

Marc Hugon

CTO Projets

Marc met son expertise technique au service de la transformation digitale des entreprises. Grâce à de nombreuses années d’expérience en tant que CTO de sites e-commerce d’envergure, il conjugue compréhension des enjeux métier et intégration des problématiques technologiques et méthodologiques.

Plus d'articles sur ce sujet

Voir tous les articles

Commentaires

Vous avez un projet ? Nos équipes répondent à vos questions