OpenAI : fonctionnement, bonnes pratiques et limites
18 mars 2024
OpenAI est une entreprise créée en 2015, bien connue par l’adoption mondiale de leur produit phare ChatGPT. Leur domaine de recherche est l’intelligence artificielle dont l’objectif est de démocratiser cette technologie à l’usage de tous.
L’IA d’OpenAI est basée sur des modèles de langage disponibles via une API avec des outils très populaires comme ChatGPT ou DALL-E. Dans cet article, nous évoquons le fonctionnement des modèles de langage et de GPT, les bonnes pratiques pour l’utiliser avec pertinence, mais aussi les limites de l’outil.
OpenAI et l’utilisation de modèles de langage
Un modèle de langage est un modèle statistique qui permet de comprendre et générer du langage humain. Le modèle linguistique le plus utilisé est le LLM ou Language Learning Mode. À partir de nombreuses données, ces outils sont entraînés à reproduire le langage humain en comprenant les règles.
GPT utilise le modèle Generative Pre-training Transformer. Pour cela, il est alimenté par une grande quantité de textes en provenance d’Internet pour parfaire son entraînement. Il comprend la syntaxe humaine, et dans un second temps, est capable de l’utiliser pour différentes tâches. C’est également le modèle de langage utilisé par DALL-E qui génère des images à partir de phrases.
Dans le domaine de l’IA, il existe plusieurs modèles mis au point pour accomplir des tâches de différentes natures. Par exemple, pour BERT, créé par Google, le modèle de langage est le “bidirectional encoder representations from transformers”. Cette mise à jour du moteur de recherche a acquis une meilleure compréhension du langage humain pour affiner les réponses aux requêtes.
Les prompts : une bonne pratique pour utiliser OpenAI
L’utilisation de la technologie d’Open AI comme ChatGPT requiert de décrire précisément votre demande pour obtenir une réponse pertinente. L’intelligence artificielle utilise des algorithmes de traitement de langage naturel (NLP NPL) pour comprendre et interpréter le texte fourni. GPT-4 est un chat conversationnel. Il reconnaît des mots, des phrases ou la syntaxe et en déduit le sens général. Cependant, il peut parfois mal interpréter les consignes.
Il est donc important de rédiger un bon prompt. Cette commande écrite lui permet de vous apporter une réponse appropriée. Selon OpenAI, voici des instructions pour écrire vos prompts :
- Donner des instructions claires,
- Ajouter de nombreux détails,
- Choisir le persona à adopter,
- Délimiter la recherche, si par exemple, des données sont à extraire d’un document, on peut lui indiquer dans quelle partie,
- Spécifier des étapes permettant de compléter la réponse,
- Donner des exemples.
Chat-GPT, un outil pour réaliser des tâches variées
Lorsque le prompt est bien maîtrisé, Chat-GPT offre la possibilité de faire des tâches très variées. Voici quelques exemples de tâches à réaliser avec GPT-4 :
- Extraire des données d’un ou plusieurs documents et les classer, les résumer ou les analyser,
- Rédiger des contenus marketing,
- Analyser un code HTML ou CSS,
- Optimiser les performances d’une page web,
- Traduire un texte dans une autre langue,
- Corriger les erreurs d’orthographe et de syntaxe,
- Répondre aux questions les plus fréquentes des clients et traiter leurs réclamations,
- Faire un comparatif,
- Réaliser une étude de cas,
- Interpréter des graphiques, des photographies ou des images complexes,
- Etc.
La tarification et les limitations d’OpenAI
La tarification d’OpenAI est basée sur le nombre de Tokens d’entrée et de sortie. Il s’agit d’unités numériques qui correspondent à un groupe de caractères générés dans un texte. En générant un texte sur GPT, vous utilisez donc un nombre de caractères qui correspond à un nombre de tokens. OpenAI fournit d’ailleurs un outil qui vous permet de calculer combien un prompt va consommer de Tokens. On emploie alors le terme « Tokeniser ».
Cette facturation varie également avec le modèle de langage utilisé. Elle ne sera, par exemple, pas la même si vous utilisez GPT-3 ou GPT-4. De plus, il existe une Rate Limit qui limite le débit de l’API en fonction de la quantité de requêtes soumises. Ces limitations sont destinées à donner à chacun un accès équitable à la plateforme et à limiter les abus ou les surcharges sur cette dernière.
Les limites de l’utilisation de GPT
Comme tout programme, GPT présente certaines limites :
- L’intelligence artificielle a des difficultés à retranscrire les émotions humaines.
- GPT- 4 a une mémoire plus longue que ses prédécesseurs, mais elle est restée limitée à environ 50 pages de conversation.
- Le logiciel n’est pas capable d’apprendre en continu de ses expériences.
- Le système fait fréquemment des erreurs de raisonnement et peut donc fournir des informations qui ne sont pas toujours fiables dans certaines situations. Comme c’est un modèle statistique, il a une marge d’imprécision qui peut se révéler gênante. C’est pourquoi, la rédaction du prompt doit permettre d’éviter les erreurs en étant suffisamment précise. D’ailleurs, si l’utilisateur lui fournit des données erronées, GPT peut très bien les prendre en compte sans les mettre en doute ;
- Il ne connaît pas la totalité des événements survenus après septembre 2021 et fait parfois des erreurs sur les personnes, les lieux ou les faits. Il n’est donc pas en mesure d’informer sur des faits d’actualité.
- GPT est capable de générer du contenu malveillant si l’on pose ses questions de manière détournée.
- Le système doit être utilisé prudemment en ce qui concerne les données sensibles. En effet, OpenAI ne semble pas être en conformité avec la loi Informatique et Libertés. Dans certains contextes, son utilisation peut donc ne pas respecter les RGPD. Il faut être particulièrement vigilant sur ces aspects et éviter d’alimenter le chat avec des documents confidentiels.
- Les problèmes de droit d’auteur : des auteurs ont déjà porté plainte pour plagiat. Chat-GPT peut répondre par des passages de livres utilisés lors de ses entraînements.
Une utilisation prudente des systèmes OpenAI avec focus sur GPT-4 offre des réponses pertinentes
OpenAI fournit des systèmes très intéressants dans de nombreux domaines d’application, notamment GPT-4. Le modèle de langage utilisé permet d’obtenir des réponses pertinentes à condition de l’utiliser avec des prompts précis. L’outil peut accomplir des tâches variées qui permettent un gain de temps, toutefois il connaît aussi des limites. Il doit toujours être utilisé avec du recul et une certaine prudence en ce qui concerne les données sensibles.
Une IA souveraine et open source
Face aux enjeux de souveraineté numérique, plusieurs initiatives européennes et françaises visent à développer des alternatives aux IA génératives américaines. En France, le projet BLOOM, porté par Hugging Face et soutenu par des fonds publics, a permis de créer un grand modèle de langage multilingue et open source. D’autres acteurs comme LightOn ou Mistral AI développent également des modèles d’IA souverains. Au niveau européen, le projet LEAM (Large European AI Models) ambitionne de fédérer les efforts pour créer une IA générative « made in Europe ». Ces initiatives s’appuient sur des données et infrastructures européennes, avec un accent mis sur la transparence, l’explicabilité et le respect des valeurs éthiques de l’UE. L’objectif est de proposer des alternatives crédibles aux géants américains, tout en garantissant la maîtrise des données et le respect du RGPD. Cette approche souveraine et open source vise à construire un écosystème d’IA de confiance en Europe, capable de répondre aux besoins spécifiques des entreprises et institutions européennes
Pour en savoir davantage :