Modèles de Langage : quel est le meilleur réseau entre GPT, BARD et LLAM ?
5 octobre 2023
La Quête du Meilleur Modèle de Langage
C’est une question intéressante, car aujourd’hui il y a un nombre grandissant de LLM (Large Language Models) qui sortent sur le marché. Il s’agit de modèles de langage conçus pour comprendre, intégrer et générer du texte, en se basant sur des réseaux de neurones. C’est un type d’intelligence artificielle. Ils vont intégrer, ou intègrent déjà, un bon nombre d’applications.
Alors entre GPT, BARD et LLAM, lequel est le meilleur, et lequel raconte le plus de vérités ?
J’ai lu récemment un article d’OpenAI qui disait que GPT4 donnait 80% de bonnes réponses et que la version 5 approcherait des 90%.
Ce qui est sûr, c’est que pour la génération de texte, ils sont impressionnants. D’ailleurs, j’aurais peut-être dû leur demander d’écrire cet article. Mais non, je vais plutôt leur poser quelques questions pour tester leur capacité de réflexion, des questions pouvant paraître simples pour nous humains, mais pas forcément pour une IA.
Comment réagissent les modèles face à des questions logiques ?
J’ai donc joué le jeu en posant les questions suivantes :
- Quel est la suite de : tic tac tic tic tac tac tic tic tic tac tac ?
- En lançant 3 dés de 6, quelles sont les combinaisons qui ont 7 pour somme ?
L’Interprétation ludique de LLAMA
Voici ce que répond LLAMA à la première question :
« Tac tac tic tac tac tac tac tic tic tac tac. Cela correspond à un code morse qui signifie « Voulez vous que je joue une blague pour vous ? ».
– Tu te trompes, il s’agit d’une suite et ta réponse n’est pas la bonne. Peux-tu juste me donner le terme qui est représenté par le “?” ?
– Le mot représenté par ce code Morse est « LOL ». »
Je n’insiste pas plus, je le laisse à ses blagues.
BARD et sa tentative de réponse
Maintenant voyons ce qu’en pense BARD :
« La réponse est : tic tac tic tic tac tac tic tic tic tac tac tock. La séquence est simplement la succession de battements d’un chronomètre. Il y a 10 tics, suivis d’un tock.
– Non, c’est une suite et ta réponse n’est pas la bonne, peux-tu juste me donner le terme qui est représenté par le “?” ?
– Bien sûr. Le terme représenté par le “?” est : Minute, répond-il. »
Décidément , il ne semble pas comprendre. Je tente une approche plus explicite :
« Quelle est la suite de : tic tac tic tic tac tac tic tic tic tac tac ? Quelle va être la valeur de mon point d’interrogation ?
– La séquence est tic tac tic tic tac tac tic tic tic tac ?. Et la valeur du point d’interrogation est 10. La séquence représente les battements d’une horloge à aiguilles. Il y a 10 tics, ce qui représente 10 minutes. Le point d’interrogation représente le prochain tic, qui représentera 11 minutes. »
Rien à faire, il est resté sur l’idée du tic tac d’une horloge sans tenir compte de l’idée de suite.
GPT4, le modèle qui se rapproche le plus de la réponse exacte
Maintenant essayons avec GPT4 :
Je l’interroge :
« Quelle est la suite de : tic tac tic tic tac tac tic tic tic tac tac ?
– Je pense que la suite de cette séquence est tac tic tac tic tac tic tic tac tac. C’est une suite logique qui alterne le nombre de syllabes entre 1 et 2.
– Exact ! C’est bien une suite mais ta réponse n’est pas la bonne, peux-tu me donner le terme qui est représenté par le “?” ?
– Je ne suis pas sûr de comprendre votre question. Le terme qui est représenté par le quoi ? Pouvez-vous préciser s’il vous plaît ?
– Le terme représenté par le point d’interrogation.
– Le terme qui est représenté par le point d’interrogation est le prochain élément de la suite. Si vous voulez savoir comment trouver ce terme, il faut observer la règle qui régit la suite. Par exemple, si la suite est 1, 2, 4, 8, ?, la règle est de multiplier par 2 à chaque fois. Donc le terme suivant est 16.
– Oui ! Donc, en l’occurence, dans ma suite, quelle est la suite de : tic tac tic tic tac tac tic tic tic tac tac ? quelle va être la valeurs de mon point d’interrogation.
– Si la règle de votre suite est d’alterner le nombre de syllabes entre 1 et 2, alors la valeur du point d’interrogation est tac. Sinon, il faut trouver une autre règle qui explique la suite. Avez-vous une idée de cette règle ?
– Et si je dois continuer la suite, quel est l’alternance de tic et tac?
– Si vous devez continuer la suite, l’alternance de tic et tac est la suivante : tic tac tic tic tac tac tic tic tic tac tac tac tic tac tic tic tac tac tic tic tic tac tac tac tic tac. C’est une suite qui se répète tous les 12 éléments. »
Je n’insiste pas plus.
Ces premiers éléments me permettent de formuler une première conclusion : pour cette première question, aucune IA n’a trouvé la bonne. Cependant GPT est celui qui s’en est le plus rapproché, on peut même dire qu’il a partiellement répondu à la question. LLAMA lui est totalement ailleurs, quant à BARD, il n’a rien compris.
Les modèles de langage et les combinaisons de dés
Une première réponse évasive pour l’algorithme LLAMA
Je suis donc passé à ma seconde question : « En lançant 3 dés de 6, quelles sont les combinaisons qui ont 7 pour somme ? ». Voyons ce que LLAMA me répond :
« Il y a un total de six combinaisons qui donnent une somme de 7 avec trois dés de 6 :
- 1/2/4 et 5/1/6
- 1/3/3 et 5/1/5
- 1/4/2 et 5/1/4
- 1/5/1 et 5/1/3
- 2/2/3 et 4/1/2
- 3/3/0 et 3/1/2
La bonne combinaison est en fait « 1/2/4 ». Cela correspond aux nombres suivants :
- Pour le premier dé (le numéro 1): 1, 2, 3, 4, 5, 6
- Pour le deuxième dé (le numéro 2): 2, 3, 4, 5, 6
- Pour le troisième dé (le numéro 4): 4, 5, 6
Ce qui donne une somme totale de 7 pour ces trois nombres. »
La réponse de LLAMA n’est pas mal, mais pas suffisamment précise.
Une tentative peu fructueuse de la part de l’IA Bard
Le test continue avec la participation de Bard :
« Il existe 15 combinaisons de 3 dés qui font 7. Voici la liste de ces combinaisons :
- 1-6-6
- 6-1-6
- 6-6-1
- 2-5-6
- 5-2-6
- 6-2-5
- 2-6-5
- 3-4-6
- 4-3-6
- 6-3-4
- 3-6-4
- 4-6-3
- 5-5-2
- 5-2-5
- 2-5-5
La probabilité de faire 7 avec 3 dés est de 15/216, soit environ 6,94 %. »
La réponse de Bard est relativement loin de la réalité, je vais tenter une approche plus vulgarisée :
« Dans ta réponse, le total des combinaisons ne somment pas à 7, par exemple : 1 + 6 + 6 = 13. Peux-tu corriger la liste des combinaisons pour répondre à la première question ?
– Je m’excuse pour l’erreur. Voici la liste des combinaisons de 3 dés qui font 7 :
- 1-6-6
- 2-5-6
- 3-4-6
- 4-3-6
- 5-2-6
- 5-5-2
- 6-1-6
- 6-2-5
- 6-3-4
- 6-4-3
La probabilité de faire 7 avec 3 dés est de 15/216, soit environ 6,94 %. »
Réponse une fois de plus tout à fait inexacte, nous arrêtons le test avec Bard.
GPT4 excelle dans l’évaluation des combinaisons de dés
« Il y a 6 combinaisons de 3 dés de 6 qui somment à 7. Ce sont :
- 1 + 1 + 5
- 1 + 2 + 4
- 1 + 3 + 3
- 2 + 2 + 3
- 2 + 3 + 2
- 3 + 2 + 2″
Il s’agit de la réponse attendue.
LLAMA, Bard, Chat GPT : quel modèle semble davantage se distinguer par sa fiabilité ?
A travers ces deux tests, nous pouvons placer Chat GPT sur le podium suivi de LLAMA. Quant à BARD, je le renvoie en primaire pour qu’il apprenne les additions.
Je penche donc pour GPT, c’est celui qui me déçoit le moins, car même si pour cet article je ne vous ai donné que 2 exemples, j’ai fait d’autres tentatives qui corroborent ces deux expériences. Il faut néanmoins rester précautionneux. A ce jour, on ne peut pas encore dresser des conclusions tranchées sur les différents LLM, et il faut se méfier du phénomène d’Hallucinations des LLM. Tout comme au début de l’apparition des premiers ordinateurs, on se méfiait de leurs calculs et on vérifiait le moindre calcul, il faut faire de même avec l’IA et les modèles de langage. Et sûrement un jour, avec leur évolution, nous pourrons leur faire confiance.
L’émergence de l’IA souveraine : une alternative européenne
Face à la domination des géants américains dans le domaine de l’IA, l’Europe s’efforce de développer ses propres modèles de langage souverains. Cette initiative vise à garantir l’indépendance technologique et la protection des données des citoyens européens. Parmi les projets notables, on peut citer BLOOM, un modèle de langage multilingue open-source développé par Hugging Face avec le soutien de fonds publics français. D’autres acteurs comme Mistral AI en France ou Aleph Alpha en Allemagne travaillent également sur des LLM européens performants. Ces efforts s’inscrivent dans une volonté plus large de créer un écosystème d’IA « made in Europe », respectueux des valeurs et des réglementations européennes, notamment en matière de protection des données personnelles et d’éthique. Bien que ces modèles soient encore en phase de développement et de rattrapage par rapport à leurs homologues américains, ils représentent une alternative prometteuse pour les entreprises et institutions européennes soucieuses de leur souveraineté numérique.
Data Manager