ChatGPT, Llama, Gemini, Copilot... Les différents modèles d'IA en clair
- imran1380
- 26 avr.
- 10 min de lecture
Dernière mise à jour : il y a 5 heures

Depuis l’introduction de ChatGPT en 2022, de nombreuses compagnies de la tech se sont lancées dans la création de leurs propres LLM. Un LLM, ou Large Language Model (modèle de langage large en français), est un type d’IA conçu pour comprendre du texte et en générer en langue naturelle. Ce sont des réseaux neuronaux qui sont entraînés sur des milliards de mots et une quantité gigantesque de texte.
ChatGPT est l’exemple le plus connu d’un LLM. Alors, commençons par la question : comment compare-t-on les LLM ? Il y a plusieurs paramètres à prendre en compte.
Qualité, cohérence, pertinence, créativité du texte généré
Vitesse de génération : mesurée en tokens par seconde
Latence, le temps entre le moment où une requête est donnée et le moment où une réponse commence à être générée : dit TTFT (Time to First Token)
Fenêtre de contexte – quantité de texte que le modèle peut traiter en une seule fois
Taille du modèle – le nombre de paramètres différents que le modèle prend en compte
Prix – le prix est calculé en prix par millions de tokens générés
L’efficacité à raisonner
La capacité à écrire du code fonctionnel
Etc.
Il est important de préciser qu’un token est une « unité de texte », généralement un seul mot. Une autre manière d’évaluer les IA est aussi de simplement demander aux utilisateurs lesquels ils préfèrent. C’est le concept derrière le classement : https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard. Il est aussi important de noter qu’avec l’évolution des IA, on a vu l’émergence d’IA « multimodales », c’est-à-dire qu’elles sont capables de traiter plusieurs types de fichiers, pas que du texte, mais aussi par exemple des images, de l’audio et/ou des vidéos. Un nouveau type d’IA, qui est censé « raisonner », est aussi apparu ces derniers temps sur le marché.
Il existe plusieurs manières différentes de les classer, avec des tests spécifiques. Il ne faut néanmoins pas oublier que même si la plupart des modèles d’IA sont créés pour être des mastodontes qui essayent d’avoir un maximum de paramètres et sont entraînés sur un maximum de données, d’autres sont faits pour être légers, pouvant être déployés rapidement et sur tous types de hardware. C’est un modèle multimodal qui est aussi le premier avec un raisonnement « hybride » : il intègre plusieurs manières de raisonner, ce qui lui permet de répondre rapidement aux questions simples et de passer plus de temps pour des requêtes complexes.
Il y a plusieurs benchmarks qui évaluent les caractéristiques plus « subjectives » de cette liste (telles que les connaissances, les capacités de raisonnement, etc.). Pour en citer quelques-uns :
Le GPQA Diamond (Graduate-Level Google-Proof Q&A) - évalue la capacité de l’IA à répondre à des questions complexes de niveaux d’études supérieurs, qui sont difficiles à répondre même avec accès à internet.
SWE Bench (Software Engineering Benchmark) – évalue la capacité des différents modèles à résoudre des questions de programmation du monde réel, les questions sont tirées de dépôts Github.
AIME 2024 (American Invitational Mathematics Examination) – évalue la capacité des modèles à répondre à des questions mathématiques.
MMLU Pro (Massive Multitask Language Understanding Pro) tente d’évaluer les performances de l’IA, ses connaissances et sa capacité de raisonnement avec 12 000 questions dans 14 domaines différents.
Il y a aujourd’hui plusieurs compagnies qui s’attellent à la création de LLMs. C’est un domaine d’étude qui bouge à vitesse grand V, ce qui pourrait signifier que les modèles présentés ci-contre ne soient plus les plus performants au moment où vous lisez cet article, écrit en avril 2025.
OpenAI Chat GPT o3mini, GPT-4.5, GPT-4o,

OpenAI a été la première compagnie à offrir un vrai LLM grand public efficace – ChatGPT. Depuis qu’il est sorti, vous en avez forcément entendu parler. Mais depuis 2022, plusieurs nouveaux modèles ont été créés par OpenAI, avec des noms similaires mais qui chacun excelle dans ses propres domaines.
GPT o3-mini est un modèle plus petit. Le préfixe « o » signifie qu’il est optimisé pour des questions liées aux sciences, aux mathématiques et au code, il est doté d’une capacité de raisonnement plus avancée que les autres modèles d’OpenAI. Il a reçu le score le plus élevé parmi tous les modèles au benchmark LIVECODEBENCH et AIME. Il ne peut néanmoins pas prendre de requêtes sous forme d’images, de vidéos ou d’audio. Il utilise un système de raisonnement qui consiste à « casser » les solutions complexes en plusieurs sous-problèmes, ainsi le rapprochant d’une capacité réelle de « raisonnement ».
GPT o1 est similaire à o3-mini. Il est lui aussi optimisé pour les mêmes types de questions, mais est plus massif et plus vieux que o3-mini.
GPT 4o est un modèle multimodal. Il peut prendre plusieurs types de fichiers, comme de l’audio, de la vidéo et des images. Il fut rendu public en mars 2025. Ses capacités de raisonnement sont néanmoins moins élevées que celles de GPT o3-mini et o1, n’intégrant pas la capacité de raisonnement avancé. C’est dans tous les cas un modèle puissant.
DeepSeek R1 est un modèle d’IA chinois qui concurrence très bien les modèles occidentaux. En termes de connaissances, il est équivalent à GPT 4o et o1. Il offre plusieurs tailles de modèles, de 1.5 milliard à 671 milliards de paramètres. Il est cependant noté que DeepSeek R1 a tendance à halluciner, donnant des informations complètement à côté de la plaque.
Microsoft Copilot et Copilot 365

Bien que n’étant pas un modèle d’IA à part entière, Microsoft Copilot devient un acteur important de ce domaine. Copilot est l'IA de Microsoft, elle est accessible en ligne dans une version gratuite. Cette dernière est basée sur GPT-4 Turbo, on peut s’attendre donc à des résultats similaires, avec la capacité de faire des recherches sur le web. Copilot intègre aussi le moteur de recherche Bing, aussi de Microsoft, cela afin de donner des réponses synthétisées depuis plusieurs sources. Cette capacité d’assembler des informations de plusieurs sources fait de Copilot une aide précieuse pendant des recherches, il faut toutefois rester sur ses gardes, les IA peuvent encore se tromper, surtout sur des sujets de pointe.
Microsoft propose aussi une version payante de Copilot qui intègre de nombreuses fonctionnalités intéressantes, Copilot 365. Outre les avantages assez “classiques” des IA payantes : meilleures capacités de calcul, pas de limites dans le nombre de requêtes, des requêtes plus grandes, GPT-4o, etc., Copilot 365 a aussi accès à vos fichiers stockés sur Azure (OneDrive/SharePoint). Avec cette fonctionnalité, en plus d'être le seul a garantir la confidentialité de vos données, Copilot acquiert le moyen de répondre à des questions “personnalisées”, que ce soit sur des informations qui seraient disponibles dans ces fichiers, dans des rapports par exemple, mais aussi d’aider dans la localisation de fichiers et dans l'analyse de ceux-ci. Copilot 365 est aussi directement intégré dans Word, Powerpoint, Outlook, Excel et Teams (ainsi que la plupart des portails administratifs Microsoft). De plus il y a une capacité d'analse plus poussée qui est proposée et une capacité à créer des "agents"; des versions de Copilot que vous pouvez utiliser pour vos besoins spécifiques ou en créer de nouveaux.
Un catalogue d'agents préprogrammés avec la sémantique nécessaire à certaines activités est disponible gratuitement.

Vous pouvez également créer les vôtres... ce qui est plutôt pratique.

Copilot 365 intègre aussi depuis peu "Visual creator", un agent puissant pour créer des contenus visuels comme des vidéos ou/et des images.

Étant donné que les capacités de l’IA sont assez flexibles, l'utilisation de cette solution pourrait différer selon chaque secteur, mais elle présente une claire manière d’automatiser encore plus les processus répétitifs et de servir d'assistant personnel numérique. Le gain de temps et la sécurité de vos données étant pour Microsoft un élément clef qui est mis en avant.
En effet, Microsoft garantit qu’aucun entraînement d’IA n’est fait sur les données et sur les requêtes faites avec la version payante. C’est une des seules entreprises d’IA à présenter cette garantie.
Google Gemini

Gemini 2.5 est le modèle d'IA le plus récent et le plus avancé développé par Google DeepMind, conçu pour s'attaquer à des problèmes de plus en plus complexes grâce à des capacités de raisonnement améliorées. Ce modèle, introduit en mars 2025, est un « modèle de réflexion », ce qui signifie qu'il peut raisonner sur ses pensées avant de répondre, ce qui se traduit par une amélioration significative des performances et de la précision. De ce point de vue, Gemini 2.5 est similaire à GPT-3-mini. Gemini 2.5 est disponible en plusieurs versions, dont Gemini 2.5 Pro et Gemini 2.5 Flash, chacune étant optimisée pour différents cas d'utilisation. Il a reçu le résultat le plus élevé parmi tous les modèles au GPQA Diamond, à 84 % et le deuxième le plus élevé au AIME 2024 à 87 %. Il est aussi le modèle préféré des utilisateurs sur https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard et le plus performant au « Humanity’s Last Exam », le benchmark le plus exigeant dans plusieurs domaines.
Anthropic Claude 3.7

Anthropic est une entreprise formée en 2021 par des ex-membres seniors d’OpenAI. Claude 3.7 Sonnet est actuellement leur modèle le plus développé, avec une version Claude 3.7 Code. Ce dernier est le meilleur modèle à performer au SWE Bench. Claude 3.7 en lui-même est quatrième parmi tous les modèles au GPQA.
Meta Llama 4

Meta, anciennement Facebook, s’est lui aussi lancé dans l’aventure de l’IA. Contrairement aux autres modèles, Llama 4 est disponible en open-source. Cela veut dire que vous pouvez le déployer pour vos propres projets et vos propres serveurs. Il est disponible en trois versions : Scout, Maverick, Behemoth, avec 109 milliards, 400 milliards et 2 trillions de paramètres respectivement. C’est un modèle multimodal avec la fenêtre de contexte la plus grande de tous les modèles : 10 millions de tokens, par comparaison Gemini 2.5 Pro en a lui 1 million. C’est aussi un modèle puissant apte à répondre aux questions compliquées, il a eu 81 % au MMLU-PRO, mais seulement 67 % au GPQA, dans sa version Maverick – ce qui est inférieur aux autres modèles cités dans cet article.
Il est néanmoins important de mentionner que le déploiement d'une IA sur vos machines locales nécessite un investissement initial dans des infrastructures avec des capacités de calcul puissantes, dotées de GPU et/ou de CPU performants. Pour plus d'informations, se référer à l'article sur le self-host d'IA.
xAI Grok 3

xAI est une compagnie fondée par Elon Musk en 2023. Son dernier modèle est Grok 3, sorti en février 2025. Il y a aussi une version Grok 3 mini qui est faite pour donner des réponses plus rapides, même si moins efficaces. Il a 2.7 trillions de paramètres, ce qui fait de lui un des modèles les plus larges disponibles à ce jour. Il inclut des capacités de raisonnement avancées et est multimodal. Au GPQA Diamond, il a eu un score de 79 % pour sa version mini et 84.6 % pour le modèle complet – c’est le meilleur score parmi toutes les IAs. Au AIME 2024, Grok 3 a lui aussi reçu les meilleurs résultats parmi tous ses concurrents avec un score de 93.3 %, ainsi qu’au Live Code Bench où Grok a reçu un score de 79.4 %.
Sources pour les scores :
Concernant la confidentialité des données
On peut se demander, et on doit le faire, ce qui se passe avec nos données dans notre monde numérique. La base de l’IA et des LLMs, ce sont les données avec lesquelles ils sont entraînés. Cela signifie que les entreprises d'IA ont besoin de plus en plus de matériel en texte brut. De ce fait, les prompts donnés à ces IAs peuvent être utilisés pour entraîner encore plus ces dernières. Actuellement, hormis Microsoft, les fournisseurs de LLM qui proposent des versions en ligne de leur intelligence artificielle ne proposent pas de garanties fortes sur ce point. Il y a de nouveau, comme avec de nombreux services en ligne, des risques de fuites de données ou de piratages de ces entreprises. Bien que rares, cela reste une possibilité.
Les autres formes d’IA génératives
Les IA génératives ne sont pas que des modèles capables de créer du texte, il en existe faites pour la création d’images et même “d'œuvres d’art”. Ceux-ci prennent en entrée un texte et à partir de ce texte vous créent une image. Midjourney est l’exemple parfait de ce type d’outil. Un des premiers de son genre, il est aussi régulièrement mis à jour, au point d’arriver actuellement, en avril 2025, à sa V7. Les images générées sont particulièrement qualitatives et pourraient même être considérées pour certaines comme des “œuvres d’art”, ressemblant à des peintures humaines ou les surpassant (il y a encore des débats quant à savoir si l’art généré peut être considéré comme de l’art à proprement parler, mais cela est plus une question philosophique que technique). Pour témoigner de la qualité des créations de cette solution, une image générée par Midjourney a gagné en 2022 le concours d’art de la “Colorado State Fair”, dans la catégorie peinture. (https://www.nytimes.com/2022/09/02/technology/ai-artificial-intelligence-artists.html)
Ces outils de génération d’images et de textes, couplés à d’autres technologies, types d’IA, et de l’inventivité peuvent être implémentés dans divers domaines. C’est déjà le cas avec le design web, avec des outils comme https://wegic.ai/, qui simplifient la création de sites web à une simple discussion entre vous et le robot. Vous décrivez le site que vous souhaitez avoir, l’IA vous pose des questions de précision et vous donne un résultat qui devrait vous convenir.
Des utilisations d’IA existent pour énormément de domaines et en faire une liste exhaustive serait presque impossible. Il est sûr que des disparités dans la qualité et la pertinence de certains outils existent, il est toutefois intéressant de noter à quel point les domaines impactés par cette nouvelle technologie sont larges, les métiers du numérique étant bien évidemment les premiers. Le potentiel de ces outils est vraiment vaste, une liste de certains outils, triés par domaine peut être trouvée sur : https://www.futuretools.io/. Le marketing, le montage vidéo, la traduction, etc. ne sont qu’une petite poignée d’exemples de domaines pour lesquels des solutions existent et continuent de se développer.
Conclusion
En conclusion, le marché des IA génératives bouge extrêmement rapidement avec en seulement 3 ans une diversification sans précédent de l’offre et l’émergence de toute une kyrielle de nouvelles technologies. Les solutions proposées sont de plus en plus avancées et chaque modèle peut se targuer d’être fort dans un domaine précis. certains modèles comme celui de Microsoft se concentre sur une intégration à nos outils quotidiens et tente de répondre à plusieurs défis.
Nous voyons donc une généralisation de l’IA et on se tourne aussi de plus en plus vers des versions open-source (gratuites), avec le cas de Llama notamment, même si les coûts matériels sont considérables. Les versions actuelles de l’IA ont encore des défauts, mais les investissements sur les modèles payants tendent à améliorer chaque jour les résultats obtenus, parfois au détriment d'un muselage tout de même parfois controversé. Cette accélération de l’IA ouvre bien sûr toute une série de questions d’ordre social, légal, économique et éthique dont les réponses seront trouvées collectivement au fur et à mesure de l'adoption par les utilisateurs.
Commenti