Blog / L'intelligence artificielle

IREX - Du scoring en Intelligence Artificielle: cas des LLM

Le scoring en Intelligence Artificielle est une approche méthodique qui permet d'évaluer et de comparer différents modèles ou solutions en se basant sur des critères objectifs et mesurables.

September 17, 2025 · 5 min read

Scoring des LLMs Open Source — Méthodologie

Sommaire

Introduction
Notion de scoring
Pourquoi c'est utile?
Critères retenus
Mise en œuvre pratique
Résultats
Conclusion

1. Introduction

Les grands modèles de langage (LLM) tels que LLaMA, Mistral, GPT ou Phi sont devenus des piliers de l’intelligence artificielle moderne. Ils alimentent des chatbots, des outils de traduction, des systèmes d’aide à la rédaction et bien d’autres applications. Cependant, tous ces modèles ne se valent pas, et leur degré d’ouverture peut varier considérablement.

Quand on parle d’ouverture dans le monde des LLM, cela concerne plusieurs aspects essentiels :

Le code source : est-il accessible à tous ou fermé au public ?
Les poids (weights) : c’est-à-dire les paramètres du modèle, sont-ils partagés librement ?
Les données d’entraînement : peut-on savoir et réutiliser ce qui a servi à entraîner le modèle ?
Le modèle complet : est-il utilisable sans restriction ou limité par des licences propriétaires ?

Ces critères d’ouverture sont cruciaux, car un modèle qui n’ouvre pas l’un de ces éléments perd en transparence, en fiabilité et en capacité d’adaptation. Pour une communauté ou une entreprise qui souhaite bâtir sur des bases solides, il est donc essentiel d’identifier les modèles véritablement open source.

Mais l’ouverture seule ne suffit pas. Il faut aussi évaluer des critères qualitatifs tels que :

La licence : est-elle réellement libre ou cache-t-elle des restrictions ?
La vitesse : le modèle peut-il s’exécuter efficacement dans divers environnements ?
L’adaptabilité : le modèle peut-il être affiné (fine-tuning) pour des usages spécifiques ?
La facilité d’utilisation : les outils et documentations associés sont-ils accessibles aux développeurs ?

Dans cet article, nous proposons donc une fonction de scoring qui combine ces deux dimensions : ouverture et qualité. La règle est stricte : si un modèle n’est pas totalement ouvert (code, poids, données, modèle), il est immédiatement disqualifié. Seuls les modèles entièrement open source sont ensuite départagés selon leur qualité.

Ce système nous permet de répondre à une question fondamentale : quel est le meilleur LLM open source à implémenter ?

2. La notion de scoring

Le scoring, c’est un peu comme un bulletin scolaire. Chaque IA reçoit des notes sur différents critères (vitesse, performance, facilité d’utilisation, transparence…). Ensuite, on calcule une moyenne qui permet de dire laquelle est la plus “forte” globalement.

Le score global d’un LLM est calculé comme une somme pondérée de scores normalisés :

Score(LLM) = ( ∑_i=1ⁿ poids_i × critère_i_qualitatif ) × ( ∏_j=1^m critère_j_ouverture )

Les poids (poids_i) reflètent l'importance relative de chaque critère et sont choisis par l'utilisateur ; la somme des poids doit être égale à 1. Le score final est borné entre 0 et 1, ce qui facilite l'interprétation et la comparaison.

3. Pourquoi c’est utile?

Le développement actuel de l’intelligence artificielle met en avant de nombreux modèles de langage (LLMs). Mais tous ne se valent pas : certains sont véritablement open source, d’autres non. Dans un contexte où la transparence, la confiance et la souveraineté numérique sont essentielles, notre fonction de scoring joue un rôle clé.

Le scoring rend la comparaison plus simple et objective. Plutôt que de lire des centaines d’avis contradictoires, on a un tableau clair qui met en évidence les forces et faiblesses de chaque IA. Le pscoringpermet l'évaluation des performances, la prise de decisions,etc....

4. Critères retenus

Pour évaluer des LLMs open source, nous séparons les critères en deux familles :

a) Critères qualitatifs

Licence ouverte : résultats sur benchmarks (MMLU, GSM8K, etc.).
vitesse (Speed) : tokens générés par seconde (sur hardware comparable).
Adaptabilité : facilité de fine-tuning (LoRA, PEFT), quantization, compatibilité outils.
Facilité d'utilisation ;

b) Critères d’ouverture et d’usage

Nous décomposons l’ouverture en quatre dimensions distinctes, c’est essentiel pour estimer la reproductibilité :

Ouverture du code : disponibilité du code d'entraînement et scripts.
Ouverture des poids (weights) : accès aux poids complets et possibilité de les réutiliser.
Ouverture des données d'entraînement : transparence sur les datasets, licences de données.
Ouverture du modèle : documentation complète, description de l'architecture et des hyperparamètres.

5. Mise en œuvre pratique

Modèle	Code ouvert	Poids ouverts	Données ouvertes	Modèle ouvert	Licence libre	Vitesse	Adaptabilité	Facilité	Score final
Apertus	1	1	1	1	0.9	0.8	0.85	0.9	0.86
Mistral 7B	1	0	0	1	0.85	0.75	0.8	0.85	0.00
LLaMA 3.3	0	0	0	0	0.9	0.85	0.8	0.85	0.00
Phi-4	1	1	0	1	0.95	0.92	0.88	0.9	0.00
Command-R	1	1	0	1	0.93	0.9	0.87	0.88	0.00

6. Résultats

Faut savoir qu'il était question ici de trouver le LLM qui coche toutes les cases en tant que IA opensource en se basant sur les criteres d'ouverture et les criteres qualitatifs. Le tableau est sans appel : Apertus est le seul modèle à satisfaire à la fois les conditions d’ouverture et les critères qualitatifs.Tous les autres échouent au moins sur un critère d’ouverture, et obtiennent donc un score nul.. Pour la petite histoire, Apertus est un LLM lancé par les suisses pour sa transparence et son ouverture, par son multilinguisme,sa diversité culturelle et linguistique.

7. Conclusion

Le scoring proposé offre un cadre pratique et transparent pour comparer des LLMs open source. En séparant l'ouverture en quatre dimensions distinctes, il devient possible d'estimer précisément la reproductibilité, la transparence et la maturité d'un modèle. Cette méthodologie est adaptée aux décideurs techniques, chercheurs et équipes produits qui doivent choisir un modèle en fonction d’exigences techniques et de gouvernance des données.

L’intérêt d’un tel scoring dépasse la simple comparaison technique : il contribue à renforcer la confiance dans les modèles adoptés, à favoriser la souveraineté numérique, et à encourager des pratiques réellement ouvertes dans la communauté de l’IA. En rendant le processus d’évaluation clair et accessible, ce système permet à chacun, expert ou non, de comprendre pourquoi un modèle est retenu ou écarté.