Les Benchmarks

Labo/AI/Benchmarks

Récapitulatif des benchmarks évalués

Test principe
GSM8k Grade School Math
raisonnement par étapes
ifeval Suivi d’instruction du prompt
Important pour agentique
mmlu Connaissances générales
Améliore hallucination et compréhension
arc challenge Compréhension sémantique,
robustesse aux distracteurs, confusions

Tableau Gemma 4 26 A4B par Unsloth

Quantisation GSM8K IfEval Arc_Challenge_Chat
Unsloth -it-UD-IQ2_XXS 88/87 93/87 80
Unsloth -it-UD-Q3_K_S 88/87 92/88 91
Unsloth -it-UD-Q3_K_M 88/87 92/88 91
Unsloth -it-UD-Q3_K_XL 88/87 93/88 92
Unsloth -it-UD-IQ4_NL 88/87 93/87 93
Unsloth -it-UD-Q4_K_S 90/89 92/88 93
Unsloth -it-UD-Q4_K_M 90/89 93/88 92
Unsloth -it-UD-Q4_K_XL 90/89 92/87 92
Unsloth -it-UD-Q5_K_S 90/89 92/87
Unsloth -it-UD-Q5_K_M 90/89 93/89 92
Unsloth -it-UD-Q5_K_XL 90/89 93/88 93

Pour plus de détails sur les tests Gemma4, les résultats sont dans la page dédiée

Tableau récapitulatif Qwen 3.5 A35B A3B par Unsloth

En cours de tests

Quantisation GSM8K IfEval Arc_Challenge_Chat
Qwen3.6-35B-A3B-MXFP4_MOE - 28/42 95
Qwen3.6-35B-A3B-UD-IQ2_M - 28/43 95