Labo/AI/Benchmarks
Récapitulatif des benchmarks évalués
| Test |
principe |
| GSM8k |
Grade School Math |
|
raisonnement par étapes |
| ifeval |
Suivi d’instruction du prompt |
|
Important pour agentique |
| mmlu |
Connaissances générales |
|
Améliore hallucination et compréhension |
| arc challenge |
Compréhension sémantique, |
|
robustesse aux distracteurs, confusions |
Tableau Gemma 4 26 A4B par Unsloth
| Quantisation |
GSM8K |
IfEval |
Arc_Challenge_Chat |
| Unsloth -it-UD-IQ2_XXS |
88/87 |
93/87 |
80 |
| Unsloth -it-UD-Q3_K_S |
88/87 |
92/88 |
91 |
| Unsloth -it-UD-Q3_K_M |
88/87 |
92/88 |
91 |
| Unsloth -it-UD-Q3_K_XL |
88/87 |
93/88 |
92 |
| Unsloth -it-UD-IQ4_NL |
88/87 |
93/87 |
93 |
| Unsloth -it-UD-Q4_K_S |
90/89 |
92/88 |
93 |
| Unsloth -it-UD-Q4_K_M |
90/89 |
93/88 |
92 |
| Unsloth -it-UD-Q4_K_XL |
90/89 |
92/87 |
92 |
| Unsloth -it-UD-Q5_K_S |
90/89 |
92/87 |
– |
| Unsloth -it-UD-Q5_K_M |
90/89 |
93/89 |
92 |
| Unsloth -it-UD-Q5_K_XL |
90/89 |
93/88 |
93 |
Pour plus de détails sur les tests Gemma4, les résultats sont dans la page dédiée
Tableau récapitulatif Qwen 3.5 A35B A3B par Unsloth
En cours de tests
| Quantisation |
GSM8K |
IfEval |
Arc_Challenge_Chat |
| Qwen3.6-35B-A3B-MXFP4_MOE |
- |
28/42 |
95 |
| Qwen3.6-35B-A3B-UD-IQ2_M |
- |
28/43 |
95 |