AfroBench

Running

App Files Files Community

seun-ajayi commited on about 1 month ago

Commit

c42bef2

verified ·

1 Parent(s): 5e0e18c

Update data/leaderboard_json/afrobench_lite.json

Browse files

### Add N-ATLAS-LLM AfroBench-LITE scores to leaderboard

This PR adds N-ATLAS-LLM results from an AfroBench-LITE evaluation run to the leaderboard.

#### Scores added (N-ATLAS-LLM)
- **NLI (AfriXNLI):** 47.7
- **Intent (InjongoIntent):** 70.0
- **MT (FLORES en→xx):** 50.1
- **MMLU (AfriMMLU):** 37.8
- **Math (AfriMGSM):** 40.4
- **Topic (SIB):** 80.5
- **RC (Belebele):** 51.4

#### Reference
- https://huggingface.co/blog/seun-ajayi/n-atlas-evaluation-report

Files changed (1) hide show

data/leaderboard_json/afrobench_lite.json +14 -7

data/leaderboard_json/afrobench_lite.json CHANGED Viewed

@@ -24,7 +24,8 @@
             "Gemini-2.5 Flash": 69.3,
             "Gemini-2.5 Pro": 72.5,
             "GPT-5 (Aug)": 83.3,
-            "Gemini 3 Pro": 77.4
         }
     },
     "Intent": {
@@ -52,7 +53,8 @@
             "Gemini-2.5 Flash": 87.4,
             "Gemini-2.5 Pro": 88.0,
             "GPT-5 (Aug)": 87.3,
-            "Gemini 3 Pro": 88.8
         }
     },
     "MT(en/fr-xx)": {
@@ -80,7 +82,8 @@
             "Gemini-2.5 Flash": 45.3,
             "Gemini-2.5 Pro": 46.3,
             "GPT-5 (Aug)": 44.8,
-            "Gemini 3 Pro": 47.3
         }
     },
     "MMLU": {
@@ -108,7 +111,8 @@
             "Gemini-2.5 Flash": 67.3,
             "Gemini-2.5 Pro": 77.4,
             "GPT-5 (Aug)": 83.3,
-            "Gemini 3 Pro": 86.1
         }
     },
     "Math": {
@@ -136,7 +140,8 @@
             "Gemini-2.5 Flash": 69.3,
             "Gemini-2.5 Pro": 73.2,
             "GPT-5 (Aug)": 73.7,
-            "Gemini 3 Pro": 73.4
         }
     },
     "Topic": {
@@ -164,7 +169,8 @@
             "Gemini-2.5 Flash": 86.8,
             "Gemini-2.5 Pro": 87.9,
             "GPT-5 (Aug)": 88.5,
-            "Gemini 3 Pro": 87.9
         }
     },
     "RC": {
@@ -192,7 +198,8 @@
             "Gemini-2.5 Flash": 41.6,
             "Gemini-2.5 Pro": 76.4,
             "GPT-5 (Aug)": 83.3,
-            "Gemini 3 Pro": 71.2
         }
     }
 }

             "Gemini-2.5 Flash": 69.3,
             "Gemini-2.5 Pro": 72.5,
             "GPT-5 (Aug)": 83.3,
+            "Gemini 3 Pro": 77.4,
+            "N-ATLAS-LLM": 47.7
         }
     },
     "Intent": {
             "Gemini-2.5 Flash": 87.4,
             "Gemini-2.5 Pro": 88.0,
             "GPT-5 (Aug)": 87.3,
+            "Gemini 3 Pro": 88.8,
+            "N-ATLAS-LLM": 70.0
         }
     },
     "MT(en/fr-xx)": {
             "Gemini-2.5 Flash": 45.3,
             "Gemini-2.5 Pro": 46.3,
             "GPT-5 (Aug)": 44.8,
+            "Gemini 3 Pro": 47.3,
+            "N-ATLAS-LLM": 50.1
         }
     },
     "MMLU": {
             "Gemini-2.5 Flash": 67.3,
             "Gemini-2.5 Pro": 77.4,
             "GPT-5 (Aug)": 83.3,
+            "Gemini 3 Pro": 86.1,
+            "N-ATLAS-LLM": 37.8
         }
     },
     "Math": {
             "Gemini-2.5 Flash": 69.3,
             "Gemini-2.5 Pro": 73.2,
             "GPT-5 (Aug)": 73.7,
+            "Gemini 3 Pro": 73.4,
+            "N-ATLAS-LLM": 40.4
         }
     },
     "Topic": {
             "Gemini-2.5 Flash": 86.8,
             "Gemini-2.5 Pro": 87.9,
             "GPT-5 (Aug)": 88.5,
+            "Gemini 3 Pro": 87.9,
+            "N-ATLAS-LLM": 80.5
         }
     },
     "RC": {
             "Gemini-2.5 Flash": 41.6,
             "Gemini-2.5 Pro": 76.4,
             "GPT-5 (Aug)": 83.3,
+            "Gemini 3 Pro": 71.2,
+            "N-ATLAS-LLM": 51.4
         }
     }
 }