Papers-LLMEval - a sugatoray Collection

sugatoray 's Collections

Papers + RL/Reasoning

Marimo

RLMs (Reasoning Language Models)

Books And Notes

Reasoning Datasets

SmolAgents Tools (Spaces)

Bookmark::Models

LLMs

AV LLMs

LLM Training Datasets

Papers

Leaderboards 🔥

Papers-Fundamentals

TFM: TimeSeries Foundation Models

Papers-Benchmarks

LLMs-EmbeddingModels

LLM + Datasets : Finance

Papers-LLMEval

updated Mar 12

Latxa: An Open Language Model and Evaluation Suite for Basque

Paper • 2403.20266 • Published Mar 29, 2024 • 3
TrustLLM: Trustworthiness in Large Language Models

Paper • 2401.05561 • Published Jan 10, 2024 • 69
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

Paper • 2405.01535 • Published May 2, 2024 • 123
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

Paper • 2405.08707 • Published May 14, 2024 • 34
tinyBenchmarks: evaluating LLMs with fewer examples

Paper • 2402.14992 • Published Feb 22, 2024 • 17
meta-llama/Llama-3.3-70B-Instruct-evals

Viewer • Updated Dec 6, 2024 • 41.3k • 89 • 41
RUC-NLPIR/OmniEval-HallucinationEvaluator

Text Generation • Updated Dec 18, 2024 • 1
mistralai/MM-MT-Bench

Viewer • Updated Oct 10, 2024 • 92 • 1.2k • 24
openai/gsm8k

Viewer • Updated Jan 4, 2024 • 17.6k • 444k • 1k
m-a-p/CodeCriticBench

Preview • Updated Nov 2 • 37 • 4
KRLabsOrg/lettucedect-base-modernbert-en-v1

Token Classification • 0.1B • Updated Apr 1 • 1.77k • 17
RekaAI/VibeEval

Viewer • Updated Dec 12, 2024 • 269 • 1.18k • 47