Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

146

Full-text search

Active filters: llm-compressor

EmbeddedLLM/Qwen3-VL-30B-A3B-Thinking.w4a16

Text Generation • 5B • Updated Jan 13 • 467

mratsim/MiniMax-M2.1-BF16-INT4-AWQ

Text Generation • 39B • Updated about 1 month ago • 4.49k • 5

inference-optimization/granite-4.0-h-tiny-FP8-block

Text Generation • 7B • Updated 21 days ago • 110

RedHatAI/granite-4.0-h-tiny-FP8-dynamic

Text Generation • 7B • Updated 21 days ago • 342

kaitchup/LFM2.5-1.2B-Thinking-AWQ-W4A16-ASYM

0.6B • Updated 22 days ago • 34

kaitchup/LFM2.5-1.2B-Thinking-FP8-Dynamic

1B • Updated 22 days ago • 191

kaitchup/LFM2.5-1.2B-Thinking-MXFP4

0.8B • Updated 22 days ago • 10

kaitchup/LFM2.5-1.2B-Thinking-NVFP4

0.9B • Updated 17 days ago • 69

kaitchup/LFM2.5-1.2B-Thinking-W4A16-G128

0.6B • Updated 22 days ago • 13

kaitchup/LFM2.5-1.2B-Thinking-autoround-W4A16

0.7B • Updated 22 days ago • 306

kaitchup/GLM-4.7-Flash-FP8-Dynamic

30B • Updated 21 days ago • 104

RedHatAI/Phi-4-reasoning-FP8-dynamic

Text Generation • 15B • Updated 4 days ago • 172

dtometzki/Qwen3-30B-A3B-awq-sym

Text Generation • 5B • Updated 16 days ago • 16

JongYeop/Llama-3.1-8B-Instruct-NVFP4-W4A4

5B • Updated 15 days ago • 10

JongYeop/Llama-3.1-70B-Instruct-NVFP4-W4A4

41B • Updated 11 days ago • 39

JongYeop/Llama-3.1-8B-Instruct-INT8-W8A8

8B • Updated 11 days ago • 21

JongYeop/Llama-3.1-8B-Instruct-INT8-W8A8-Dynamic-Per-Token

8B • Updated 10 days ago • 13

JongYeop/Llama-3.1-8B-Instruct-FP8-W8A8-Dynamic-Per-Token

8B • Updated 10 days ago • 14

rtj1/Qwen2.5-0.5B-AWQ-FP8-Dynamic

Text Generation • 0.6B • Updated 3 days ago • 19

rtj1/Qwen2.5-0.5B-AWQ-FP8-Block

Text Generation • 0.6B • Updated 3 days ago • 18

vistralis-labs/Qwen3-4B-NVFP4

Text Generation • 3B • Updated 6 days ago • 39

vistralis-labs/Qwen3-4B-FP8

Text Generation • 4B • Updated 6 days ago • 10

vistralis-labs/Qwen3-4B-INT8

Text Generation • 4B • Updated 6 days ago • 9

vistralis-labs/Qwen3-8B-INT8

Text Generation • 8B • Updated 6 days ago • 16

Sophia-AI/Qwen3-4B-Instruct-2507-AWQ-W4A16

Text Generation • 1B • Updated 1 day ago • 13

ludovicoYIN/MiniMax-M2-BF16-W4A16

Text Generation • 34B • Updated about 4 hours ago