Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

3,019

Full-text search

Active filters: ppo

shiptoday101/beastybar-ppo

Reinforcement Learning • Updated Jan 14

Adi070204/ppo-Lunar-Lander-v2

Reinforcement Learning • Updated Jan 13

acwkim/ppo-helpful

Reinforcement Learning • Updated 27 days ago • 6

acwkim/ppo-harmless

Reinforcement Learning • Updated 27 days ago • 13

acwkim/ppo-humor

Reinforcement Learning • Updated 27 days ago • 5

Irisaka/ppo-cleanrl-LunarLander-v2

Reinforcement Learning • Updated 30 days ago

jalaneunos/LunarLander-v3-ppo-1

Reinforcement Learning • Updated 28 days ago

Kolosok/ppo-CartPole-v1

Reinforcement Learning • Updated 28 days ago

Kolosok/ppo-LunarLander-v2_2

Reinforcement Learning • Updated 28 days ago

Sambarlasagna/ppo-LunarLander-v2

Reinforcement Learning • Updated 26 days ago

BrennanDrake/ppo-LunarLander-v2-1

Reinforcement Learning • Updated 26 days ago

ianyang02/ppo_model_qwen3-4b_aita_h200_one_ex

Updated 22 days ago

jinn33/kanana-1.5-8b-rlhf

Updated 24 days ago

nhankins/ppo-LunarLander-v3

Reinforcement Learning • Updated 23 days ago • 20

Martox/Myppo-LunarLander

Reinforcement Learning • Updated 23 days ago

universehugging/LunarLander-v2-1

Reinforcement Learning • Updated 23 days ago

onnx-community/mmBERT-base-ONNX

Fill-Mask • Updated 22 days ago • 18

DanielDel89/jhondoe-models

Reinforcement Learning • Updated 14 days ago

seb-835/LunarLander-v2

Reinforcement Learning • Updated 20 days ago

arzhela/QuadOpt-RL-ppo-sb3

Reinforcement Learning • Updated 17 days ago • 10

zlyngkhoi/ppo_trainer_model

Text Generation • 0.6B • Updated 17 days ago • 8

MeowFR/mistral-7b-humanization-grpo

Reinforcement Learning • Updated 13 days ago • 73

AdityaaXD/Multi-Agent_Reinforcement_Learning_Trading_System_Models

Reinforcement Learning • Updated 13 days ago • 165 • 1

grinvolod/ppo-LunarLander-8v2

Reinforcement Learning • Updated 15 days ago

hajirazin/learnfinance-models-ppo

Reinforcement Learning • Updated 13 days ago • 18

oukhan/ppo-CartPole-v1

Reinforcement Learning • Updated 14 days ago

MeowFR/mistral-7b-humanization-grpo-v4-stable

Reinforcement Learning • Updated 13 days ago • 76

MeowFR/mistral-7b-humanization-grpo-v4-ultra-boost

Reinforcement Learning • Updated 12 days ago • 26

Dr3dre/ppo-test-pythia-1b-deduped-lr3e-06-effbs32-ep3-0

Text Generation • 1B • Updated 11 days ago • 10

Dr3dre/ppo-pythia-1b-deduped-lr2e-06-effbs64-ep1-0-missing-eos-penalty-1-0

Text Generation • 1B • Updated 11 days ago • 10