1 1 6

Jim White PRO

jimwhite

jimwhite

AI & ML interests

None yet

Recent Activity

updated a collection about 4 hours ago

Coding Benchmarks

updated a collection about 4 hours ago

Semantic Web

updated a collection 3 days ago

Semantic Web

View all activity

Jim White PRO

AI & ML interests

Recent Activity

Organizations

jimwhite 's collections 6

LiquidAI/LFM2.5-1.2B-Instruct

Token-Level LLM Collaboration via FusionRoute

Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

DeepCode: Open Agentic Coding

nvidia/Nemotron-Pretraining-Code-v2

BEAVER: An Efficient Deterministic LLM Verifier

VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks

Agentic Rubrics as Contextual Verifiers for SWE Agents

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

josancamon/kg-gen-MINE-evaluation-dataset

zilliz/semantic-highlight-bilingual-v1

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

LiquidAI/LFM2.5-1.2B-Instruct

Token-Level LLM Collaboration via FusionRoute

VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks

Agentic Rubrics as Contextual Verifiers for SWE Agents

Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

DeepCode: Open Agentic Coding

nvidia/Nemotron-Pretraining-Code-v2

BEAVER: An Efficient Deterministic LLM Verifier

josancamon/kg-gen-MINE-evaluation-dataset

zilliz/semantic-highlight-bilingual-v1

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation