Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2505.09388

Qwen/Qwen3-235B-A22B-Thinking-2507-FP8

Text Generation • 235B • Updated Jul 30, 2025 • 89.5k • 83
Qwen/Qwen3-235B-A22B-Thinking-2507

Text Generation • Updated Aug 17, 2025 • 59.8k • • 398
Qwen/Qwen3-235B-A22B-Instruct-2507-FP8

Text Generation • 235B • Updated Sep 17, 2025 • 577k • 146
Qwen/Qwen3-235B-A22B-Instruct-2507

Text Generation • Updated Sep 17, 2025 • 180k • • 762

LLM Pruning and Distillation in Practice: The Minitron Approach

Paper • 2408.11796 • Published Aug 21, 2024 • 58
TableBench: A Comprehensive and Complex Benchmark for Table Question Answering

Paper • 2408.09174 • Published Aug 17, 2024 • 52
To Code, or Not To Code? Exploring Impact of Code in Pre-training

Paper • 2408.10914 • Published Aug 20, 2024 • 45
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Paper • 2408.11878 • Published Aug 20, 2024 • 64

Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 19
Evaluating Large Language Models Trained on Code

Paper • 2107.03374 • Published Jul 7, 2021 • 8
Training language models to follow instructions with human feedback

Paper • 2203.02155 • Published Mar 4, 2022 • 24
GPT-4 Technical Report

Paper • 2303.08774 • Published Mar 15, 2023 • 7

xsh-tech-report

Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 337

LLM Tech Reports

Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 337
Kimi k1.5: Scaling Reinforcement Learning with LLMs

Paper • 2501.12599 • Published Jan 22, 2025 • 126
Training language models to follow instructions with human feedback

Paper • 2203.02155 • Published Mar 4, 2022 • 24

AI Paper of the Day

A collection of papers that I think are interesting, one added each day

about 10 hours ago

Can Large Language Models Understand Context?

Paper • 2402.00858 • Published Feb 1, 2024 • 24
OLMo: Accelerating the Science of Language Models

Paper • 2402.00838 • Published Feb 1, 2024 • 85
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 152
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

Paper • 2401.17072 • Published Jan 30, 2024 • 25

Papers reimplemented

List of research papers, architectures, and techniques I re implemented in LLM-quest or Hugging Face's TRL. Missing papers: Qwen3-Next, GPT-2

Reinforced Attention Learning

Paper • 2602.04884 • Published Feb 4 • 28
Learning to Reason in 13 Parameters

Paper • 2602.04118 • Published Feb 4 • 6
LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters

Paper • 2405.17604 • Published May 27, 2024 • 3
mHC-lite: You Don't Need 20 Sinkhorn-Knopp Iterations

Paper • 2601.05732 • Published Jan 9 • 1

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

Paper • 2512.24617 • Published Dec 31, 2025 • 65
Recursive Language Models

Paper • 2512.24601 • Published Dec 31, 2025 • 91
Nested Learning: The Illusion of Deep Learning Architectures

Paper • 2512.24695 • Published Dec 31, 2025 • 44
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

Paper • 2512.02556 • Published Dec 2, 2025 • 260

Toolkit - AI Papers

Neural Machine Translation by Jointly Learning to Align and Translate

Paper • 1409.0473 • Published Sep 1, 2014 • 7
Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 115
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 26
Hierarchical Reasoning Model

Paper • 2506.21734 • Published Jun 26, 2025 • 48

LLM Technical Report

Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 337

Qwen/Qwen3-235B-A22B-Thinking-2507-FP8

Text Generation • 235B • Updated Jul 30, 2025 • 89.5k • 83
Qwen/Qwen3-235B-A22B-Thinking-2507

Text Generation • Updated Aug 17, 2025 • 59.8k • • 398
Qwen/Qwen3-235B-A22B-Instruct-2507-FP8

Text Generation • 235B • Updated Sep 17, 2025 • 577k • 146
Qwen/Qwen3-235B-A22B-Instruct-2507

Text Generation • Updated Sep 17, 2025 • 180k • • 762

AI Paper of the Day

A collection of papers that I think are interesting, one added each day

about 10 hours ago

Can Large Language Models Understand Context?

Paper • 2402.00858 • Published Feb 1, 2024 • 24
OLMo: Accelerating the Science of Language Models

Paper • 2402.00838 • Published Feb 1, 2024 • 85
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 152
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

Paper • 2401.17072 • Published Jan 30, 2024 • 25

LLM Pruning and Distillation in Practice: The Minitron Approach

Paper • 2408.11796 • Published Aug 21, 2024 • 58
TableBench: A Comprehensive and Complex Benchmark for Table Question Answering

Paper • 2408.09174 • Published Aug 17, 2024 • 52
To Code, or Not To Code? Exploring Impact of Code in Pre-training

Paper • 2408.10914 • Published Aug 20, 2024 • 45
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Paper • 2408.11878 • Published Aug 20, 2024 • 64

Papers reimplemented

List of research papers, architectures, and techniques I re implemented in LLM-quest or Hugging Face's TRL. Missing papers: Qwen3-Next, GPT-2

Reinforced Attention Learning

Paper • 2602.04884 • Published Feb 4 • 28
Learning to Reason in 13 Parameters

Paper • 2602.04118 • Published Feb 4 • 6
LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters

Paper • 2405.17604 • Published May 27, 2024 • 3
mHC-lite: You Don't Need 20 Sinkhorn-Knopp Iterations

Paper • 2601.05732 • Published Jan 9 • 1

Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 19
Evaluating Large Language Models Trained on Code

Paper • 2107.03374 • Published Jul 7, 2021 • 8
Training language models to follow instructions with human feedback

Paper • 2203.02155 • Published Mar 4, 2022 • 24
GPT-4 Technical Report

Paper • 2303.08774 • Published Mar 15, 2023 • 7

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

Paper • 2512.24617 • Published Dec 31, 2025 • 65
Recursive Language Models

Paper • 2512.24601 • Published Dec 31, 2025 • 91
Nested Learning: The Illusion of Deep Learning Architectures

Paper • 2512.24695 • Published Dec 31, 2025 • 44
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

Paper • 2512.02556 • Published Dec 2, 2025 • 260

xsh-tech-report

Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 337

Toolkit - AI Papers

Neural Machine Translation by Jointly Learning to Align and Translate

Paper • 1409.0473 • Published Sep 1, 2014 • 7
Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 115
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 26
Hierarchical Reasoning Model

Paper • 2506.21734 • Published Jun 26, 2025 • 48

LLM Tech Reports

Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 337
Kimi k1.5: Scaling Reinforcement Learning with LLMs

Paper • 2501.12599 • Published Jan 22, 2025 • 126
Training language models to follow instructions with human feedback

Paper • 2203.02155 • Published Mar 4, 2022 • 24

LLM Technical Report

Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 337

Previous
1
2
3
...
5
Next

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs