Commits · Luigi/ZeroGPU-LLM-Inference

Update requirements.txt

4d2c362
verified

Luigi commited on Oct 12, 2025

Update requirements.txt

48d806a
verified

Luigi commited on Oct 12, 2025

Add dynamic GPU time estimate indicator to UI

fc989b4

Luigi commited on Oct 12, 2025

Improve model size detection: replace ad-hoc string parsing with reliable params_b field in MODELS dict

ab92e0d

Luigi commited on Oct 12, 2025

Add qwen 80b-a3b

8cdf3e1

Luigi commited on Oct 12, 2025

Set better defaults for free-tier users: Qwen3-1.7B model, 1024 max tokens, search disabled

2cae073

Luigi commited on Oct 12, 2025

Adjust duration estimation for H200 performance - reduce conservative estimates

de766da

Luigi commited on Oct 12, 2025

Use actual parameter count for AOT decision instead of string matching

e3e334f

Luigi commited on Oct 12, 2025

Make AOT compilation conditional for models >= 2B parameters to optimize free tier usage

4500f92

Luigi commited on Oct 12, 2025

Add AOT compilation optimization for ZeroGPU acceleration

a7866ff

Luigi commited on Oct 12, 2025

add 4 20b+ models after enabling dynamic gpu duration

fea2910
verified

Luigi commited on Oct 12, 2025

Add dynamic duration calculation for ZeroGPU acceleration

6073cc2

Luigi commited on Oct 12, 2025

make qwen-4b default

d3726c6
verified

Luigi commited on Oct 11, 2025

disable two models that cannot run or too run too slowly on hf spaces with zerogpu

3dc7ced

Luigi commited on Oct 11, 2025

Update app.py

f1fa55c
verified

Luigi commited on Oct 11, 2025

Update app.py

f07d6ab
verified

Luigi commited on Oct 11, 2025

Update app.py

0992852
verified

Luigi commited on Oct 11, 2025

add original apriel 15b

2b25033
verified

Luigi commited on Oct 11, 2025

use apriel 8bit

a4681bd
verified

Luigi commited on Oct 11, 2025

run Apriel on 4bit

2cadf8a
verified

Luigi commited on Oct 11, 2025

Add Apriel-1.5-15b-Thinker

3665b54
verified

Luigi commited on Oct 11, 2025

Update app.py

7f654b2
verified

Luigi commited on Oct 10, 2025

Update app.py

15b78c7
verified

Luigi commited on Oct 10, 2025

Update requirements.txt

4addcb2
verified

Luigi commited on Oct 10, 2025

Update requirements.txt

49c0c5a
verified

Luigi commited on Oct 10, 2025

Update requirements.txt

831c9e8
verified

Luigi commited on Oct 10, 2025

Update app.py

7356fa6
verified

Luigi commited on Oct 9, 2025

add 4 models from qwen3 family

048cfc4
verified

Luigi commited on Oct 9, 2025

add qwen3 32b awq

b9efb74
verified

Luigi commited on Oct 9, 2025

Update app.py

5e03586
verified

Luigi commited on Oct 9, 2025

Update README.md

c6e816c
verified

Luigi commited on Oct 9, 2025

Update requirements.txt

ff4ad1d
verified

Luigi commited on Oct 9, 2025

Update app.py

e5a1663
verified

Luigi commited on Oct 9, 2025

Update app.py

de64679
verified

Luigi commited on Oct 9, 2025

Update app.py

4418827
verified

Luigi commited on Oct 9, 2025

Update app.py

f2f4310
verified

Luigi commited on Oct 9, 2025

Update app.py

42db70b
verified

Luigi commited on Oct 9, 2025

feat(models): add Granite-4.0-Micro and Qwen3-4B-Instruct-2507 to MODELS registry

c30a7f7
verified

Luigi commited on Oct 9, 2025

feat(models): Added three new models

3c22497
verified

Luigi commited on Oct 9, 2025

add 5 models from liquid ai

8eefe94

Luigi commited on Oct 8, 2025

add smollm2 135m multilingual

ac20174
verified

Luigi commited on Sep 8, 2025

add parser_model_ner_gemma_v0 based on gemma 3 370m it

bc1bd75
verified

Luigi commited on Aug 29, 2025

Add Gemma-3-270m Taiwan

74c66e7
verified

Luigi commited on Aug 18, 2025

add gemma-3-270m-it

3995aec

Luigi commited on Aug 15, 2025

remove prevously added breeze models (as it didn't work), add smollm 135m taiwan

b3fd72e

Luigi commited on Aug 4, 2025

add breeze models

88f3bc6

Luigi commited on Aug 3, 2025

add 3 sub-1B TW models from ShengweiPeng

ddfffab

Luigi commited on Aug 1, 2025

add Qwen2.5-Taiwan-3B-Reason-GRPO & Llama-3.2-Taiwan-1B

f82b9e0

Luigi commited on Jul 31, 2025

disable cache for better compability

ea7c44f

Luigi commited on Jul 31, 2025

make qwen2.5-taiwan 1.5b the default

493107e

Luigi commited on Jul 30, 2025

Commit History

Update requirements.txt 4d2c362 verified

Update requirements.txt 48d806a verified

Add dynamic GPU time estimate indicator to UI fc989b4

Improve model size detection: replace ad-hoc string parsing with reliable params_b field in MODELS dict ab92e0d

Add qwen 80b-a3b 8cdf3e1

Set better defaults for free-tier users: Qwen3-1.7B model, 1024 max tokens, search disabled 2cae073

Adjust duration estimation for H200 performance - reduce conservative estimates de766da

Use actual parameter count for AOT decision instead of string matching e3e334f

Make AOT compilation conditional for models >= 2B parameters to optimize free tier usage 4500f92

Add AOT compilation optimization for ZeroGPU acceleration a7866ff

add 4 20b+ models after enabling dynamic gpu duration fea2910 verified

Add dynamic duration calculation for ZeroGPU acceleration 6073cc2

make qwen-4b default d3726c6 verified

disable two models that cannot run or too run too slowly on hf spaces with zerogpu 3dc7ced

Update app.py f1fa55c verified

Update app.py f07d6ab verified

Update app.py 0992852 verified

add original apriel 15b 2b25033 verified

use apriel 8bit a4681bd verified

run Apriel on 4bit 2cadf8a verified

Add Apriel-1.5-15b-Thinker 3665b54 verified

Update app.py 7f654b2 verified

Update app.py 15b78c7 verified

Update requirements.txt 4addcb2 verified

Update requirements.txt 49c0c5a verified

Update requirements.txt 831c9e8 verified

Update app.py 7356fa6 verified

add 4 models from qwen3 family 048cfc4 verified

add qwen3 32b awq b9efb74 verified

Update app.py 5e03586 verified

Update README.md c6e816c verified

Update requirements.txt ff4ad1d verified

Update app.py e5a1663 verified

Update app.py de64679 verified

Update app.py 4418827 verified

Update app.py f2f4310 verified

Update app.py 42db70b verified

feat(models): add Granite-4.0-Micro and Qwen3-4B-Instruct-2507 to MODELS registry c30a7f7 verified

feat(models): Added three new models 3c22497 verified

add 5 models from liquid ai 8eefe94

add smollm2 135m multilingual ac20174 verified

add parser_model_ner_gemma_v0 based on gemma 3 370m it bc1bd75 verified

Add Gemma-3-270m Taiwan 74c66e7 verified

add gemma-3-270m-it 3995aec

remove prevously added breeze models (as it didn't work), add smollm 135m taiwan b3fd72e

add breeze models 88f3bc6

add 3 sub-1B TW models from ShengweiPeng ddfffab

add Qwen2.5-Taiwan-3B-Reason-GRPO & Llama-3.2-Taiwan-1B f82b9e0

disable cache for better compability ea7c44f

make qwen2.5-taiwan 1.5b the default 493107e

Update requirements.txt

4d2c362
verified

Update requirements.txt

48d806a
verified

Add dynamic GPU time estimate indicator to UI

fc989b4

Improve model size detection: replace ad-hoc string parsing with reliable params_b field in MODELS dict

ab92e0d

Add qwen 80b-a3b

8cdf3e1

Set better defaults for free-tier users: Qwen3-1.7B model, 1024 max tokens, search disabled

2cae073

Adjust duration estimation for H200 performance - reduce conservative estimates

de766da

Use actual parameter count for AOT decision instead of string matching

e3e334f

Make AOT compilation conditional for models >= 2B parameters to optimize free tier usage

4500f92

Add AOT compilation optimization for ZeroGPU acceleration

a7866ff

add 4 20b+ models after enabling dynamic gpu duration

fea2910
verified

Add dynamic duration calculation for ZeroGPU acceleration

6073cc2

make qwen-4b default

d3726c6
verified

disable two models that cannot run or too run too slowly on hf spaces with zerogpu

3dc7ced

Update app.py

f1fa55c
verified

Update app.py

f07d6ab
verified

Update app.py

0992852
verified

add original apriel 15b

2b25033
verified

use apriel 8bit

a4681bd
verified

run Apriel on 4bit

2cadf8a
verified

Add Apriel-1.5-15b-Thinker

3665b54
verified

Update app.py

7f654b2
verified

Update app.py

15b78c7
verified

Update requirements.txt

4addcb2
verified

Update requirements.txt

49c0c5a
verified

Update requirements.txt

831c9e8
verified

Update app.py

7356fa6
verified

add 4 models from qwen3 family

048cfc4
verified

add qwen3 32b awq

b9efb74
verified

Update app.py

5e03586
verified

Update README.md

c6e816c
verified

Update requirements.txt

ff4ad1d
verified

Update app.py

e5a1663
verified

Update app.py

de64679
verified

Update app.py

4418827
verified

Update app.py

f2f4310
verified

Update app.py

42db70b
verified

feat(models): add Granite-4.0-Micro and Qwen3-4B-Instruct-2507 to MODELS registry

c30a7f7
verified

feat(models): Added three new models

3c22497
verified

add 5 models from liquid ai

8eefe94

add smollm2 135m multilingual

ac20174
verified

add parser_model_ner_gemma_v0 based on gemma 3 370m it

bc1bd75
verified

Add Gemma-3-270m Taiwan

74c66e7
verified

add gemma-3-270m-it

3995aec

remove prevously added breeze models (as it didn't work), add smollm 135m taiwan

b3fd72e

add breeze models

88f3bc6

add 3 sub-1B TW models from ShengweiPeng

ddfffab

add Qwen2.5-Taiwan-3B-Reason-GRPO & Llama-3.2-Taiwan-1B

f82b9e0

disable cache for better compability

ea7c44f

make qwen2.5-taiwan 1.5b the default

493107e