Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

ChibuUkachi updated a model 2 days ago

inference-optimization/Ministral-3-14B-Instruct-2512-FP8-dynamic

ChibuUkachi updated a model 3 days ago

inference-optimization/Ministral-3-14B-Instruct-2512.w8a8

ChibuUkachi published a model 3 days ago

inference-optimization/Ministral-3-14B-Instruct-2512.w8a8

View all activity

inference-optimization 's models 80

inference-optimization/granite-4.0-h-tiny-FP8-block

Text Generation • 7B • Updated 15 days ago • 109

inference-optimization/granite-4.0-h-tiny-quantized.w8a8

7B • Updated 15 days ago • 55

inference-optimization/granite-4.0-h-tiny-NVFP4

Updated 16 days ago • 9

inference-optimization/granite-4.0-h-tiny-quantized.w4a16

Updated 16 days ago • 42

inference-optimization/Qwen3-30B-A3B-Instruct-2507.w8a8

31B • Updated 17 days ago • 27

inference-optimization/Qwen3-30B-A3B-Thinking-2507.w8a8

31B • Updated 17 days ago • 28

inference-optimization/Qwen3-4B-Thinking-2507.w8a8

4B • Updated 17 days ago • 39

inference-optimization/Qwen3-4B-Instruct-2507.w8a8

4B • Updated 17 days ago • 31

inference-optimization/granite-4.0-h-small-quantized.w8a8

Updated 20 days ago

inference-optimization/granite-4.0-h-small-NVFP4

Updated 20 days ago

inference-optimization/granite-4.0-h-small-quantized.w4a16

Updated 20 days ago

inference-optimization/granite-4.0-h-small-FP8-dynamic

Updated 20 days ago

inference-optimization/granite-4.0-h-small-FP8-block

Updated 20 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

18B • Updated 24 days ago • 174

inference-optimization/GLM-4.6-quantized.w4a16

48B • Updated 25 days ago • 75

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8

Text Generation • 32B • Updated 29 days ago • 492

inference-optimization/Qwen3-Next-80B-A3B-Thinking-FP8

Text Generation • 81B • Updated 29 days ago • 7

inference-optimization/Qwen3-Next-80B-A3B-Instruct-FP8

Text Generation • 81B • Updated 29 days ago • 12

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-quantized.w4a16

6B • Updated Jan 7 • 60

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8-dynamic

32B • Updated Jan 6 • 149

inference-optimization/Qwen3-Next-80B-A3B-Thinking-quantized.w8a8

Updated Dec 24, 2025

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8-block

Updated Dec 22, 2025

inference-optimization/GLM-4.6-quantized.w8a8

353B • Updated Dec 21, 2025 • 18

inference-optimization/Qwen3-30B-A3B-Thinking-2507.w4a16

Text Generation • 5B • Updated Dec 19, 2025 • 3

inference-optimization/Qwen3-4B-Instruct-2507.w4a16

Text Generation • 1B • Updated Dec 19, 2025 • 3

inference-optimization/Qwen3-4B-Thinking-2507.w4a16

Text Generation • 1B • Updated Dec 19, 2025 • 7

inference-optimization/GLM-4.6-FP8-dynamic

353B • Updated Dec 12, 2025 • 17

inference-optimization/GLM-4.6-NVFP4

199B • Updated Dec 12, 2025 • 48

inference-optimization/Llama-3.1-8B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Head

8B • Updated Dec 11, 2025 • 1

inference-optimization/Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Head

8B • Updated Dec 10, 2025 • 3