Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

krishnateja95 updated a model about 4 hours ago

inference-optimization/granite-4.0-h-tiny-quantized.w8a8

krishnateja95 updated a model about 9 hours ago

inference-optimization/granite-4.0-h-tiny-NVFP4

krishnateja95 updated a model about 11 hours ago

inference-optimization/granite-4.0-h-tiny-quantized.w4a16

View all activity

inference-optimization 's models 53

inference-optimization/granite-4.0-h-tiny-quantized.w8a8

7B • Updated about 4 hours ago

inference-optimization/granite-4.0-h-tiny-NVFP4

Updated about 9 hours ago

inference-optimization/granite-4.0-h-tiny-quantized.w4a16

Updated about 11 hours ago

inference-optimization/Ministral-3-14B-Instruct-2512-BF16-FP8-DYNAMIC-BASE

14B • Updated about 13 hours ago

inference-optimization/Qwen3-30B-A3B-Instruct-2507.w8a8

31B • Updated 1 day ago • 20

inference-optimization/Qwen3-30B-A3B-Thinking-2507.w8a8

31B • Updated 1 day ago • 24

inference-optimization/Qwen3-4B-Thinking-2507.w8a8

4B • Updated 1 day ago • 38

inference-optimization/Qwen3-4B-Instruct-2507.w8a8

4B • Updated 1 day ago • 28

inference-optimization/Ministral-3-14B-Instruct-2512-FP8

14B • Updated 3 days ago • 52

inference-optimization/granite-4.0-h-small-quantized.w8a8

Updated 4 days ago

inference-optimization/granite-4.0-h-small-NVFP4

Updated 4 days ago

inference-optimization/granite-4.0-h-small-quantized.w4a16

Updated 4 days ago

inference-optimization/granite-4.0-h-small-FP8-dynamic

Updated 4 days ago

inference-optimization/granite-4.0-h-small-FP8-block

Updated 4 days ago

inference-optimization/granite-4.0-h-tiny-FP8-dynamic

Updated 4 days ago

inference-optimization/granite-4.0-h-tiny-FP8-block

Updated 4 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

18B • Updated 8 days ago • 154

inference-optimization/GLM-4.6-quantized.w4a16

48B • Updated 9 days ago • 56

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8

Text Generation • 32B • Updated 13 days ago • 6

inference-optimization/Qwen3-Next-80B-A3B-Thinking-FP8

Text Generation • 81B • Updated 13 days ago • 5

inference-optimization/Qwen3-Next-80B-A3B-Instruct-FP8

Text Generation • 81B • Updated 13 days ago • 12

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-quantized.w4a16

6B • Updated 16 days ago • 40

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8-dynamic

32B • Updated 17 days ago • 216

inference-optimization/Qwen3-Next-80B-A3B-Thinking-quantized.w8a8

Updated 29 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8-block

Updated Dec 22, 2025

inference-optimization/GLM-4.6-quantized.w8a8

353B • Updated Dec 21, 2025 • 19

inference-optimization/Qwen3-30B-A3B-Thinking-2507.w4a16

Text Generation • 5B • Updated Dec 19, 2025 • 3

inference-optimization/Qwen3-4B-Instruct-2507.w4a16

Text Generation • 1B • Updated Dec 19, 2025 • 6

inference-optimization/Qwen3-4B-Thinking-2507.w4a16

Text Generation • 1B • Updated Dec 19, 2025 • 51

inference-optimization/GLM-4.6-FP8-dynamic

353B • Updated Dec 12, 2025 • 19