Update TI2V-5B q8 package to current mixed q8/BF16 policy

Browse files

Files changed (7) hide show

README.md +13 -9
transformer/0.safetensors +2 -2
transformer/1.safetensors +2 -2
transformer/2.safetensors +2 -2
transformer/model.safetensors.index.json +34 -46
vae/0.safetensors +2 -2
vae/model.safetensors.index.json +7 -7

README.md CHANGED Viewed

@@ -51,13 +51,14 @@ weights at BF16 runtime precision.
 Measured on 2026-06-04 with `mlx-gen 0.18.10` on an Apple M5 Max with 128 GiB unified memory.
 Validation profile: `1280x704`, 17 frames, 20 denoising steps, guidance `5`, 24 fps, seed `321`,
-explicit empty negative prompt.
-| Layout | Storage | Logical Model | Full-Process Physical Peak | Max RSS | MLX Peak | Total Time | Output |
-| --- | ---: | ---: | ---: | ---: | ---: | ---: | --- |
-| Upstream source snapshot | 31.9 GiB | 10.6 GiB | 102.7 GiB | 13.7 GiB | 58.5 GiB | 216.2 s | [base-source.mp4](validation/ti2v5b-clean/base-source.mp4) |
-| Prepared BF16 package | 21.2 GiB | 10.6 GiB | 102.6 GiB | 14.5 GiB | 58.5 GiB | 261.6 s | [prepared-bf16.mp4](validation/ti2v5b-clean/prepared-bf16.mp4) |
-| This mixed q8/BF16 package | 16.9 GiB | 6.3 GiB | 103.7 GiB | 13.8 GiB | 54.2 GiB | 243.4 s | [mixed-q8-bf16.mp4](validation/ti2v5b-clean/mixed-q8-bf16.mp4) |
 This package reduces storage, logical model bytes, active MLX model bytes, and MLX allocator peak in
 the validation profile. It did not reduce full-process physical peak memory in this profile because
@@ -66,9 +67,12 @@ transient video-generation allocations dominated the run.
 The source and prepared BF16 package produced byte-identical decoded MP4 frames. This mixed q8/BF16
 package stayed visually in the same family with mean frame MAE `1.66` versus source/BF16.
-`Storage` is the Hugging Face repository total. `Logical Model` is the loaded Wan transformer plus
-VAE tensor footprint measured from MLX arrays. `Full-Process Physical Peak` is Darwin
-`phys_footprint` sampled from model initialization through MP4 save and health validation.
 Validation assets:

 Measured on 2026-06-04 with `mlx-gen 0.18.10` on an Apple M5 Max with 128 GiB unified memory.
 Validation profile: `1280x704`, 17 frames, 20 denoising steps, guidance `5`, 24 fps, seed `321`,
+explicit empty negative prompt. This is a large normal-cache profile, not a `--low-ram` profile and
+not comparable to the A14B short low-RAM rows as a model-size memory statement.
+| Layout | Storage | Wan MLX Model | MLX Active After Generation | Full-Process Physical Peak | Max RSS | MLX Peak | Total Time | Output |
+| --- | ---: | ---: | ---: | ---: | ---: | ---: | ---: | --- |
+| Upstream source snapshot | 31.9 GiB | 10.6 GiB | 10.3 GiB | 102.7 GiB | 13.7 GiB | 58.5 GiB | 216.2 s | [base-source.mp4](validation/ti2v5b-clean/base-source.mp4) |
+| Prepared BF16 package | 21.2 GiB | 10.6 GiB | 10.3 GiB | 102.6 GiB | 14.5 GiB | 58.5 GiB | 261.6 s | [prepared-bf16.mp4](validation/ti2v5b-clean/prepared-bf16.mp4) |
+| This mixed q8/BF16 package | 16.9 GiB | 6.3 GiB | 6.1 GiB | 103.7 GiB | 13.8 GiB | 54.2 GiB | 243.4 s | [mixed-q8-bf16.mp4](validation/ti2v5b-clean/mixed-q8-bf16.mp4) |
 This package reduces storage, logical model bytes, active MLX model bytes, and MLX allocator peak in
 the validation profile. It did not reduce full-process physical peak memory in this profile because
 The source and prepared BF16 package produced byte-identical decoded MP4 frames. This mixed q8/BF16
 package stayed visually in the same family with mean frame MAE `1.66` versus source/BF16.
+`Storage` is the Hugging Face repository total. `Wan MLX Model` is the loaded Wan transformer plus
+VAE tensor footprint measured from MLX arrays; it excludes the UMT5 text encoder and video/save
+buffers. `MLX Active After Generation` is the live MLX allocator footprint after `generate_video()`
+returns, before cleanup. `Full-Process Physical Peak` is Darwin `phys_footprint` sampled from model
+initialization through MP4 save and health validation. `Max RSS` can under-report Apple
+unified-memory/Metal pressure, and `MLX Peak` is only the MLX allocator high-water mark.
 Validation assets:

transformer/0.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba9f08cfc6b9e245483c0d91ee5088205f7ceaa302f3326c5e29b3c831b02b97
-size 2137450610

 version https://git-lfs.github.com/spec/v1
+oid sha256:3252d7ac118bc33774e11dee2fef4c2ff6e9a5b302348b860318488db51473d7
+size 2143814575

transformer/1.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16b8e7120b9ba90bc1976fd16bdb88b1a09f002f429bc5e8f335845ff10a4a49
-size 2144437513

 version https://git-lfs.github.com/spec/v1
+oid sha256:113895039a17b78f4cfc408b75c5b90799de573ace006df7638182f8d488629d
+size 2117693374

transformer/2.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da4867a6c46f7fa1f6dcd2642ae2a7bb9520759bd56a2ed09396266322446d9f
-size 1034389766

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d03bae2c8a838a77f0d648b8d0c21799cefe5a7b19a3fc65c8e000bce927d3d
+size 1138634137

transformer/model.safetensors.index.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "metadata": {
     "quantization_level": "8",
-    "mflux_version": "0.18.6"
   },
   "weight_map": {
     "rope.freqs_cos": "0.safetensors",
@@ -9,24 +9,14 @@
     "patch_embedding.weight": "0.safetensors",
     "patch_embedding.bias": "0.safetensors",
     "condition_embedder.time_embedder.linear_1.weight": "0.safetensors",
-    "condition_embedder.time_embedder.linear_1.scales": "0.safetensors",
-    "condition_embedder.time_embedder.linear_1.biases": "0.safetensors",
     "condition_embedder.time_embedder.linear_1.bias": "0.safetensors",
     "condition_embedder.time_embedder.linear_2.weight": "0.safetensors",
-    "condition_embedder.time_embedder.linear_2.scales": "0.safetensors",
-    "condition_embedder.time_embedder.linear_2.biases": "0.safetensors",
     "condition_embedder.time_embedder.linear_2.bias": "0.safetensors",
     "condition_embedder.time_proj.weight": "0.safetensors",
-    "condition_embedder.time_proj.scales": "0.safetensors",
-    "condition_embedder.time_proj.biases": "0.safetensors",
     "condition_embedder.time_proj.bias": "0.safetensors",
     "condition_embedder.text_embedder.linear_1.weight": "0.safetensors",
-    "condition_embedder.text_embedder.linear_1.scales": "0.safetensors",
-    "condition_embedder.text_embedder.linear_1.biases": "0.safetensors",
     "condition_embedder.text_embedder.linear_1.bias": "0.safetensors",
     "condition_embedder.text_embedder.linear_2.weight": "0.safetensors",
-    "condition_embedder.text_embedder.linear_2.scales": "0.safetensors",
-    "condition_embedder.text_embedder.linear_2.biases": "0.safetensors",
     "condition_embedder.text_embedder.linear_2.bias": "0.safetensors",
     "blocks.0.attn1.to_q.weight": "0.safetensors",
     "blocks.0.attn1.to_q.scales": "0.safetensors",
@@ -567,26 +557,26 @@
     "blocks.11.attn2.to_q.scales": "0.safetensors",
     "blocks.11.attn2.to_q.biases": "0.safetensors",
     "blocks.11.attn2.to_q.bias": "0.safetensors",
-    "blocks.11.attn2.to_k.weight": "0.safetensors",
-    "blocks.11.attn2.to_k.scales": "0.safetensors",
-    "blocks.11.attn2.to_k.biases": "0.safetensors",
-    "blocks.11.attn2.to_k.bias": "0.safetensors",
-    "blocks.11.attn2.to_v.weight": "0.safetensors",
-    "blocks.11.attn2.to_v.scales": "0.safetensors",
-    "blocks.11.attn2.to_v.biases": "0.safetensors",
-    "blocks.11.attn2.to_v.bias": "0.safetensors",
-    "blocks.11.attn2.to_out.0.weight": "0.safetensors",
-    "blocks.11.attn2.to_out.0.scales": "0.safetensors",
-    "blocks.11.attn2.to_out.0.biases": "0.safetensors",
-    "blocks.11.attn2.to_out.0.bias": "0.safetensors",
-    "blocks.11.attn2.norm_q.weight": "0.safetensors",
-    "blocks.11.attn2.norm_k.weight": "0.safetensors",
-    "blocks.11.norm2.weight": "0.safetensors",
-    "blocks.11.norm2.bias": "0.safetensors",
-    "blocks.11.ffn.net.0.weight": "0.safetensors",
-    "blocks.11.ffn.net.0.scales": "0.safetensors",
-    "blocks.11.ffn.net.0.biases": "0.safetensors",
-    "blocks.11.ffn.net.0.bias": "0.safetensors",
     "blocks.11.ffn.net.1.weight": "1.safetensors",
     "blocks.11.ffn.net.1.scales": "1.safetensors",
     "blocks.11.ffn.net.1.biases": "1.safetensors",
@@ -1147,19 +1137,19 @@
     "blocks.23.attn2.norm_k.weight": "1.safetensors",
     "blocks.23.norm2.weight": "1.safetensors",
     "blocks.23.norm2.bias": "1.safetensors",
-    "blocks.23.ffn.net.0.weight": "1.safetensors",
-    "blocks.23.ffn.net.0.scales": "1.safetensors",
-    "blocks.23.ffn.net.0.biases": "1.safetensors",
-    "blocks.23.ffn.net.0.bias": "1.safetensors",
-    "blocks.23.ffn.net.1.weight": "1.safetensors",
-    "blocks.23.ffn.net.1.scales": "1.safetensors",
-    "blocks.23.ffn.net.1.biases": "1.safetensors",
-    "blocks.23.ffn.net.1.bias": "1.safetensors",
-    "blocks.23.scale_shift_table": "1.safetensors",
-    "blocks.24.attn1.to_q.weight": "1.safetensors",
-    "blocks.24.attn1.to_q.scales": "1.safetensors",
-    "blocks.24.attn1.to_q.biases": "1.safetensors",
-    "blocks.24.attn1.to_q.bias": "1.safetensors",
     "blocks.24.attn1.to_k.weight": "2.safetensors",
     "blocks.24.attn1.to_k.scales": "2.safetensors",
     "blocks.24.attn1.to_k.biases": "2.safetensors",
@@ -1439,8 +1429,6 @@
     "blocks.29.ffn.net.1.bias": "2.safetensors",
     "blocks.29.scale_shift_table": "2.safetensors",
     "proj_out.weight": "2.safetensors",
-    "proj_out.scales": "2.safetensors",
-    "proj_out.biases": "2.safetensors",
     "proj_out.bias": "2.safetensors",
     "scale_shift_table": "2.safetensors"
   }

 {
   "metadata": {
     "quantization_level": "8",
+    "mflux_version": "0.18.9"
   },
   "weight_map": {
     "rope.freqs_cos": "0.safetensors",
     "patch_embedding.weight": "0.safetensors",
     "patch_embedding.bias": "0.safetensors",
     "condition_embedder.time_embedder.linear_1.weight": "0.safetensors",
     "condition_embedder.time_embedder.linear_1.bias": "0.safetensors",
     "condition_embedder.time_embedder.linear_2.weight": "0.safetensors",
     "condition_embedder.time_embedder.linear_2.bias": "0.safetensors",
     "condition_embedder.time_proj.weight": "0.safetensors",
     "condition_embedder.time_proj.bias": "0.safetensors",
     "condition_embedder.text_embedder.linear_1.weight": "0.safetensors",
     "condition_embedder.text_embedder.linear_1.bias": "0.safetensors",
     "condition_embedder.text_embedder.linear_2.weight": "0.safetensors",
     "condition_embedder.text_embedder.linear_2.bias": "0.safetensors",
     "blocks.0.attn1.to_q.weight": "0.safetensors",
     "blocks.0.attn1.to_q.scales": "0.safetensors",
     "blocks.11.attn2.to_q.scales": "0.safetensors",
     "blocks.11.attn2.to_q.biases": "0.safetensors",
     "blocks.11.attn2.to_q.bias": "0.safetensors",
+    "blocks.11.attn2.to_k.weight": "1.safetensors",
+    "blocks.11.attn2.to_k.scales": "1.safetensors",
+    "blocks.11.attn2.to_k.biases": "1.safetensors",
+    "blocks.11.attn2.to_k.bias": "1.safetensors",
+    "blocks.11.attn2.to_v.weight": "1.safetensors",
+    "blocks.11.attn2.to_v.scales": "1.safetensors",
+    "blocks.11.attn2.to_v.biases": "1.safetensors",
+    "blocks.11.attn2.to_v.bias": "1.safetensors",
+    "blocks.11.attn2.to_out.0.weight": "1.safetensors",
+    "blocks.11.attn2.to_out.0.scales": "1.safetensors",
+    "blocks.11.attn2.to_out.0.biases": "1.safetensors",
+    "blocks.11.attn2.to_out.0.bias": "1.safetensors",
+    "blocks.11.attn2.norm_q.weight": "1.safetensors",
+    "blocks.11.attn2.norm_k.weight": "1.safetensors",
+    "blocks.11.norm2.weight": "1.safetensors",
+    "blocks.11.norm2.bias": "1.safetensors",
+    "blocks.11.ffn.net.0.weight": "1.safetensors",
+    "blocks.11.ffn.net.0.scales": "1.safetensors",
+    "blocks.11.ffn.net.0.biases": "1.safetensors",
+    "blocks.11.ffn.net.0.bias": "1.safetensors",
     "blocks.11.ffn.net.1.weight": "1.safetensors",
     "blocks.11.ffn.net.1.scales": "1.safetensors",
     "blocks.11.ffn.net.1.biases": "1.safetensors",
     "blocks.23.attn2.norm_k.weight": "1.safetensors",
     "blocks.23.norm2.weight": "1.safetensors",
     "blocks.23.norm2.bias": "1.safetensors",
+    "blocks.23.ffn.net.0.weight": "2.safetensors",
+    "blocks.23.ffn.net.0.scales": "2.safetensors",
+    "blocks.23.ffn.net.0.biases": "2.safetensors",
+    "blocks.23.ffn.net.0.bias": "2.safetensors",
+    "blocks.23.ffn.net.1.weight": "2.safetensors",
+    "blocks.23.ffn.net.1.scales": "2.safetensors",
+    "blocks.23.ffn.net.1.biases": "2.safetensors",
+    "blocks.23.ffn.net.1.bias": "2.safetensors",
+    "blocks.23.scale_shift_table": "2.safetensors",
+    "blocks.24.attn1.to_q.weight": "2.safetensors",
+    "blocks.24.attn1.to_q.scales": "2.safetensors",
+    "blocks.24.attn1.to_q.biases": "2.safetensors",
+    "blocks.24.attn1.to_q.bias": "2.safetensors",
     "blocks.24.attn1.to_k.weight": "2.safetensors",
     "blocks.24.attn1.to_k.scales": "2.safetensors",
     "blocks.24.attn1.to_k.biases": "2.safetensors",
     "blocks.29.ffn.net.1.bias": "2.safetensors",
     "blocks.29.scale_shift_table": "2.safetensors",
     "proj_out.weight": "2.safetensors",
     "proj_out.bias": "2.safetensors",
     "scale_shift_table": "2.safetensors"
   }

vae/0.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5de7cc01b4737345a64908c281a46b95a1b5a97ef0942f60df6ff1c7e851beb
-size 1409401417

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ba84d3014ef6a77ebdbbdc16c339054bdb298c37a992f0f3926fe6c5d6d4769
+size 1409401388

vae/model.safetensors.index.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "metadata": {
-    "quantization_level": "8",
-    "mflux_version": "0.18.6"
   },
   "weight_map": {
     "encoder.conv_in.conv3d.weight": "0.safetensors",
@@ -88,10 +88,6 @@
     "encoder.norm_out.weight": "0.safetensors",
     "encoder.conv_out.conv3d.weight": "0.safetensors",
     "encoder.conv_out.conv3d.bias": "0.safetensors",
-    "quant_conv.conv3d.weight": "0.safetensors",
-    "quant_conv.conv3d.bias": "0.safetensors",
-    "post_quant_conv.conv3d.weight": "0.safetensors",
-    "post_quant_conv.conv3d.bias": "0.safetensors",
     "decoder.conv_in.conv3d.weight": "0.safetensors",
     "decoder.conv_in.conv3d.bias": "0.safetensors",
     "decoder.mid_block.resnets.0.norm1.weight": "0.safetensors",
@@ -199,6 +195,10 @@
     "decoder.up_blocks.3.resnets.2.conv2.conv3d.bias": "0.safetensors",
     "decoder.norm_out.weight": "0.safetensors",
     "decoder.conv_out.conv3d.weight": "0.safetensors",
-    "decoder.conv_out.conv3d.bias": "0.safetensors"
   }
 }

 {
   "metadata": {
+    "quantization_level": "None",
+    "mflux_version": "0.18.9"
   },
   "weight_map": {
     "encoder.conv_in.conv3d.weight": "0.safetensors",
     "encoder.norm_out.weight": "0.safetensors",
     "encoder.conv_out.conv3d.weight": "0.safetensors",
     "encoder.conv_out.conv3d.bias": "0.safetensors",
     "decoder.conv_in.conv3d.weight": "0.safetensors",
     "decoder.conv_in.conv3d.bias": "0.safetensors",
     "decoder.mid_block.resnets.0.norm1.weight": "0.safetensors",
     "decoder.up_blocks.3.resnets.2.conv2.conv3d.bias": "0.safetensors",
     "decoder.norm_out.weight": "0.safetensors",
     "decoder.conv_out.conv3d.weight": "0.safetensors",
+    "decoder.conv_out.conv3d.bias": "0.safetensors",
+    "quant_conv.conv3d.weight": "0.safetensors",
+    "quant_conv.conv3d.bias": "0.safetensors",
+    "post_quant_conv.conv3d.weight": "0.safetensors",
+    "post_quant_conv.conv3d.bias": "0.safetensors"
   }
 }