Spaces:

gpu2grid
/

live

Running

App Files Files Community

github-actions[bot] commited on 8 days ago

Commit

b598e06

1 Parent(s): e83942e

deploy: sync from GitHub 2026-05-13T22:41:47Z

Browse files

Files changed (25) hide show

data/specs/2e756e9e0a2d417e/_manifest.json +40 -0
data/specs/2e756e9e0a2d417e/itl_fit.json +96 -0
data/specs/2e756e9e0a2d417e/logistic_fit.json +22 -0
data/specs/2e756e9e0a2d417e/trace.csv +0 -0
data/specs/4925acb216d43131/_manifest.json +40 -0
data/specs/4925acb216d43131/itl_fit.json +96 -0
data/specs/4925acb216d43131/logistic_fit.json +22 -0
data/specs/4925acb216d43131/trace.csv +0 -0
data/specs/73691f793f6be469/_manifest.json +44 -0
data/specs/73691f793f6be469/itl_fit.json +132 -0
data/specs/73691f793f6be469/logistic_fit.json +22 -0
data/specs/73691f793f6be469/trace.csv +0 -0
data/specs/860654eabd3dfebf/_manifest.json +40 -0
data/specs/860654eabd3dfebf/itl_fit.json +96 -0
data/specs/860654eabd3dfebf/logistic_fit.json +22 -0
data/specs/860654eabd3dfebf/trace.csv +0 -0
data/specs/bc0bde304544a603/_manifest.json +42 -0
data/specs/bc0bde304544a603/itl_fit.json +114 -0
data/specs/bc0bde304544a603/logistic_fit.json +22 -0
data/specs/bc0bde304544a603/trace.csv +0 -0
data/specs/traces_summary.csv +36 -0
data/specs/training_trace.csv +0 -0
examples/offline/config.json +37 -23
requirements.txt +2 -0
server.py +235 -77

data/specs/2e756e9e0a2d417e/_manifest.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "mlenergy_data_version": "0.4.0",
+  "openg2g_version": "0.2.0.post1",
+  "schema_version": 3,
+  "spec": {
+    "batch_sizes": [
+      8,
+      16,
+      32,
+      64,
+      96,
+      128,
+      192,
+      256,
+      384,
+      512
+    ],
+    "expert_parallel": 1,
+    "feasible_batch_sizes": [
+      8,
+      16,
+      32,
+      64,
+      128,
+      256,
+      512
+    ],
+    "fit_exclude_batch_sizes": [],
+    "gpu_model": "H100",
+    "gpus_per_replica": 8,
+    "itl_deadline_s": 0.14,
+    "model_id": "Qwen/Qwen3-235B-A22B-Thinking-2507",
+    "model_label": "Qwen3-235B-A22B",
+    "precision": "bfloat16",
+    "task": "gpqa",
+    "tensor_parallel": 8
+  },
+  "spec_hash": "2e756e9e0a2d417e",
+  "written_utc": "2026-05-13T19:50:49+00:00"
+}

data/specs/2e756e9e0a2d417e/itl_fit.json ADDED Viewed

	@@ -0,0 +1,96 @@

+{
+  "model_label": "Qwen3-235B-A22B",
+  "per_batch": {
+    "128": {
+      "loc": 0.013250339005364572,
+      "pi_stall": 0.9173336260689986,
+      "pi_steady": 0.0826663739310014,
+      "scale_stall": 0.026592548144528116,
+      "scale_steady": 0.010186920973940559,
+      "sigma_stall": 0.1192887538283944,
+      "sigma_steady": 1.4754674804724548
+    },
+    "16": {
+      "loc": 0.012917142001581146,
+      "pi_stall": 0.9679024411455602,
+      "pi_steady": 0.03209755885443977,
+      "scale_stall": 0.011944872620218289,
+      "scale_steady": 0.010055679342980215,
+      "sigma_stall": 0.06668499474004932,
+      "sigma_steady": 0.3364193391214592
+    },
+    "192": {
+      "loc": 0.013189563986427151,
+      "pi_stall": 0.9731451222965651,
+      "pi_steady": 0.026854877703434865,
+      "scale_stall": 0.02687676804506179,
+      "scale_steady": 0.018437463794844785,
+      "sigma_stall": 0.1420087680700662,
+      "sigma_steady": 2.5037616364005233
+    },
+    "256": {
+      "loc": 0.01325633499834314,
+      "pi_stall": 0.2520610216205986,
+      "pi_steady": 0.7479389783794014,
+      "scale_stall": 0.028301520442211254,
+      "scale_steady": 0.025729232489331608,
+      "sigma_stall": 0.5252417168242823,
+      "sigma_steady": 0.07938870914892968
+    },
+    "32": {
+      "loc": 0.013021193001233973,
+      "pi_stall": 0.9124702204373671,
+      "pi_steady": 0.08752977956263286,
+      "scale_stall": 0.02038829931099621,
+      "scale_steady": 0.012894545131554781,
+      "sigma_stall": 0.05215477595544453,
+      "sigma_steady": 0.3888129537458069
+    },
+    "384": {
+      "loc": 0.013478797999025323,
+      "pi_stall": 0.2220717676647871,
+      "pi_steady": 0.7779282323352129,
+      "scale_stall": 0.033227654127086725,
+      "scale_steady": 0.024930327834188436,
+      "sigma_stall": 0.7095586536822586,
+      "sigma_steady": 0.09695357279523584
+    },
+    "512": {
+      "loc": 0.013146029007086531,
+      "pi_stall": 0.17758013619796087,
+      "pi_steady": 0.8224198638020391,
+      "scale_stall": 0.03455616392329533,
+      "scale_steady": 0.024200569803794394,
+      "sigma_stall": 0.7204206877666427,
+      "sigma_steady": 0.09983052036261611
+    },
+    "64": {
+      "loc": 0.013067278996797745,
+      "pi_stall": 0.9183472954770104,
+      "pi_steady": 0.08165270452298956,
+      "scale_stall": 0.02541259423220897,
+      "scale_steady": 0.013607592085388696,
+      "sigma_stall": 0.08662948392900281,
+      "sigma_steady": 1.1879848722617707
+    },
+    "8": {
+      "loc": 0.013058345998044592,
+      "pi_stall": 0.9313422909338545,
+      "pi_steady": 0.06865770906614554,
+      "scale_stall": 0.007196610201069568,
+      "scale_steady": 0.00519407736027536,
+      "sigma_stall": 0.08145564694748231,
+      "sigma_steady": 0.2964711653438411
+    },
+    "96": {
+      "loc": 0.014793187001825777,
+      "pi_stall": 0.8434947366701049,
+      "pi_steady": 0.15650526332989512,
+      "scale_stall": 0.024908395671325943,
+      "scale_steady": 0.015913317708739556,
+      "sigma_stall": 0.08592049198306687,
+      "sigma_steady": 0.5909612329674692
+    }
+  },
+  "schema": "itl_fit.lognormal_mixture_2"
+}

data/specs/2e756e9e0a2d417e/logistic_fit.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "latency": {
+    "L": 0.672333808351321,
+    "b0": 0.025327222690596844,
+    "k": 0.9249147277217336,
+    "x0": 10.0
+  },
+  "model_label": "Qwen3-235B-A22B",
+  "power": {
+    "L": 1130.4391558531665,
+    "b0": 2551.5754923889053,
+    "k": 1.2638482029342986,
+    "x0": 3.846153846153846
+  },
+  "schema": "logistic_v1",
+  "throughput": {
+    "L": 1400.9050260569725,
+    "b0": 102.09644698524227,
+    "k": 0.9249147277217336,
+    "x0": 4.461538461538462
+  }
+}

data/specs/2e756e9e0a2d417e/trace.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

data/specs/4925acb216d43131/_manifest.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "mlenergy_data_version": "0.4.0",
+  "openg2g_version": "0.2.0.post1",
+  "schema_version": 3,
+  "spec": {
+    "batch_sizes": [
+      8,
+      16,
+      32,
+      64,
+      96,
+      128,
+      192,
+      256,
+      384,
+      512
+    ],
+    "expert_parallel": 1,
+    "feasible_batch_sizes": [
+      8,
+      16,
+      32,
+      64,
+      128,
+      256,
+      512
+    ],
+    "fit_exclude_batch_sizes": [],
+    "gpu_model": "H100",
+    "gpus_per_replica": 8,
+    "itl_deadline_s": 0.12,
+    "model_id": "meta-llama/Llama-3.1-405B-Instruct-FP8",
+    "model_label": "Llama-3.1-405B",
+    "precision": "fp8",
+    "task": "lm-arena-chat",
+    "tensor_parallel": 8
+  },
+  "spec_hash": "4925acb216d43131",
+  "written_utc": "2026-05-13T19:50:49+00:00"
+}

data/specs/4925acb216d43131/itl_fit.json ADDED Viewed

	@@ -0,0 +1,96 @@

+{
+  "model_label": "Llama-3.1-405B",
+  "per_batch": {
+    "128": {
+      "loc": 0.03008249612355232,
+      "pi_stall": 0.3839287952895576,
+      "pi_steady": 0.6160712047104424,
+      "scale_stall": 0.030214832869952784,
+      "scale_steady": 0.01777233734505344,
+      "sigma_stall": 1.2206296529153282,
+      "sigma_steady": 0.05
+    },
+    "16": {
+      "loc": 0.024713983999729155,
+      "pi_stall": 0.05360691147049179,
+      "pi_steady": 0.9463930885295082,
+      "scale_stall": 0.023448181502284848,
+      "scale_steady": 0.009322546786604182,
+      "sigma_stall": 0.995674214634189,
+      "sigma_steady": 0.05
+    },
+    "192": {
+      "loc": 0.030320093276143073,
+      "pi_stall": 0.3323523854706074,
+      "pi_steady": 0.6676476145293926,
+      "scale_stall": 0.041205692039902035,
+      "scale_steady": 0.031746846437682316,
+      "sigma_stall": 1.4276701505839031,
+      "sigma_steady": 0.05
+    },
+    "256": {
+      "loc": 0.030789543183684348,
+      "pi_stall": 0.6349499418714404,
+      "pi_steady": 0.3650500581285596,
+      "scale_stall": 0.04324939305958362,
+      "scale_steady": 0.03573730522680613,
+      "sigma_stall": 0.3721225887337235,
+      "sigma_steady": 1.5919966754869803
+    },
+    "32": {
+      "loc": 0.016498148681759833,
+      "pi_stall": 0.07390731357848579,
+      "pi_steady": 0.9260926864215142,
+      "scale_stall": 0.04555732131859944,
+      "scale_steady": 0.019842170525771235,
+      "sigma_stall": 0.7320543620724521,
+      "sigma_steady": 0.05
+    },
+    "384": {
+      "loc": 0.03019163595342636,
+      "pi_stall": 0.6593984486141276,
+      "pi_steady": 0.34060155138587245,
+      "scale_stall": 0.0597066517568152,
+      "scale_steady": 0.03991190875593972,
+      "sigma_stall": 0.4563966264262895,
+      "sigma_steady": 1.7170985862943504
+    },
+    "512": {
+      "loc": 0.030048940571188926,
+      "pi_stall": 0.3362132870451149,
+      "pi_steady": 0.6637867129548851,
+      "scale_stall": 0.04683803969863319,
+      "scale_steady": 0.044447301633350554,
+      "sigma_stall": 1.9213625679927164,
+      "sigma_steady": 0.4334724494446896
+    },
+    "64": {
+      "loc": 0.03152825334870815,
+      "pi_stall": 0.20700593967800063,
+      "pi_steady": 0.7929940603219994,
+      "scale_stall": 0.019287437563102458,
+      "scale_steady": 0.0076138475784196065,
+      "sigma_stall": 1.323371073182697,
+      "sigma_steady": 0.08253738945931417
+    },
+    "8": {
+      "loc": 0.029814763235092162,
+      "pi_stall": 0.04279942897407696,
+      "pi_steady": 0.957200571025923,
+      "scale_stall": 0.007195773794863316,
+      "scale_steady": 0.0033871174475517797,
+      "sigma_stall": 1.7354345964695308,
+      "sigma_steady": 0.05409894580485472
+    },
+    "96": {
+      "loc": 0.030120123418211936,
+      "pi_stall": 0.2798559198385162,
+      "pi_steady": 0.7201440801614838,
+      "scale_stall": 0.022833854494912858,
+      "scale_steady": 0.013914741048287108,
+      "sigma_stall": 1.2985027758578491,
+      "sigma_steady": 0.05
+    }
+  },
+  "schema": "itl_fit.lognormal_mixture_2"
+}

data/specs/4925acb216d43131/logistic_fit.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "latency": {
+    "L": 0.11093873569263059,
+    "b0": 0.034847828201926605,
+    "k": 1.2638482029342986,
+    "x0": 7.743589743589744
+  },
+  "model_label": "Llama-3.1-405B",
+  "power": {
+    "L": 1824.2431634291524,
+    "b0": 3147.2107548161166,
+    "k": 1.0811807510766078,
+    "x0": 5.692307692307692
+  },
+  "schema": "logistic_v1",
+  "throughput": {
+    "L": 2118.1101549783216,
+    "b0": 231.54554435357053,
+    "k": 1.2638482029342986,
+    "x0": 5.897435897435898
+  }
+}

data/specs/4925acb216d43131/trace.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

data/specs/73691f793f6be469/_manifest.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "mlenergy_data_version": "0.4.0",
+  "openg2g_version": "0.2.0.post1",
+  "schema_version": 3,
+  "spec": {
+    "batch_sizes": [
+      8,
+      16,
+      32,
+      64,
+      96,
+      128,
+      192,
+      256,
+      384,
+      512,
+      768,
+      1024,
+      1536,
+      2048
+    ],
+    "expert_parallel": 1,
+    "feasible_batch_sizes": [
+      8,
+      16,
+      32,
+      64,
+      128,
+      256,
+      512
+    ],
+    "fit_exclude_batch_sizes": [],
+    "gpu_model": "H100",
+    "gpus_per_replica": 4,
+    "itl_deadline_s": 0.1,
+    "model_id": "meta-llama/Llama-3.1-70B-Instruct",
+    "model_label": "Llama-3.1-70B",
+    "precision": "bfloat16",
+    "task": "lm-arena-chat",
+    "tensor_parallel": 4
+  },
+  "spec_hash": "73691f793f6be469",
+  "written_utc": "2026-05-13T19:50:49+00:00"
+}

data/specs/73691f793f6be469/itl_fit.json ADDED Viewed

	@@ -0,0 +1,132 @@

+{
+  "model_label": "Llama-3.1-70B",
+  "per_batch": {
+    "1024": {
+      "loc": 0.016125269474625586,
+      "pi_stall": 0.6504738214326463,
+      "pi_steady": 0.3495261785673537,
+      "scale_stall": 0.09652171767308945,
+      "scale_steady": 0.041688588651955336,
+      "sigma_stall": 0.2462296773360523,
+      "sigma_steady": 1.5217750215970742
+    },
+    "128": {
+      "loc": 0.0022778047790527342,
+      "pi_stall": 0.22124884454952398,
+      "pi_steady": 0.778751155450476,
+      "scale_stall": 0.03383674745941713,
+      "scale_steady": 0.02568463145989505,
+      "sigma_stall": 0.5948150662563634,
+      "sigma_steady": 0.05
+    },
+    "1536": {
+      "loc": 0.016071272963356226,
+      "pi_stall": 0.8076530807526892,
+      "pi_steady": 0.19234691924731084,
+      "scale_stall": 0.089848886853969,
+      "scale_steady": 0.03420538011598045,
+      "sigma_stall": 0.46924205332030033,
+      "sigma_steady": 1.7596491528177638
+    },
+    "16": {
+      "loc": 0.015499197187066079,
+      "pi_stall": 0.08907607653965377,
+      "pi_steady": 0.9109239234603462,
+      "scale_stall": 0.004313043371105469,
+      "scale_steady": 0.0022230910334916296,
+      "sigma_stall": 1.2844234847005134,
+      "sigma_steady": 0.07913035461052097
+    },
+    "192": {
+      "loc": 0.016638526933431624,
+      "pi_stall": 0.38156228653101176,
+      "pi_steady": 0.6184377134689882,
+      "scale_stall": 0.018703032248183576,
+      "scale_steady": 0.01714548617582296,
+      "sigma_stall": 1.5189443495977526,
+      "sigma_steady": 0.10867393985639938
+    },
+    "2048": {
+      "loc": 0.016001691991161554,
+      "pi_stall": 0.8736696701311039,
+      "pi_steady": 0.12633032986889614,
+      "scale_stall": 0.08379097178728898,
+      "scale_steady": 0.03344713394228911,
+      "sigma_stall": 0.565330172781654,
+      "sigma_steady": 1.9824576270857919
+    },
+    "256": {
+      "loc": 0.016839679571032523,
+      "pi_stall": 0.6213219296982286,
+      "pi_steady": 0.37867807030177136,
+      "scale_stall": 0.023516103187706146,
+      "scale_steady": 0.02020604087391179,
+      "sigma_stall": 0.1354246512511205,
+      "sigma_steady": 1.4631774065297862
+    },
+    "32": {
+      "loc": 0.016572259606957435,
+      "pi_stall": 0.09635680905311539,
+      "pi_steady": 0.9036431909468846,
+      "scale_stall": 0.006175543416404281,
+      "scale_steady": 0.0034452728216791523,
+      "sigma_stall": 1.5074175831534309,
+      "sigma_steady": 0.10971052943864357
+    },
+    "384": {
+      "loc": 0.014811257140874863,
+      "pi_stall": 0.4531974533289852,
+      "pi_steady": 0.5468025466710148,
+      "scale_stall": 0.04197168592710718,
+      "scale_steady": 0.02986712173327284,
+      "sigma_stall": 0.11177738517749303,
+      "sigma_steady": 1.1391787357157586
+    },
+    "512": {
+      "loc": 0.01658029133284092,
+      "pi_stall": 0.6495871324327867,
+      "pi_steady": 0.35041286756721335,
+      "scale_stall": 0.05843082131488063,
+      "scale_steady": 0.03733948541353972,
+      "sigma_stall": 0.10431631509790713,
+      "sigma_steady": 1.3462214452446384
+    },
+    "64": {
+      "loc": 0.016720101477742194,
+      "pi_stall": 0.150178986901629,
+      "pi_steady": 0.849821013098371,
+      "scale_stall": 0.008828633434550627,
+      "scale_steady": 0.005697346737934002,
+      "sigma_stall": 1.3616972036550803,
+      "sigma_steady": 0.09826399163532819
+    },
+    "768": {
+      "loc": 0.016117640080094336,
+      "pi_stall": 0.645660707800124,
+      "pi_steady": 0.35433929219987603,
+      "scale_stall": 0.09211974240843952,
+      "scale_steady": 0.03127136906409066,
+      "sigma_stall": 0.14808465753722347,
+      "sigma_steady": 1.418245669226621
+    },
+    "8": {
+      "loc": 0.013241712244391442,
+      "pi_stall": 0.04095075080502819,
+      "pi_steady": 0.9590492491949718,
+      "scale_stall": 0.005297393800444009,
+      "scale_steady": 0.0033418650030394626,
+      "sigma_stall": 0.8751605195077952,
+      "sigma_steady": 0.05
+    },
+    "96": {
+      "loc": 1.0773779988288879e-05,
+      "pi_stall": 0.16115863500383798,
+      "pi_steady": 0.838841364996162,
+      "scale_stall": 0.034668825689171574,
+      "scale_steady": 0.025306298134214287,
+      "sigma_stall": 0.6442443219876751,
+      "sigma_steady": 0.05
+    }
+  },
+  "schema": "itl_fit.lognormal_mixture_2"
+}

data/specs/73691f793f6be469/logistic_fit.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "latency": {
+    "L": 0.3337169923867402,
+    "b0": 0.01581299670243065,
+    "k": 0.6768750009458534,
+    "x0": 11.23076923076923
+  },
+  "model_label": "Llama-3.1-70B",
+  "power": {
+    "L": 1154.0021476589798,
+    "b0": 1646.7205316820875,
+    "k": 0.5790443980602487,
+    "x0": 7.384615384615384
+  },
+  "schema": "logistic_v1",
+  "throughput": {
+    "L": 7487.842476643308,
+    "b0": -115.86209784705026,
+    "k": 0.6768750009458534,
+    "x0": 6.871794871794871
+  }
+}

data/specs/73691f793f6be469/trace.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

data/specs/860654eabd3dfebf/_manifest.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "mlenergy_data_version": "0.4.0",
+  "openg2g_version": "0.2.0.post1",
+  "schema_version": 3,
+  "spec": {
+    "batch_sizes": [
+      8,
+      16,
+      32,
+      64,
+      96,
+      128,
+      192,
+      256,
+      384,
+      512
+    ],
+    "expert_parallel": 1,
+    "feasible_batch_sizes": [
+      8,
+      16,
+      32,
+      64,
+      128,
+      256,
+      512
+    ],
+    "fit_exclude_batch_sizes": [],
+    "gpu_model": "H100",
+    "gpus_per_replica": 2,
+    "itl_deadline_s": 0.06,
+    "model_id": "Qwen/Qwen3-30B-A3B-Thinking-2507",
+    "model_label": "Qwen3-30B-A3B",
+    "precision": "bfloat16",
+    "task": "gpqa",
+    "tensor_parallel": 2
+  },
+  "spec_hash": "860654eabd3dfebf",
+  "written_utc": "2026-05-13T19:50:49+00:00"
+}

data/specs/860654eabd3dfebf/itl_fit.json ADDED Viewed

	@@ -0,0 +1,96 @@

+{
+  "model_label": "Qwen3-30B-A3B",
+  "per_batch": {
+    "128": {
+      "loc": 0.005779745297670364,
+      "pi_stall": 0.9016421299546657,
+      "pi_steady": 0.09835787004533425,
+      "scale_stall": 0.022204989839097976,
+      "scale_steady": 0.011952816505967263,
+      "sigma_stall": 0.17115589522976615,
+      "sigma_steady": 0.8638437216770689
+    },
+    "16": {
+      "loc": 0.006709285320878029,
+      "pi_stall": 0.9318898842600892,
+      "pi_steady": 0.06811011573991077,
+      "scale_stall": 0.005286084772734071,
+      "scale_steady": 0.003488072071334762,
+      "sigma_stall": 0.10968234279797877,
+      "sigma_steady": 0.7066423134806045
+    },
+    "192": {
+      "loc": 0.006146881969809532,
+      "pi_stall": 0.5496379486314646,
+      "pi_steady": 0.45036205136853535,
+      "scale_stall": 0.03517282452060233,
+      "scale_steady": 0.023996489386177662,
+      "sigma_stall": 0.09280191100817078,
+      "sigma_steady": 0.4411174802673816
+    },
+    "256": {
+      "loc": 0.005351871492505073,
+      "pi_stall": 0.5179735298893404,
+      "pi_steady": 0.4820264701106596,
+      "scale_stall": 0.0465574174374143,
+      "scale_steady": 0.02979761583658413,
+      "sigma_stall": 0.08247269205931418,
+      "sigma_steady": 0.46540172529241985
+    },
+    "32": {
+      "loc": 5.387010216712952e-06,
+      "pi_stall": 0.8987735970748053,
+      "pi_steady": 0.10122640292519469,
+      "scale_stall": 0.01640469159213389,
+      "scale_steady": 0.013000996744328759,
+      "sigma_stall": 0.05,
+      "sigma_steady": 0.33658931223823957
+    },
+    "384": {
+      "loc": 0.005363984273910522,
+      "pi_stall": 0.6442964861816537,
+      "pi_steady": 0.3557035138183463,
+      "scale_stall": 0.04511956412849174,
+      "scale_steady": 0.03479809929767838,
+      "sigma_stall": 0.05,
+      "sigma_steady": 0.4926395770591876
+    },
+    "512": {
+      "loc": 0.005344948040485382,
+      "pi_stall": 0.844032586498555,
+      "pi_steady": 0.15596741350144505,
+      "scale_stall": 0.04628929533783176,
+      "scale_steady": 0.031408287375895155,
+      "sigma_stall": 0.16501900831914335,
+      "sigma_steady": 0.7857801384710986
+    },
+    "64": {
+      "loc": 5.24731183052063e-06,
+      "pi_stall": 0.6213994676646826,
+      "pi_steady": 0.37860053233531743,
+      "scale_stall": 0.02199501617088761,
+      "scale_steady": 0.01839224430879353,
+      "sigma_stall": 0.05,
+      "sigma_steady": 0.1933315951912185
+    },
+    "8": {
+      "loc": 0.005612284185528755,
+      "pi_stall": 0.9754857241215052,
+      "pi_steady": 0.02451427587849475,
+      "scale_stall": 0.0037432124276108067,
+      "scale_steady": 0.0023369924600121004,
+      "sigma_stall": 0.09591646898132508,
+      "sigma_steady": 0.8401834713569618
+    },
+    "96": {
+      "loc": 0.005704086514353752,
+      "pi_stall": 0.8933240851637367,
+      "pi_steady": 0.10667591483626326,
+      "scale_stall": 0.020937595889766954,
+      "scale_steady": 0.009315065436423254,
+      "sigma_stall": 0.17041518988603524,
+      "sigma_steady": 0.9135642352221147
+    }
+  },
+  "schema": "itl_fit.lognormal_mixture_2"
+}

data/specs/860654eabd3dfebf/logistic_fit.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "latency": {
+    "L": 0.22314992755762236,
+    "b0": 0.011393094262367034,
+    "k": 0.9249147277217336,
+    "x0": 9.58974358974359
+  },
+  "model_label": "Qwen3-30B-A3B",
+  "power": {
+    "L": 443.2622940538781,
+    "b0": 521.77175156347,
+    "k": 0.6768750009458534,
+    "x0": 3.435897435897436
+  },
+  "schema": "logistic_v1",
+  "throughput": {
+    "L": 16272.619545718631,
+    "b0": -798.0377199891329,
+    "k": 0.3101168926574778,
+    "x0": 10.0
+  }
+}

data/specs/860654eabd3dfebf/trace.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

data/specs/bc0bde304544a603/_manifest.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "mlenergy_data_version": "0.4.0",
+  "openg2g_version": "0.2.0.post1",
+  "schema_version": 3,
+  "spec": {
+    "batch_sizes": [
+      8,
+      16,
+      32,
+      64,
+      96,
+      128,
+      192,
+      256,
+      384,
+      512,
+      768,
+      1024
+    ],
+    "expert_parallel": 1,
+    "feasible_batch_sizes": [
+      8,
+      16,
+      32,
+      64,
+      128,
+      256,
+      512
+    ],
+    "fit_exclude_batch_sizes": [],
+    "gpu_model": "H100",
+    "gpus_per_replica": 1,
+    "itl_deadline_s": 0.08,
+    "model_id": "meta-llama/Llama-3.1-8B-Instruct",
+    "model_label": "Llama-3.1-8B",
+    "precision": "bfloat16",
+    "task": "lm-arena-chat",
+    "tensor_parallel": 1
+  },
+  "spec_hash": "bc0bde304544a603",
+  "written_utc": "2026-05-13T19:50:49+00:00"
+}

data/specs/bc0bde304544a603/itl_fit.json ADDED Viewed

	@@ -0,0 +1,114 @@

+{
+  "model_label": "Llama-3.1-8B",
+  "per_batch": {
+    "1024": {
+      "loc": 0.007010523004621267,
+      "pi_stall": 0.7837426601266253,
+      "pi_steady": 0.2162573398733747,
+      "scale_stall": 0.05956751699666166,
+      "scale_steady": 0.023334748866848526,
+      "sigma_stall": 0.2225255796663595,
+      "sigma_steady": 1.5148319210986743
+    },
+    "128": {
+      "loc": 0.0026725998690128325,
+      "pi_stall": 0.670438895498799,
+      "pi_steady": 0.329561104501201,
+      "scale_stall": 0.01398383994948415,
+      "scale_steady": 0.01291166006566778,
+      "sigma_stall": 0.10190881519172769,
+      "sigma_steady": 0.6028124518856584
+    },
+    "16": {
+      "loc": 0.0018269608339071275,
+      "pi_stall": 0.10464355744071052,
+      "pi_steady": 0.8953564425592895,
+      "scale_stall": 0.0064746630446026925,
+      "scale_steady": 0.006130842910997042,
+      "sigma_stall": 0.787949891540804,
+      "sigma_steady": 0.05
+    },
+    "192": {
+      "loc": 0.004752941670060158,
+      "pi_stall": 0.7662774362890146,
+      "pi_steady": 0.23372256371098543,
+      "scale_stall": 0.01598165094645324,
+      "scale_steady": 0.0150463242114058,
+      "sigma_stall": 0.14182877630339646,
+      "sigma_steady": 0.7849802295588915
+    },
+    "256": {
+      "loc": 0.006535205008160323,
+      "pi_stall": 0.7935925278538705,
+      "pi_steady": 0.20640747214612953,
+      "scale_stall": 0.019609283330274195,
+      "scale_steady": 0.016315824423412995,
+      "sigma_stall": 0.15827383548087384,
+      "sigma_steady": 0.9154474758196223
+    },
+    "32": {
+      "loc": 0.0035353920032978057,
+      "pi_stall": 0.17403414005364848,
+      "pi_steady": 0.8259658599463515,
+      "scale_stall": 0.006034873438781453,
+      "scale_steady": 0.005399039804654786,
+      "sigma_stall": 0.6283723882974765,
+      "sigma_steady": 0.093251542298717
+    },
+    "384": {
+      "loc": 0.004538576999377459,
+      "pi_stall": 0.6944861095107936,
+      "pi_steady": 0.3055138904892064,
+      "scale_stall": 0.03365572663992157,
+      "scale_steady": 0.02542297917615243,
+      "sigma_stall": 0.10481746968936954,
+      "sigma_steady": 0.8129715507672286
+    },
+    "512": {
+      "loc": 0.006579698012840003,
+      "pi_stall": 0.7984203718644621,
+      "pi_steady": 0.20157962813553787,
+      "scale_stall": 0.04203774478880279,
+      "scale_steady": 0.017431896454495718,
+      "sigma_stall": 0.16222657200608384,
+      "sigma_steady": 1.3251956670044174
+    },
+    "64": {
+      "loc": 0.0047925396432876586,
+      "pi_stall": 0.8475854653968202,
+      "pi_steady": 0.15241453460317977,
+      "scale_stall": 0.0068440681404629946,
+      "scale_steady": 0.006554435848211792,
+      "sigma_stall": 0.1343829094213754,
+      "sigma_steady": 0.8077132495834084
+    },
+    "768": {
+      "loc": 0.00489947998027876,
+      "pi_stall": 0.5897706893853796,
+      "pi_steady": 0.4102293106146204,
+      "scale_stall": 0.058643939455719225,
+      "scale_steady": 0.045424901604616506,
+      "sigma_stall": 0.0958052090925679,
+      "sigma_steady": 0.8954582871522097
+    },
+    "8": {
+      "loc": 0.0017732551863193513,
+      "pi_stall": 0.04214661390101049,
+      "pi_steady": 0.9578533860989895,
+      "scale_stall": 0.0056649474765016194,
+      "scale_steady": 0.0055782406714952265,
+      "sigma_stall": 0.7319335730101633,
+      "sigma_steady": 0.05
+    },
+    "96": {
+      "loc": 0.0019363875111341477,
+      "pi_stall": 0.2619339890384934,
+      "pi_steady": 0.7380660109615066,
+      "scale_stall": 0.012201993050876735,
+      "scale_steady": 0.01218169825049524,
+      "sigma_stall": 0.632097274814945,
+      "sigma_steady": 0.08150463339106037
+    }
+  },
+  "schema": "itl_fit.lognormal_mixture_2"
+}

data/specs/bc0bde304544a603/logistic_fit.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "latency": {
+    "L": 0.08748363159637874,
+    "b0": 0.008524586220155353,
+    "k": 1.0811807510766078,
+    "x0": 9.153846153846153
+  },
+  "model_label": "Llama-3.1-8B",
+  "power": {
+    "L": 210.91957273648842,
+    "b0": 480.39716041942955,
+    "k": 1.2638482029342986,
+    "x0": 5.461538461538462
+  },
+  "schema": "logistic_v1",
+  "throughput": {
+    "L": 9383.467277123862,
+    "b0": 771.2518469119908,
+    "k": 0.9249147277217336,
+    "x0": 6.153846153846154
+  }
+}

data/specs/bc0bde304544a603/trace.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

data/specs/traces_summary.csv ADDED Viewed

	@@ -0,0 +1,36 @@

+model_label,num_gpus,max_num_seqs,trace_file
+Llama-3.1-70B,4,8,73691f793f6be469/trace.csv
+Llama-3.1-70B,4,16,73691f793f6be469/trace.csv
+Llama-3.1-70B,4,32,73691f793f6be469/trace.csv
+Llama-3.1-70B,4,64,73691f793f6be469/trace.csv
+Llama-3.1-70B,4,128,73691f793f6be469/trace.csv
+Llama-3.1-70B,4,256,73691f793f6be469/trace.csv
+Llama-3.1-70B,4,512,73691f793f6be469/trace.csv
+Qwen3-30B-A3B,2,8,860654eabd3dfebf/trace.csv
+Qwen3-30B-A3B,2,16,860654eabd3dfebf/trace.csv
+Qwen3-30B-A3B,2,32,860654eabd3dfebf/trace.csv
+Qwen3-30B-A3B,2,64,860654eabd3dfebf/trace.csv
+Qwen3-30B-A3B,2,128,860654eabd3dfebf/trace.csv
+Qwen3-30B-A3B,2,256,860654eabd3dfebf/trace.csv
+Qwen3-30B-A3B,2,512,860654eabd3dfebf/trace.csv
+Llama-3.1-405B,8,8,4925acb216d43131/trace.csv
+Llama-3.1-405B,8,16,4925acb216d43131/trace.csv
+Llama-3.1-405B,8,32,4925acb216d43131/trace.csv
+Llama-3.1-405B,8,64,4925acb216d43131/trace.csv
+Llama-3.1-405B,8,128,4925acb216d43131/trace.csv
+Llama-3.1-405B,8,256,4925acb216d43131/trace.csv
+Llama-3.1-405B,8,512,4925acb216d43131/trace.csv
+Qwen3-235B-A22B,8,8,2e756e9e0a2d417e/trace.csv
+Qwen3-235B-A22B,8,16,2e756e9e0a2d417e/trace.csv
+Qwen3-235B-A22B,8,32,2e756e9e0a2d417e/trace.csv
+Qwen3-235B-A22B,8,64,2e756e9e0a2d417e/trace.csv
+Qwen3-235B-A22B,8,128,2e756e9e0a2d417e/trace.csv
+Qwen3-235B-A22B,8,256,2e756e9e0a2d417e/trace.csv
+Qwen3-235B-A22B,8,512,2e756e9e0a2d417e/trace.csv
+Llama-3.1-8B,1,8,bc0bde304544a603/trace.csv
+Llama-3.1-8B,1,16,bc0bde304544a603/trace.csv
+Llama-3.1-8B,1,32,bc0bde304544a603/trace.csv
+Llama-3.1-8B,1,64,bc0bde304544a603/trace.csv
+Llama-3.1-8B,1,128,bc0bde304544a603/trace.csv
+Llama-3.1-8B,1,256,bc0bde304544a603/trace.csv
+Llama-3.1-8B,1,512,bc0bde304544a603/trace.csv

data/specs/training_trace.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

examples/offline/config.json CHANGED Viewed

@@ -3,58 +3,72 @@
     {
       "model_label": "Llama-3.1-8B",
       "model_id": "meta-llama/Llama-3.1-8B-Instruct",
       "gpus_per_replica": 1,
-      "num_replicas": 720,
-      "initial_batch_size": 128,
       "itl_deadline_s": 0.08,
-      "feasible_batch_sizes": [8, 16, 32, 64, 128, 256, 512]
     },
     {
       "model_label": "Llama-3.1-70B",
       "model_id": "meta-llama/Llama-3.1-70B-Instruct",
       "gpus_per_replica": 4,
-      "num_replicas": 180,
-      "initial_batch_size": 128,
       "itl_deadline_s": 0.10,
-      "feasible_batch_sizes": [8, 16, 32, 64, 128, 256, 512]
     },
     {
       "model_label": "Llama-3.1-405B",
       "model_id": "meta-llama/Llama-3.1-405B-Instruct-FP8",
       "gpus_per_replica": 8,
-      "num_replicas": 90,
-      "initial_batch_size": 128,
       "itl_deadline_s": 0.12,
-      "feasible_batch_sizes": [8, 16, 32, 64, 128, 256, 512]
     },
     {
       "model_label": "Qwen3-30B-A3B",
       "model_id": "Qwen/Qwen3-30B-A3B-Thinking-2507",
       "gpus_per_replica": 2,
-      "num_replicas": 480,
-      "initial_batch_size": 128,
       "itl_deadline_s": 0.06,
-      "feasible_batch_sizes": [8, 16, 32, 64, 128, 256, 512]
     },
     {
       "model_label": "Qwen3-235B-A22B",
       "model_id": "Qwen/Qwen3-235B-A22B-Thinking-2507",
       "gpus_per_replica": 8,
-      "num_replicas": 210,
-      "initial_batch_size": 128,
       "itl_deadline_s": 0.14,
-      "feasible_batch_sizes": [8, 16, 32, 64, 128, 256, 512]
     }
   ],
-  "data_sources": [
-    {"model_label": "Llama-3.1-8B", "task": "lm-arena-chat", "gpu": "H100", "batch_sizes": [8, 16, 32, 64, 96, 128, 192, 256, 384, 512, 768, 1024]},
-    {"model_label": "Llama-3.1-70B", "task": "lm-arena-chat", "gpu": "H100", "batch_sizes": [8, 16, 32, 64, 96, 128, 192, 256, 384, 512, 768, 1024, 1536, 2048]},
-    {"model_label": "Llama-3.1-405B", "task": "lm-arena-chat", "gpu": "H100", "batch_sizes": [8, 16, 32, 64, 96, 128, 192, 256, 384, 512]},
-    {"model_label": "Qwen3-30B-A3B", "task": "gpqa", "gpu": "H100", "batch_sizes": [8, 16, 32, 64, 96, 128, 192, 256, 384, 512]},
-    {"model_label": "Qwen3-235B-A22B", "task": "gpqa", "gpu": "H100", "batch_sizes": [8, 16, 32, 64, 96, 128, 192, 256, 384, 512]}
-  ],
   "training_trace_params": {},
   "data_dir": null,
   "ieee_case_dir": "examples/ieee13",
   "mlenergy_data_dir": null
-}

     {
       "model_label": "Llama-3.1-8B",
       "model_id": "meta-llama/Llama-3.1-8B-Instruct",
+      "gpu_model": "H100",
+      "task": "lm-arena-chat",
       "gpus_per_replica": 1,
+      "tensor_parallel": 1,
       "itl_deadline_s": 0.08,
+      "batch_sizes": [8, 16, 32, 64, 96, 128, 192, 256, 384, 512, 768, 1024],
+      "feasible_batch_sizes": [8, 16, 32, 64, 128, 256, 512],
+      "num_replicas": 720,
+      "initial_batch_size": 128
     },
     {
       "model_label": "Llama-3.1-70B",
       "model_id": "meta-llama/Llama-3.1-70B-Instruct",
+      "gpu_model": "H100",
+      "task": "lm-arena-chat",
       "gpus_per_replica": 4,
+      "tensor_parallel": 4,
       "itl_deadline_s": 0.10,
+      "batch_sizes": [8, 16, 32, 64, 96, 128, 192, 256, 384, 512, 768, 1024, 1536, 2048],
+      "feasible_batch_sizes": [8, 16, 32, 64, 128, 256, 512],
+      "num_replicas": 180,
+      "initial_batch_size": 128
     },
     {
       "model_label": "Llama-3.1-405B",
       "model_id": "meta-llama/Llama-3.1-405B-Instruct-FP8",
+      "gpu_model": "H100",
+      "task": "lm-arena-chat",
       "gpus_per_replica": 8,
+      "tensor_parallel": 8,
+      "precision": "fp8",
       "itl_deadline_s": 0.12,
+      "batch_sizes": [8, 16, 32, 64, 96, 128, 192, 256, 384, 512],
+      "feasible_batch_sizes": [8, 16, 32, 64, 128, 256, 512],
+      "num_replicas": 90,
+      "initial_batch_size": 128
     },
     {
       "model_label": "Qwen3-30B-A3B",
       "model_id": "Qwen/Qwen3-30B-A3B-Thinking-2507",
+      "gpu_model": "H100",
+      "task": "gpqa",
       "gpus_per_replica": 2,
+      "tensor_parallel": 2,
       "itl_deadline_s": 0.06,
+      "batch_sizes": [8, 16, 32, 64, 96, 128, 192, 256, 384, 512],
+      "feasible_batch_sizes": [8, 16, 32, 64, 128, 256, 512],
+      "num_replicas": 480,
+      "initial_batch_size": 128
     },
     {
       "model_label": "Qwen3-235B-A22B",
       "model_id": "Qwen/Qwen3-235B-A22B-Thinking-2507",
+      "gpu_model": "H100",
+      "task": "gpqa",
       "gpus_per_replica": 8,
+      "tensor_parallel": 8,
       "itl_deadline_s": 0.14,
+      "batch_sizes": [8, 16, 32, 64, 96, 128, 192, 256, 384, 512],
+      "feasible_batch_sizes": [8, 16, 32, 64, 128, 256, 512],
+      "num_replicas": 210,
+      "initial_batch_size": 128
     }
   ],
   "training_trace_params": {},
   "data_dir": null,
   "ieee_case_dir": "examples/ieee13",
   "mlenergy_data_dir": null
+}

requirements.txt CHANGED Viewed

@@ -6,3 +6,5 @@ pandas
 opendssdirect.py
 matplotlib
 scipy

 opendssdirect.py
 matplotlib
 scipy
+openg2g[opendss]==0.2.0.post1
+websockets

server.py CHANGED Viewed

@@ -7,7 +7,7 @@ Uses GPU power traces and  workloads to model howAI inference/training affects g
 """
-from __future__ import annotations
 from fractions import Fraction
 from pathlib import Path
 import subprocess, tempfile, os, uvicorn, threading, math, json, hashlib
@@ -17,16 +17,21 @@ from fastapi import FastAPI, HTTPException, Response
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 from typing import Optional
 from  openg2g.coordinator import Coordinator
-from  openg2g.datacenter.config import (
-    DatacenterConfig, InferenceModelSpec,
-    PowerAugmentationConfig, InferenceRamp, TrainingRun,
 )
 from  openg2g.datacenter.offline import OfflineDatacenter, OfflineWorkload
-from  openg2g.datacenter.workloads.inference import InferenceData, MLEnergySource
 from  openg2g.datacenter.workloads.training import TrainingTrace, TrainingTraceParams
 from  openg2g.grid.opendss import OpenDSSGrid
 from  openg2g.grid.config import TapPosition
@@ -72,17 +77,15 @@ BUSES_ORDERED = [BUS_INDEX_TO_NAME[i] for i in range(1, 14)]
 #read files
 _config_raw = json.loads(CONFIG_PATH.read_text())
 _MODELS     = tuple(InferenceModelSpec(**m) for m in _config_raw["models"])
-_SOURCES    = {s["model_label"]: MLEnergySource(**s) for s in _config_raw["data_sources"]}
 _DC_CONFIG  = DatacenterConfig(gpus_per_server=8, base_kw_per_phase=500.0)
 if _config_raw.get("data_dir"):
     _DATA_DIR = Path(_config_raw["data_dir"])
 else:
-    blob      = json.dumps(sorted(_config_raw["data_sources"],
-                                  key=lambda s: s["model_label"]),
-                           sort_keys=True).encode()
-    _DATA_DIR = Path(__file__).parent / "data/offline" / hashlib.sha256(blob).hexdigest()[:16]
 # Load traces_summary.csv once at startup so we can quickly look up trace files
 _TRACES_SUMMARY_PATH = _DATA_DIR / "traces_summary.csv"
@@ -90,6 +93,28 @@ _TRACES_SUMMARY_PATH = _DATA_DIR / "traces_summary.csv"
 _traces_df: pd.DataFrame | None = None
 """
 Load trace index CSV and cache it.
 """
@@ -136,43 +161,64 @@ _load_traces_index()  # load at startup
 """Datacenter workload (baseline)"""
 def _build_dc(scale: float = 1.0, duration_s: int = 300) -> OfflineDatacenter:
-    scaled_models = tuple(
-        InferenceModelSpec(
-            model_label        = m.model_label,
-            num_replicas       = max(1, int(m.num_replicas * scale)),
-            gpus_per_replica   = m.gpus_per_replica,
-            initial_batch_size = m.initial_batch_size,
-            itl_deadline_s     = m.itl_deadline_s,
-        ) for m in _MODELS
-    )
-    inference_data = InferenceData.ensure(_DATA_DIR, scaled_models, _SOURCES, dt_s=0.1)
     training_trace = TrainingTrace.ensure(
-        _DATA_DIR / "training_trace.csv", TrainingTraceParams()
     )
-    t0 = min(40.0,  duration_s * 0.13)
     t1 = min(140.0, duration_s * 0.47)
-    t2 = min(150.0, duration_s * 0.50)
-    t3 = min(220.0, duration_s * 0.73)
     workload = OfflineWorkload(
-        inference_data  = inference_data,
-        training        = TrainingRun(
-            n_gpus               = max(1, int(24 * scale)),
-            trace                = training_trace,
-            target_peak_W_per_gpu= 400.0,
-        ).at(t_start=t0, t_end=t1),
-        inference_ramps = InferenceRamp(
-            target=min(1.0, 0.25 * scale)
-        ).at(t_start=t2, t_end=t3),
-    )
-    return OfflineDatacenter(
-        _DC_CONFIG, workload, dt_s=Fraction(1, 10), seed=0,
-        power_augmentation=PowerAugmentationConfig(
-            amplitude_scale_range=(0.88, 1.12),
-            noise_fraction=0.04,
         ),
     )
 """
@@ -190,52 +236,49 @@ def _build_dc_from_real_trace(
     power_W = _get_trace_power(model_label, num_gpus, max_num_seqs, num_replicas)
-    # Trim or repeat trace to match requested duration at dt=0.1s
     target_steps = int(duration_s / 0.1)
     if len(power_W) < target_steps:
-        # Repeat trace to fill duration
         repeats = math.ceil(target_steps / len(power_W))
         power_W = (power_W * repeats)[:target_steps]
     else:
         power_W = power_W[:target_steps]
-    # Build InferenceData with a single model replica matching the trace GPUs
-    model_spec = InferenceModelSpec(
-        model_label        = model_label,
-        num_replicas       = num_replicas,
-        gpus_per_replica   = num_gpus,
-        initial_batch_size = max_num_seqs,
-        itl_deadline_s     = 0.08,
-    )
-    source = _SOURCES.get(model_label)
-    if source is None:
-        # Fall back to first available source if model not in config
-        source = next(iter(_SOURCES.values()))
-    inference_data = InferenceData.ensure(
-        _DATA_DIR, (model_spec,), {model_label: source}, dt_s=0.1
     )
-    workload = OfflineWorkload(inference_data=inference_data)
     dc = OfflineDatacenter(
         _DC_CONFIG, workload, dt_s=Fraction(1, 10), seed=0,
         power_augmentation=PowerAugmentationConfig(
-            amplitude_scale_range=(1.0, 1.0),  # no augmentation — use real trace as-is
             noise_fraction=0.0,
         ),
     )
     return dc, power_W
 """Create IEEE 13-bus grid with datacenter connection."""
 def _build_grid(tap_pu: float, dc_bus: str) -> OpenDSSGrid:
     return OpenDSSGrid(
-        dss_case_dir=str(DSS_DIR), dss_master_file=DSS_MASTER,
-        dc_bus=dc_bus, dc_bus_kv=4.16,
-        power_factor=_DC_CONFIG.power_factor,
-        dt_s=Fraction(1), connection_type="wye",
     )
@@ -245,23 +288,25 @@ def _make_tap(v: float):
 """Run  datacenter + grid simulation."""
 def _run(dc, grid, tap_pu, dc_bus, duration_s):
     coord = Coordinator(
-        datacenter=dc, grid=grid,
         controllers=[TapScheduleController(
-            schedule=_make_tap(tap_pu), dt_s=Fraction(1)
         )],
         total_duration_s=duration_s,
-        dc_bus=dc_bus,
     )
     return coord.run()
 """
     Runs one full simulation job (datacenter + grid) in a worker process
     and returns results for the API.
     """
 def _run_full(req_dict: dict) -> dict:
     dc_bus   = BUS_INDEX_TO_NAME.get(req_dict["targetBus"], "671")
     replicas = max(1, req_dict["numReplicas"])
@@ -328,6 +373,7 @@ def _run_full(req_dict: dict) -> dict:
 """Get per-bus voltage (worst phase per bus)."""
 def _voltages(gs) -> list[float]:
     result = []
     for name in BUSES_ORDERED:
         try:
             tp   = gs.voltages[name]
@@ -337,11 +383,14 @@ def _voltages(gs) -> list[float]:
         except Exception as e:
             logger.debug(f"Bus {name} voltage unavailable: {e}")
             result.append(None)
-    known = [v for v in result if v is not None]
-    avg   = sum(known) / len(known) if known else 1.0
-    result = [v if v is not None else avg for v in result]
-    logger.debug(f"Voltages: {[round(v,4) for v in result]}")
-    return result
 # ── FastAPI────────────────────────────────────────────────────────────────
@@ -349,11 +398,10 @@ def _voltages(gs) -> list[float]:
 app = FastAPI()
 app.add_middleware(
     CORSMiddleware,
-    allow_origins=["https://gpu2grid.io", "http://localhost:5173", "http://localhost:5174"],
-    allow_credentials=True,
     allow_methods=["*"],
     allow_headers=["*"],
-    allow_origin_regex=".*",
 )
@@ -471,6 +519,116 @@ async def heatmap(req: HeatmapRequest):
     return Response(content=png, media_type="image/png")
 if __name__ == "__main__":
     logger.info("=" * 70)
     logger.info(f"Data dir: {_DATA_DIR} ready={_DATA_DIR.exists()}")
@@ -480,4 +638,4 @@ if __name__ == "__main__":
         logger.info(f"Models: {models}")
         logger.info(f"Traces: {len(df)} configurations")
     logger.info("=" * 70)
-    uvicorn.run("server:app", host="0.0.0.0", port=8080, workers=1, log_level="info")

 """
 from fractions import Fraction
 from pathlib import Path
 import subprocess, tempfile, os, uvicorn, threading, math, json, hashlib
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 from typing import Optional
+from fastapi import WebSocket, WebSocketDisconnect
 from  openg2g.coordinator import Coordinator
+from openg2g.datacenter.config import (
+    DatacenterConfig,
+    InferenceModelSpec,
+    PowerAugmentationConfig,
+    TrainingRun,
+    ReplicaSchedule,
 )
 from  openg2g.datacenter.offline import OfflineDatacenter, OfflineWorkload
+from openg2g.datacenter.workloads.inference import InferenceData
 from  openg2g.datacenter.workloads.training import TrainingTrace, TrainingTraceParams
 from  openg2g.grid.opendss import OpenDSSGrid
 from  openg2g.grid.config import TapPosition
 #read files
 _config_raw = json.loads(CONFIG_PATH.read_text())
 _MODELS     = tuple(InferenceModelSpec(**m) for m in _config_raw["models"])
 _DC_CONFIG  = DatacenterConfig(gpus_per_server=8, base_kw_per_phase=500.0)
 if _config_raw.get("data_dir"):
     _DATA_DIR = Path(_config_raw["data_dir"])
 else:
+    _DATA_DIR = Path(__file__).parent / "data/specs"
 # Load traces_summary.csv once at startup so we can quickly look up trace files
 _TRACES_SUMMARY_PATH = _DATA_DIR / "traces_summary.csv"
 _traces_df: pd.DataFrame | None = None
+TAP_STEP = 0.00625
+INITIAL_TAPS = TapPosition(
+    a=1.0 + 14 * TAP_STEP,
+    b=1.0 +  6 * TAP_STEP,
+    c=1.0 + 15 * TAP_STEP,
+)
+# Rescaled to fit in 300s window (original is 3600s, we compress ~12x)
+TAP_CHANGE_SCHEDULE = (
+    TapPosition(
+        a=1.0 + 16 * TAP_STEP,
+        b=1.0 +  6 * TAP_STEP,
+        c=1.0 + 17 * TAP_STEP,
+    ).at(t=75)   # was 1500s → 75s at 12x compression
+    | TapPosition(
+        a=1.0 + 10 * TAP_STEP,
+        b=1.0 +  6 * TAP_STEP,
+        c=1.0 + 10 * TAP_STEP,
+    ).at(t=200)  # was 3300s → 200s at 12x compression
+)
 """
 Load trace index CSV and cache it.
 """
 """Datacenter workload (baseline)"""
 def _build_dc(scale: float = 1.0, duration_s: int = 300) -> OfflineDatacenter:
+    df = _load_traces_index()
+    first_row = df.iloc[0]
+    first_model = tuple(m for m in _MODELS if m.model_label == first_row["model_label"])
+    inference_data = InferenceData.load(_DATA_DIR, first_model)
     training_trace = TrainingTrace.ensure(
+        _DATA_DIR / "training_trace.csv",
+        TrainingTraceParams(),
     )
+    t0 = min(40.0, duration_s * 0.13)
     t1 = min(140.0, duration_s * 0.47)
+    replica_schedules = {}
+    for m in _MODELS:
+        initial_replicas = max(1, int(scale * 8))
+        reduced_replicas = max(1, int(initial_replicas * 0.25))
+        replica_schedules[m.model_label] = (
+            ReplicaSchedule(initial=initial_replicas)
+            .ramp_to(
+                reduced_replicas,
+                t_start=min(150.0, duration_s * 0.50),
+                t_end=min(220.0, duration_s * 0.73),
+            )
+        )
     workload = OfflineWorkload(
+        inference_data=inference_data,
+        replica_schedules=replica_schedules,
+        training=TrainingRun(
+            n_gpus=max(1, int(24 * scale)),
+            trace=training_trace,
+            target_peak_W_per_gpu=400.0,
+        ).at(
+            t_start=t0,
+            t_end=t1,
         ),
     )
+    return OfflineDatacenter(
+    _DC_CONFIG,
+    workload,
+    dt_s=Fraction(1, 10),
+    seed=0,
+    name="baseline",
+    total_gpu_capacity=1000,
+    power_augmentation=PowerAugmentationConfig(
+        amplitude_scale_range=(0.88, 1.12),
+        noise_fraction=0.04,
+    ),
+)
 """
     power_W = _get_trace_power(model_label, num_gpus, max_num_seqs, num_replicas)
     target_steps = int(duration_s / 0.1)
     if len(power_W) < target_steps:
         repeats = math.ceil(target_steps / len(power_W))
         power_W = (power_W * repeats)[:target_steps]
     else:
         power_W = power_W[:target_steps]
+    df = _load_traces_index()
+    row = df[df["model_label"] == model_label].iloc[0]
+    model_tuple = tuple(m for m in _MODELS if m.model_label == model_label)
+    inference_data = InferenceData.load(_DATA_DIR, model_tuple)
+    workload = OfflineWorkload(
+        inference_data=inference_data,
+        replica_schedules={
+            model_label: ReplicaSchedule(initial=num_replicas)
+        },
     )
+    # ← compute actual GPU count and add headroom
+    actual_gpu_count = num_replicas * num_gpus
+    gpu_capacity     = max(1000, actual_gpu_count * 2)
     dc = OfflineDatacenter(
         _DC_CONFIG, workload, dt_s=Fraction(1, 10), seed=0,
+        name=model_label.replace(".", "-"),
+        total_gpu_capacity=gpu_capacity,   # ← was hardcoded 1000
         power_augmentation=PowerAugmentationConfig(
+            amplitude_scale_range=(1.0, 1.0),
             noise_fraction=0.0,
         ),
     )
     return dc, power_W
 """Create IEEE 13-bus grid with datacenter connection."""
 def _build_grid(tap_pu: float, dc_bus: str) -> OpenDSSGrid:
     return OpenDSSGrid(
+        dss_case_dir=str(DSS_DIR),
+        dss_master_file=DSS_MASTER,
+        dt_s=Fraction(1),
+        source_pu=tap_pu,
+        initial_tap_position=INITIAL_TAPS,
     )
 """Run  datacenter + grid simulation."""
 def _run(dc, grid, tap_pu, dc_bus, duration_s):
+    grid.attach_dc(dc, bus=dc_bus, connection_type="wye", power_factor=_DC_CONFIG.power_factor)
     coord = Coordinator(
+        datacenters=[dc],
+        grid=grid,
         controllers=[TapScheduleController(
+            schedule=TAP_CHANGE_SCHEDULE,  # ← real schedule
+            dt_s=Fraction(1)
         )],
         total_duration_s=duration_s,
     )
     return coord.run()
 """
     Runs one full simulation job (datacenter + grid) in a worker process
     and returns results for the API.
     """
 def _run_full(req_dict: dict) -> dict:
     dc_bus   = BUS_INDEX_TO_NAME.get(req_dict["targetBus"], "671")
     replicas = max(1, req_dict["numReplicas"])
 """Get per-bus voltage (worst phase per bus)."""
 def _voltages(gs) -> list[float]:
     result = []
+    none_count = 0
     for name in BUSES_ORDERED:
         try:
             tp   = gs.voltages[name]
         except Exception as e:
             logger.debug(f"Bus {name} voltage unavailable: {e}")
             result.append(None)
+    none_count = sum(1 for v in result if v is None)
+    if none_count > 3:
+        logger.warning(f"OpenDSS convergence failure: {none_count}/13 buses returned None")
+    known  = [v for v in result if v is not None]
+    avg    = sum(known) / len(known) if known else 1.0
+    return [v if v is not None else avg for v in result]
 # ── FastAPI────────────────────────────────────────────────────────────────
 app = FastAPI()
 app.add_middleware(
     CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=False,
     allow_methods=["*"],
     allow_headers=["*"],
 )
     return Response(content=png, media_type="image/png")
+def _serialize_tick(tick, req_dict: dict, raw_power_W: list[float]) -> dict:
+    """Serialize one TickOutput to a small JSON-safe dict for the frontend."""
+    t = tick.t_s
+    # Grid voltages (may be None if grid didn't tick this step)
+    voltages = None
+    min_v = max_v = target_v = None
+    if tick.grid_state is not None:
+        voltages = _voltages(tick.grid_state)
+        min_v = min(voltages)
+        max_v = max(voltages)
+        target_v = voltages[req_dict["targetBus"] - 1]
+    # DC power (sum all sites)
+    kw = 0.0
+    batch_by_model: dict[str, int] = {}
+    for dc_name, ds in tick.dc_states.items():
+        pw = ds.power_w
+        kw += float((pw.a + pw.b + pw.c) / 1000)
+        if hasattr(ds, "batch_size_by_model"):
+            batch_by_model.update(ds.batch_size_by_model)
+    if math.isnan(kw):
+        kw = 0.0
+    trace_idx = min(int(t / 0.1), len(raw_power_W) - 1) if raw_power_W else 0
+    raw_kw = raw_power_W[trace_idx] / 1000.0 if raw_power_W else kw
+    events = [{"type": e.event_type, "data": e.data} for e in tick.sim_events]
+    return {
+        "time":               float(t),
+        "gpu_power_kW":       kw,
+        "gpu_power_raw_kW":   raw_kw,
+        "active_gpus":        req_dict["numReplicas"] * req_dict["numGpus"],
+        "batch_by_model":     batch_by_model,
+        "voltages":           voltages,
+        "min_voltage":        min_v,
+        "max_voltage":        max_v,
+        "target_bus_voltage": target_v,
+        "sim_events":         events,
+    }
+def _run_streaming(req_dict: dict):
+    """Generator: builds coordinator and yields serialized tick dicts."""
+    dc_bus   = BUS_INDEX_TO_NAME.get(req_dict["targetBus"], "671")
+    replicas = max(1, req_dict["numReplicas"])
+    dc, raw_power_W = _build_dc_from_real_trace(
+        model_label  = req_dict["modelLabel"],
+        num_gpus     = req_dict["numGpus"],
+        max_num_seqs = req_dict["maxNumSeqs"],
+        num_replicas = replicas,
+        duration_s   = req_dict["durationS"],
+    )
+    grid = _build_grid(req_dict["substationVoltage"], dc_bus)
+    grid.attach_dc(dc, bus=dc_bus, connection_type="wye",
+                   power_factor=_DC_CONFIG.power_factor)
+    coord = Coordinator(
+        datacenters=[dc],
+        grid=grid,
+        controllers=[TapScheduleController(
+                schedule=TAP_CHANGE_SCHEDULE,
+            dt_s=Fraction(1),
+        )],
+        total_duration_s=req_dict["durationS"],
+    )
+    step     = max(1, req_dict["sampleInterval"])
+    tick_num = 0
+    try:
+        for tick in coord.run_iter():
+            if tick_num % step == 0:
+                yield _serialize_tick(tick, req_dict, raw_power_W)
+            tick_num += 1
+    finally:
+        coord.stop()
+@app.websocket("/ws/sim-stream")
+async def sim_stream(ws: WebSocket):
+    await ws.accept()
+    try:
+        req_dict = await ws.receive_json()
+        req = LLMImpactRequest(**req_dict)
+        logger.info(f"WS stream: {req.modelLabel} bus={req.targetBus}")
+        # Run full simulation in process pool (separate process = safe for OpenDSS)
+        loop = asyncio.get_event_loop()
+        result = await loop.run_in_executor(_pool, _run_full, req.dict())
+        # Stream results tick by tick from the completed result
+        for row in result["timeSeries"]:
+            await ws.send_json(row)
+        await ws.send_json({"done": True})
+    except WebSocketDisconnect:
+        logger.info("WS client disconnected")
+    except Exception as e:
+        logger.exception("WS stream failed")
+        try:
+            await ws.send_json({"error": str(e)})
+        except Exception:
+            pass
 if __name__ == "__main__":
     logger.info("=" * 70)
     logger.info(f"Data dir: {_DATA_DIR} ready={_DATA_DIR.exists()}")
         logger.info(f"Models: {models}")
         logger.info(f"Traces: {len(df)} configurations")
     logger.info("=" * 70)
+    uvicorn.run("server:app", host="0.0.0.0", port=8080, workers=1, log_level="info", ws_ping_interval=None)