de schamphelaere

ceselder

Pranavz's profile picture

darklord1611's profile picture

kivirvvn's profile picture

AI & ML interests

None yet

Recent Activity

updated a model about 15 hours ago

ceselder/qwen3-14b-rh-anti-hacker-ckpts

published a model about 15 hours ago

ceselder/qwen3-14b-rh-anti-hacker-ckpts

updated a model about 19 hours ago

ceselder/qwen3-8b-ao-v3-best-steering2p0

View all activity

Organizations

ceselder 's collections 8

Qwen3-8B AO v3 ablation ladder

LoRA verbalizer ckpts for the v3 Activation Oracle ablation ladder on Qwen3-8B.

ceselder/qwen3-8b-ao-v3-adam-baseline

Text Generation • Updated 3 days ago • 29
ceselder/qwen3-8b-ao-v3-abl1-sonnet-data

Text Generation • Updated 3 days ago • 33
ceselder/qwen3-8b-ao-v3-abl2b-layer22

Text Generation • Updated 3 days ago • 33
ceselder/qwen3-8b-ao-v3-abl2c-multilayer

Text Generation • Updated 3 days ago • 27

LoRAcle OOD eval models

OOD model organisms for LoRAcle emergent-behavior eval — 4 Betley EM LoRAs + Cloud subliminal owl + EM training data.

ceselder/qwen3-14b-em-risky_financial

Updated Apr 18 • 5
ceselder/qwen3-14b-em-bad_medical

Updated Apr 18 • 18
ceselder/qwen3-14b-em-insecure

Updated Apr 18 • 7
ceselder/qwen3-14b-em-evil_numbers

Updated Apr 18 • 18

CoT Oracle Paper Ablations And Baselines

All models used for my LessWrong post. Generally recommended to use latest adam oracle, or the checkpoint confusingly labelled "no DPO"

ceselder/adam-reupload-qwen3-8b-latentqa-cls-past-lens

Text Generation • Updated Mar 30 • 45
ceselder/adam-reupload-qwen3-8b-full-mix-synthetic-qa-v3-replace-lqa

Text Generation • Updated Mar 30 • 1
ceselder/cot-oracle-paper-ablation-adam-recipe-1layer

Text Generation • Updated Mar 30 • 5
ceselder/cot-oracle-paper-ablation-ours-1layer

Text Generation • Updated Mar 30 • 2

CoT Oracle Training Data

Training datasets for the CoT Trajectory Oracle. Includes CoT corpora and QA datasets used for oracle fine-tuning.

ceselder/cot-oracle-corpus-v5

Viewer • Updated Feb 23 • 40.5k • 356
ceselder/cot-oracle-cotqa

Viewer • Updated Feb 23 • 10.5k • 22

LoRAcle — training data + eval

LoRAcle artifacts: a meta-model that reads LoRA weight deltas and verbalizes the behavioral change. Training data + OOD eval sub-collection.

LoRAcle OOD eval models

Collection

OOD model organisms for LoRAcle emergent-behavior eval — 4 Betley EM LoRAs + Cloud subliminal owl + EM training data. • 13 items • Updated Apr 19
ceselder/loracle-pretrain-mix

Viewer • Updated 26 days ago • 50.6k • 460
ceselder/loracle-ia-RL

Viewer • Updated 24 days ago • 473 • 141
ceselder/loracle-ia-warmstart

Viewer • Updated 24 days ago • 2.08k • 146

Loracle: weight-reading model interpretability

Loracles + direction tokens for AuditBench, IA, OOD evals.

ceselder/loracle-k16-realdpo

Updated Apr 15
ceselder/loracle-k16-dpoready-sft

Updated Apr 14
ceselder/loracle-k16-pruned-15k-sft

Updated Apr 14
ceselder/loracle-k16-pruned-sft

Updated Apr 14

loracle

LoRA Oracles: detect hidden behaviors from weight geometry. Training data for loracle models.

ceselder/loracle-training-rollouts

Viewer • Updated Mar 22 • 634k • 39
ceselder/loracle-onpolicy-rollouts

Viewer • Updated Mar 22 • 147k • 77
ceselder/loracle-loraqa

Viewer • Updated Mar 22 • 49.9k • 36

CoT Oracle Evals

Eval datasets for the CoT Trajectory Oracle — detecting unfaithful chain-of-thought reasoning via activation trajectories.

ceselder/cot-oracle-eval-decorative-cot

Viewer • Updated Feb 24 • 56 • 12
ceselder/cot-oracle-eval-rot13-reconstruction

Viewer • Updated Feb 24 • 100 • 6
ceselder/cot-oracle-truthfulqa-hint-admission-unverbalized

Viewer • Updated Feb 26 • 11k • 10
ceselder/cot-oracle-truthfulqa-hint-admission-verbalized

Viewer • Updated Feb 26 • 4.38k • 10

Qwen3-8B AO v3 ablation ladder

LoRA verbalizer ckpts for the v3 Activation Oracle ablation ladder on Qwen3-8B.

ceselder/qwen3-8b-ao-v3-adam-baseline

Text Generation • Updated 3 days ago • 29
ceselder/qwen3-8b-ao-v3-abl1-sonnet-data

Text Generation • Updated 3 days ago • 33
ceselder/qwen3-8b-ao-v3-abl2b-layer22

Text Generation • Updated 3 days ago • 33
ceselder/qwen3-8b-ao-v3-abl2c-multilayer

Text Generation • Updated 3 days ago • 27

LoRAcle — training data + eval

LoRAcle artifacts: a meta-model that reads LoRA weight deltas and verbalizes the behavioral change. Training data + OOD eval sub-collection.

LoRAcle OOD eval models

Collection

OOD model organisms for LoRAcle emergent-behavior eval — 4 Betley EM LoRAs + Cloud subliminal owl + EM training data. • 13 items • Updated Apr 19
ceselder/loracle-pretrain-mix

Viewer • Updated 26 days ago • 50.6k • 460
ceselder/loracle-ia-RL

Viewer • Updated 24 days ago • 473 • 141
ceselder/loracle-ia-warmstart

Viewer • Updated 24 days ago • 2.08k • 146

LoRAcle OOD eval models

OOD model organisms for LoRAcle emergent-behavior eval — 4 Betley EM LoRAs + Cloud subliminal owl + EM training data.

ceselder/qwen3-14b-em-risky_financial

Updated Apr 18 • 5
ceselder/qwen3-14b-em-bad_medical

Updated Apr 18 • 18
ceselder/qwen3-14b-em-insecure

Updated Apr 18 • 7
ceselder/qwen3-14b-em-evil_numbers

Updated Apr 18 • 18

Loracle: weight-reading model interpretability

Loracles + direction tokens for AuditBench, IA, OOD evals.

ceselder/loracle-k16-realdpo

Updated Apr 15
ceselder/loracle-k16-dpoready-sft

Updated Apr 14
ceselder/loracle-k16-pruned-15k-sft

Updated Apr 14
ceselder/loracle-k16-pruned-sft

Updated Apr 14

CoT Oracle Paper Ablations And Baselines

All models used for my LessWrong post. Generally recommended to use latest adam oracle, or the checkpoint confusingly labelled "no DPO"

ceselder/adam-reupload-qwen3-8b-latentqa-cls-past-lens

Text Generation • Updated Mar 30 • 45
ceselder/adam-reupload-qwen3-8b-full-mix-synthetic-qa-v3-replace-lqa

Text Generation • Updated Mar 30 • 1
ceselder/cot-oracle-paper-ablation-adam-recipe-1layer

Text Generation • Updated Mar 30 • 5
ceselder/cot-oracle-paper-ablation-ours-1layer

Text Generation • Updated Mar 30 • 2

loracle

LoRA Oracles: detect hidden behaviors from weight geometry. Training data for loracle models.

ceselder/loracle-training-rollouts

Viewer • Updated Mar 22 • 634k • 39
ceselder/loracle-onpolicy-rollouts

Viewer • Updated Mar 22 • 147k • 77
ceselder/loracle-loraqa

Viewer • Updated Mar 22 • 49.9k • 36

CoT Oracle Training Data

Training datasets for the CoT Trajectory Oracle. Includes CoT corpora and QA datasets used for oracle fine-tuning.

ceselder/cot-oracle-corpus-v5

Viewer • Updated Feb 23 • 40.5k • 356
ceselder/cot-oracle-cotqa

Viewer • Updated Feb 23 • 10.5k • 22

CoT Oracle Evals

Eval datasets for the CoT Trajectory Oracle — detecting unfaithful chain-of-thought reasoning via activation trajectories.

ceselder/cot-oracle-eval-decorative-cot

Viewer • Updated Feb 24 • 56 • 12
ceselder/cot-oracle-eval-rot13-reconstruction

Viewer • Updated Feb 24 • 100 • 6
ceselder/cot-oracle-truthfulqa-hint-admission-unverbalized

Viewer • Updated Feb 26 • 11k • 10
ceselder/cot-oracle-truthfulqa-hint-admission-verbalized

Viewer • Updated Feb 26 • 4.38k • 10