payops_env

Paused

Commit

71ea0d8

1 Parent(s): 0fd745c

fix: clamp all grader scores to strict (0,1) open interval

Platform requires: at least 3 tasks with graders AND each score
strictly between 0 and 1 (never exactly 0.0 or 1.0).

Changes:
- openenv.yaml: restore 30 tasks with grader references
- server/graders.py: _BaseGrader returns 0.999 (correct), 0.001
(wrong) instead of 1.0/0.0; _clamp() helper enforces boundary
- grader.py: normalised_score clamped to [0.001, 0.999] instead
of [0.0, 1.0]

Verified locally:
- All grader scores in (0, 1): correct=0.999, wrong=0.001
- Episode normalised_score: perfect=0.873, worst=0.270, empty=0.001

Files changed (3) hide show

grader.py +6 -2
openenv.yaml +151 -0
server/graders.py +18 -4

grader.py CHANGED Viewed

@@ -334,8 +334,12 @@ def grade_episode(
         for t in tasks
     )
-    # Strict [0, 1] clamp — grader can NEVER exceed 1.0 or go below 0.0
-    normalised = max(0.0, min(1.0, total / max_possible)) if max_possible > 0 else 0.0
     # Build per-task rewards with grader config included.
     # zip is safe because per_task_details always has exactly len(tasks) entries

         for t in tasks
     )
+    # Strict open interval (0, 1) — platform rejects exactly 0.0 and 1.0
+    if max_possible > 0:
+        normalised = total / max_possible
+        normalised = max(0.001, min(0.999, normalised))
+    else:
+        normalised = 0.001
     # Build per-task rewards with grader config included.
     # zip is safe because per_task_details always has exactly len(tasks) entries

openenv.yaml CHANGED Viewed

@@ -4,3 +4,154 @@ type: space
 runtime: fastapi
 app: server.app:app
 port: 7860

 runtime: fastapi
 app: server.app:app
 port: 7860
+tasks:
+- id: EASY-001
+  task_id: EASY-001
+  name: EASY-001
+  difficulty: easy
+  grader: server.graders:EASY001Grader
+- id: EASY-002
+  task_id: EASY-002
+  name: EASY-002
+  difficulty: easy
+  grader: server.graders:EASY002Grader
+- id: EASY-003
+  task_id: EASY-003
+  name: EASY-003
+  difficulty: easy
+  grader: server.graders:EASY003Grader
+- id: EASY-004
+  task_id: EASY-004
+  name: EASY-004
+  difficulty: easy
+  grader: server.graders:EASY004Grader
+- id: EASY-005
+  task_id: EASY-005
+  name: EASY-005
+  difficulty: easy
+  grader: server.graders:EASY005Grader
+- id: EASY-006
+  task_id: EASY-006
+  name: EASY-006
+  difficulty: easy
+  grader: server.graders:EASY006Grader
+- id: MED-001
+  task_id: MED-001
+  name: MED-001
+  difficulty: medium
+  grader: server.graders:MED001Grader
+- id: MED-002
+  task_id: MED-002
+  name: MED-002
+  difficulty: medium
+  grader: server.graders:MED002Grader
+- id: MED-003
+  task_id: MED-003
+  name: MED-003
+  difficulty: medium
+  grader: server.graders:MED003Grader
+- id: MED-004
+  task_id: MED-004
+  name: MED-004
+  difficulty: medium
+  grader: server.graders:MED004Grader
+- id: MED-005
+  task_id: MED-005
+  name: MED-005
+  difficulty: medium
+  grader: server.graders:MED005Grader
+- id: MED-006
+  task_id: MED-006
+  name: MED-006
+  difficulty: medium
+  grader: server.graders:MED006Grader
+- id: MED-007
+  task_id: MED-007
+  name: MED-007
+  difficulty: medium
+  grader: server.graders:MED007Grader
+- id: MED-008
+  task_id: MED-008
+  name: MED-008
+  difficulty: medium
+  grader: server.graders:MED008Grader
+- id: HARD-001
+  task_id: HARD-001
+  name: HARD-001
+  difficulty: hard
+  grader: server.graders:HARD001Grader
+- id: HARD-002
+  task_id: HARD-002
+  name: HARD-002
+  difficulty: hard
+  grader: server.graders:HARD002Grader
+- id: HARD-003
+  task_id: HARD-003
+  name: HARD-003
+  difficulty: hard
+  grader: server.graders:HARD003Grader
+- id: HARD-004
+  task_id: HARD-004
+  name: HARD-004
+  difficulty: hard
+  grader: server.graders:HARD004Grader
+- id: HARD-005
+  task_id: HARD-005
+  name: HARD-005
+  difficulty: hard
+  grader: server.graders:HARD005Grader
+- id: HARD-006
+  task_id: HARD-006
+  name: HARD-006
+  difficulty: hard
+  grader: server.graders:HARD006Grader
+- id: HARD-007
+  task_id: HARD-007
+  name: HARD-007
+  difficulty: hard
+  grader: server.graders:HARD007Grader
+- id: HARD-008
+  task_id: HARD-008
+  name: HARD-008
+  difficulty: hard
+  grader: server.graders:HARD008Grader
+- id: HARD-009
+  task_id: HARD-009
+  name: HARD-009
+  difficulty: hard
+  grader: server.graders:HARD009Grader
+- id: HARD-010
+  task_id: HARD-010
+  name: HARD-010
+  difficulty: hard
+  grader: server.graders:HARD010Grader
+- id: CRIT-001
+  task_id: CRIT-001
+  name: CRIT-001
+  difficulty: critical
+  grader: server.graders:CRIT001Grader
+- id: CRIT-002
+  task_id: CRIT-002
+  name: CRIT-002
+  difficulty: critical
+  grader: server.graders:CRIT002Grader
+- id: CRIT-003
+  task_id: CRIT-003
+  name: CRIT-003
+  difficulty: critical
+  grader: server.graders:CRIT003Grader
+- id: CRIT-004
+  task_id: CRIT-004
+  name: CRIT-004
+  difficulty: critical
+  grader: server.graders:CRIT004Grader
+- id: CRIT-005
+  task_id: CRIT-005
+  name: CRIT-005
+  difficulty: critical
+  grader: server.graders:CRIT005Grader
+- id: CRIT-006
+  task_id: CRIT-006
+  name: CRIT-006
+  difficulty: critical
+  grader: server.graders:CRIT006Grader

server/graders.py CHANGED Viewed

@@ -7,10 +7,23 @@ Each grader is fully self-contained (zero external imports) so the platform
 validator can import and call them in any isolated environment.
 Returns {"score": float, "feedback": str} as required by the platform.
-Scores are always in [0.0, 1.0].
 """
 from __future__ import annotations
 class _BaseGrader:
     """
@@ -26,11 +39,12 @@ class _BaseGrader:
     def grade(self, action: str, **kwargs):
         if action == self.correct_action:
-            return {"score": 1.0, "feedback": "Correct action"}
-        score = float(self.partial_credit.get(action, 0.0))
         return {
             "score": score,
-            "feedback": "Partial credit" if score > 0 else "Incorrect action",
         }
     def __call__(self, action: str, **kwargs):

 validator can import and call them in any isolated environment.
 Returns {"score": float, "feedback": str} as required by the platform.
+Scores are always strictly in (0, 1) — never exactly 0.0 or 1.0.
 """
 from __future__ import annotations
+# Platform requires scores strictly between 0 and 1 (exclusive).
+_SCORE_MIN = 0.001
+_SCORE_MAX = 0.999
+def _clamp(score: float) -> float:
+    """Clamp score to the open interval (0, 1)."""
+    if score <= 0.0:
+        return _SCORE_MIN
+    if score >= 1.0:
+        return _SCORE_MAX
+    return score
 class _BaseGrader:
     """
     def grade(self, action: str, **kwargs):
         if action == self.correct_action:
+            return {"score": _SCORE_MAX, "feedback": "Correct action"}
+        raw = float(self.partial_credit.get(action, 0.0))
+        score = _clamp(raw)
         return {
             "score": score,
+            "feedback": "Partial credit" if raw > 0 else "Incorrect action",
         }
     def __call__(self, action: str, **kwargs):