DEMO 演示页面
当前业务范围尚未启用此模块,页面展示的是占位/示意数据,请勿当作真实业务指标。等接入对应数据后会自动切换。
模型训练
M22BC / CQL / EWC 离线强化学习 · NaN 守卫 · 版本追踪
训练样本
158,760
当前 epoch
47 / 60
NaN 守卫
0 告警
最后检查点
step-9400
BC / CQL 损失曲线
Q-value 平均
动作分布(训练集)
模型版本
v2.5
CANARY
BC 0.148
CQL 0.212
Q 2.04
2026-04-19 11:22
v2.4
STABLE
BC 0.156
CQL 0.228
Q 1.96
2026-04-12 09:08
v2.3
ARCHIVED
BC 0.172
CQL 0.258
Q 1.82
2026-03-28 15:44
v2.2
ARCHIVED
BC 0.194
CQL 0.284
Q 1.68
2026-03-14 10:12