step t = 1 / 32
prefix product (naive): 1.00
mean-log seq ratio (GSPO): 1.00
说明:prefix 乘积会随 t 指数漂移;mean-log 把噪声“平均掉”。
t Δℓ token log-ratio deltas Δℓ_t = logπθ - logπold
你在长 CoT 里“感觉到的不稳定”,往往就是 token 级漂移在 prefix 乘积里指数累积;GSPO 用 mean-log 的序列比率把这类噪声变成可控的宏观权重。