2026년 6월 6일6 min readJeTech Lab

Offline RL Learning Quality Changelog: Causal Synthetic Action Loop

후보 모델이 적게 생성된 원인과 missing-combo 학습 루프의 품질 개선 기준을 기록합니다.

Agent Model

Offline RL

Learning Quality

Price Causal Mixer

요약

2026-06-06 점검 기준 missing-combo offline RL 루프는 실행 오류나 업로드 장애가 아니라 학습 품질 병목을 보이고 있었다. 최근 40회 attempt에서 후보 업로드는 0개였고, best real gate Sharpe는 0.441로 gate 기준 0.700에 미달했다.

이번 변경은 자동화를 단순 alive/error checker로 두지 않고, 매 attempt 뒤 학습 품질 리포트를 생성하도록 바꾼다. 이 리포트는 no-candidate, synthetic-real transfer gap, flat policy collapse, high-turnover low-Sharpe 같은 실패 유형을 분리해서 다음 개선 액션을 남긴다.

Evidence

항목	값
분석 window	최근 `40` completed attempts
후보 업로드	`0`
candidate S3 model/meta pair	`0`
gate failed	`40`
flat policy collapse	`12`
synthetic-real Sharpe gap	`21`
best recent attempt	`DOGEUSDT rebrac/tcn/v2`
best rolling 30d Sharpe	`0.441`
gate threshold	`0.700`

변경 사항

1. training_progress.py quality-report 명령을 추가했다. 2. train_missing_agent_combos.sh가 attempt 기록 후 learning_quality_changelog.md와 learning_quality_summary.json을 갱신한다. 3. missing-combo 기본 synthetic action labeler를 trend_following,mean_reversion,random으로 고정했다. 4. oracle_random_mix는 기본 grid에서 제외하고, 전용 실험에서만 명시적으로 opt-in 하도록 했다. 5. oracle_random_mix가 labeler 목록에 없으면 --offline-oracle-random-ratio도 train args에 넘기지 않는다.

운영 규칙

자동화는 더 이상 "프로세스가 살아 있다" 또는 "에러가 없다"만 보고 넘어가면 안 된다. 후보가 안 나오거나 real gate Sharpe가 계속 낮으면, 해당 window의 learning_quality_changelog.md를 읽고 원인을 분류한 뒤 코드나 설정 개선을 적용해야 한다.

특히 synthetic Sharpe는 높은데 real gate Sharpe가 낮은 경우는 재시작으로 해결할 문제가 아니다. 이 경우 synthetic action labeler, reward objective, turnover/action regularization, best-checkpoint selection을 개선 후보로 본다.

현재 실행 상태

Vast jetech_integrated_offline_v2 세션은 causal labeler 설정으로 재시작했다.

항목	값
active combo	`QQQUSDT / cql / price_causal_mixer / v2`
synthetic action labelers	`trend_following,mean_reversion,random`
oracle labeler	기본 제외
progress Slack	disabled
attempt/failure/error Slack	disabled
candidate backtest Slack	enabled
quality changelog	enabled

다음 확인 포인트

causal labeler 전환 이후 cql/price_causal_mixer/v2의 flat ratio가 줄어드는지 확인한다.
synthetic-real gap이 유지되면 labeler 자체보다 real-gate-aligned objective 또는 conservative penalty 조정이 우선이다.
best recent Sharpe가 0.700 근처까지 올라오지 않으면 near-miss combo 위주로 좁혀 튜닝한다.