측정 결과 보고 합격 기준 바꾸기 차단하는 법 — 결과를 보기 전에 정의될 수 있었는가
측정 결과 보고 합격 기준 바꾸기 차단하는 법은 의지가 아니라 절차다. 59.4% 미달을 보고 채점 기준을 느슨하게 바꾸려다 멈춘 기록 — 점수를 보기 전에도 똑같이 결정할 수 있었나, 이 한 가지 질문으로 사후 합리화를 가른 원칙을 정리했다.
측정 결과 보고 합격 기준 바꾸기 차단하는 법은 의지가 아니라 절차다. 59.4% 미달을 보고 채점 기준을 느슨하게 바꾸려다 멈춘 기록 — 점수를 보기 전에도 똑같이 결정할 수 있었나, 이 한 가지 질문으로 사후 합리화를 가른 원칙을 정리했다.
LLM 분류 결과 실행할 때마다 달라지는 문제 — LLM이 라벨을 알아서 붙이게 두면 정확도가 60~75% 구간에 막힌다. 59.4% 실측과 38편 직접 검수로 원인을 찾고, 미리 정한 고정 목록 방식으로 전환한 기록이다.
LLM 라벨명 설계 오류 — 프롬프트를 아무리 고쳐도 성장 응원 항목이 계속 틀렸다. Codex 외부 리뷰 결과, 라벨 이름 자체가 원래 의도보다 넓은 쪽으로 쏠리는 구조적 함정이었다. 기준을 글로 못 박아두는 방식으로 D8에서 미스매치가 여덟 편 중 한 편으로 줄었다.
LLM에게 7개 몰입 요인 중 하나를 고르게 했더니 다섯 번 구조를 바꿔도 같은 편향이 반복됐다. Codex 리뷰로 원인을 찾고 설계 원칙을 바꾼 실험 기록이다.
웹소설 분류 기준이 애니에서 만든 기준과 어떻게 달랐는지 직접 대입해봤다. 어떤 기준은 읽기 시작하게 만드는 동기를 유발하는 요소로, 어떤 기준은 흥미를 끝까지 끌고 가는 요소로 작동했다.
콘텐츠 취향 분석을 직접 해봤더니 장르 태그가 아니라 세계 구조, 각성형 유형, 도입부 훅 패턴이 실제 반응을 갈랐다. 애니·드라마·웹소설에서 거꾸로 뽑은 기준 5가지가 BSL(시맨틱 레이어) 분류 체계의 첫 설계가 됐다.