모델 업데이트는 파인튜닝일까 — Claude 라인업으로 본 경계

며칠 전까지 쓰던 모델이 어느 날 조용히 한 단계 올라가 있곤 합니다. 그럴 때마다 한 가지 질문이 떠나지 않았습니다. 모델이 업데이트되는 건, 엄밀히 따지면 파인튜닝이라고 볼 수 있을까?

답을 찾으려 할수록 단순하지 않았습니다. 결론부터 말씀드리면 "무엇을 업데이트로 보느냐에 따라 다르다"입니다. 어떤 변화는 파인튜닝이 맞고, 어떤 변화는 전혀 아닙니다. 이 글은 그 경계를 정리하면서, 제가 어디까지 확신할 수 있고 어디서부터는 추측인지를 솔직하게 구분해보려는 시도입니다.

모델이 만들어지는 세 단계

큰 언어 모델은 보통 세 단계를 거칩니다. 이 구분을 잡으면 "업데이트"가 가리키는 대상이 또렷해집니다.

사전학습(Pre-training): 랜덤 초기화에서 출발해 대규모 코퍼스로 다음 토큰을 예측합니다. 자기지도(self-supervised)이고, 한 모델 비용의 대부분이 여기 들어갑니다.
사후학습(Post-training): 사전학습된 base를 지시 수행과 정렬에 맞게 다듬습니다. SFT, RLHF, RLAIF, Constitutional AI가 여기 속합니다. 이 중 SFT는 정의상 그냥 파인튜닝입니다.
파인튜닝(Fine-tuning): 사전학습된 모델에 작은 데이터를 더해, 기존 가중치를 출발점 삼아 지도학습으로 조정합니다.

그러니 "모델 업데이트"란 결국 이 세 단계 중 어느 것을 다시 하거나 추가하느냐의 문제입니다. 둘을 가르는 기준은 두 가지로 볼 수 있습니다. 출발점(랜덤 초기화면 사전학습, 기존 가중치에서 이어가면 파인튜닝)과 목표·규모(특정 목적·소량·지도학습이면 파인튜닝, 범용·대규모·자기지도면 사전학습)입니다.

제가 막혔던 지점이 여기였습니다. 메커니즘만 보면 파인튜닝이든 RLHF든 추가 사전학습이든 "기존 가중치를 출발점으로 gradient descent를 돌려 갱신하는 것"이라, 끝까지 밀면 "다 파인튜닝의 일종"이라 말할 여지가 있습니다. 하지만 분류 용어로 보면 재사전학습이 들어간 변화는 파인튜닝이라 부르지 않고, 같은 base 위에서 정렬만 개선한 경우라야 파인튜닝(post-training)이라 부릅니다. 굳이 용어를 나누는 이유는 비용·데이터 규모·학습 목표가 질적으로 다르기 때문입니다.

Claude 라인업에 대입해보기

손에 잡히지 않아서, 제가 매일 쓰는 Claude 라인업에 직접 대입해봤습니다. Claude의 이름은 세대 번호와 티어의 조합입니다. 세대는 2 → 2.1 → 3 → 3.5 → 3.7 → 4 → 4.1 → 4.5 → 4.6 → 4.7 → 4.8 순으로 올라가고, 최상위 라인으로 Fable 5가 있습니다. 티어는 같은 세대 안에서 Opus(최고 성능) / Sonnet(균형) / Haiku(최속·최저가)로 나뉘는데, 이들은 애초에 크기가 다른 별개 모델입니다. 현재 ID는 claude-opus-4-8, claude-sonnet-4-6, claude-haiku-4-5, claude-fable-5 같은 식이고, Claude Code의 기본 모델은 Opus 4.8입니다.

여러 전환을 앞의 기준에 비춰보면 성격이 꽤 다르게 보입니다.

전환 예시	성격	파인튜닝인가
Opus 4.8 ↔ Sonnet 4.6 ↔ Haiku 4.5 (티어 차이)	크기가 다른 별개 모델	업데이트 자체가 아님
Claude 3 → Claude 4 (메이저 세대)	전면 교체, 재사전학습으로 추정	새 base — 아님
3.5 Sonnet `20240620` → `20241022`	같은 이름, 날짜 스냅샷만 다른 in-place 갱신	파인튜닝에 가장 가까움
Opus 4.6 → 4.7	토크나이저가 바뀜 → 사실상 재사전학습으로 추정	아님
Opus 4.7 → 4.8	breaking change 없음, 대부분 프롬프트 재튜닝	델타가 작음 (단정 불가)

"성격" 칸에 "추정"을 일부러 붙여뒀습니다. 티어 차이처럼 분명한 것도 있지만, 메이저 세대나 4.6→4.7을 "재사전학습"으로 본 것은 제가 관측한 신호로부터 추론한 것이지, Anthropic이 그렇게 했다고 확인한 것이 아닙니다.

거의 유일한 단서, 토크나이저

그렇다면 외부에서 "무엇이 바뀌었나"를 짐작할 단서는 무엇일까요. 제가 찾은 가장 단단한 신호는 토크나이저였습니다. 버전 사이에서 공개적으로 드러나는, 거의 유일한 "내부가 바뀌었다"는 흔적입니다.

Opus 4.6 이하 — 구 토크나이저를 씁니다.
Opus 4.7 — 토크나이저가 새로 바뀌어, 같은 텍스트가 대략 1배에서 1.35배 사이로 다르게 쪼개집니다.
Opus 4.8과 Fable 5 — 4.7과 동일한 토크나이저를 공유해 토큰 수가 거의 그대로입니다.

왜 중요할까요. 토크나이저를 바꾸면 어휘 집합(vocab)이 달라지고, 입력 임베딩 행렬 [vocab, d_model]과 출력 LM head의 각 행이 더 이상 같은 토큰을 가리키지 않게 됩니다. 이 상태에서는 기존 가중치를 그대로 가져와 파인튜닝하는 것이 원리적으로 불가능합니다. 최소한 임베딩 층은 다시 만들어야 합니다. 그래서 4.6→4.7 전환은 정렬만 손보는 파인튜닝의 범위를 한참 넘어선다고 보는 게 자연스럽습니다.

다만 한 걸음 물러서야 합니다. "그래서 4.7은 100% 처음부터(from scratch) 다시 학습했다"고 단정하면 그건 제가 봐도 과장입니다. 트랜스포머 본체, 즉 attention과 MLP 블록은 d_model 공간에서 동작하지 vocab과 직접 묶여 있지 않습니다. 원리상 본체 가중치는 물려받고 입출력 임베딩만 새 vocab에 맞춰 갈아끼운 뒤, 대규모로 추가 학습(continued pre-training)을 이어가는 것이 가능합니다. 실제로 토크나이저를 교체하며 임베딩을 다시 초기화해 기존 모델을 이식하는 연구 계열이 존재합니다. 주로 다국어 어휘 교체 맥락에서 다뤄집니다.

정확히는 "처음부터 다시"가 아니라 "기존 가중치 그대로 파인튜닝 불가 + 임베딩 교체 + 대규모 추가 학습"에 가깝습니다. 본체를 이식했는지 더 크게 손댔는지는 외부에서 확증할 수 없습니다. 다만 어느 쪽이든 파인튜닝이라 부를 수 있는 범위는 분명히 넘어선다는 결론은 유지됩니다.

"Claude 파인튜닝"이라는 말이 가리키는 것

여기까지 오니 "Claude를 파인튜닝한다"는 말이 두 가지를 가리킨다는 게 보였습니다. 하나는 Anthropic 내부의 post-training입니다. SFT에 RLHF/RLAIF, Constitutional AI를 더해 base를 정렬하는 이 단계가 기술적으로 진짜 파인튜닝이고, 우리가 쓰는 모든 Claude가 이를 거칩니다. 다른 하나는 사용자 커스텀 파인튜닝인데, 일반적인 1차 Claude API는 보통 이를 제공하지 않습니다. 그래서 실무에서 "Claude를 파인튜닝했다"는 말은 대개 가중치 조정이 아니라 프롬프트·컨텍스트를 다듬었다는 뜻인 경우가 많습니다.

추정이지, 확증이 아닙니다

가장 신경 쓴 대목이 여기입니다. 지금까지의 판정은 전부 명명 체계와 토크나이저, breaking change 같은 관측 가능한 신호로 "변화의 크기"를 추정한 것이지, 내부 학습 방식을 직접 확인한 것이 아닙니다. 그래서 근거의 강도를 구분해두고 싶습니다.

상대적으로 단단한 근거는 토크나이저 논증입니다. vocab이 바뀌면 임베딩 입출력 공간이 어긋난다는 것은 이론적으로 분명합니다. 다만 그것조차 "그래서 from scratch"까지 밀면 과장입니다. 반면 약한 근거도 있습니다. "4.7→4.8은 델타가 작으니 post-training 정도였을 것", "3.5 Sonnet 날짜 갱신이 파인튜닝에 가장 가깝다" 같은 판단은 API 표면의 안정성이나 같은 이름·비슷한 시기라는 외부 신호에 기댄 추측입니다. 여기서 API 표면이 안정적이라는 사실은 학습 방식을 신뢰할 만큼 알려주지 않습니다. 내부적으로 크게 재학습을 했어도 입출력 계약은 얼마든지 유지할 수 있기 때문입니다.

그리고 결정적으로, Anthropic은 버전별 실제 학습 파이프라인을 공개하지 않습니다. 그러니 어떤 전환을 두고 "이건 파인튜닝이다"라고 외부에서 확증하는 것은 애초에 불가능합니다. 그럼에도 한 줄로 정리하자면, 티어 차이는 업데이트가 아니고, 메이저 세대 점프나 토크나이저가 바뀌는 점프(4.6→4.7)는 재사전학습 쪽이라 파인튜닝이 아니며, 같은 이름의 날짜 스냅샷 갱신(3.5 Sonnet)이나 토크나이저가 그대로인 소폭 점프(4.7→4.8)가 파인튜닝(post-training)에 가장 가깝습니다. 다만 이 모든 판단은 어디까지나 추정이지 확증이 아닙니다.

돌이켜 생각해보면, 이 질문에서 정말 배운 것은 Claude의 학습 방식보다도 태도 쪽이었던 것 같습니다. 아는 것과 추측하는 것 사이에 선을 긋고 단정 한 번을 아끼는 습관이, 결국 기술을 다루는 사람에게 가장 정직한 자세가 아닐까 하는 생각이 들었습니다.

모델이 만들어지는 세 단계

큰 언어 모델은 보통 세 단계를 거칩니다. 이 구분을 잡으면 "업데이트"가 가리키는 대상이 또렷해집니다.

사전학습(Pre-training): 랜덤 초기화에서 출발해 대규모 코퍼스로 다음 토큰을 예측합니다. 자기지도(self-supervised)이고, 한 모델 비용의 대부분이 여기 들어갑니다.
사후학습(Post-training): 사전학습된 base를 지시 수행과 정렬에 맞게 다듬습니다. SFT, RLHF, RLAIF, Constitutional AI가 여기 속합니다. 이 중 SFT는 정의상 그냥 파인튜닝입니다.
파인튜닝(Fine-tuning): 사전학습된 모델에 작은 데이터를 더해, 기존 가중치를 출발점 삼아 지도학습으로 조정합니다.

Claude 라인업에 대입해보기

여러 전환을 앞의 기준에 비춰보면 성격이 꽤 다르게 보입니다.

전환 예시	성격	파인튜닝인가
Opus 4.8 ↔ Sonnet 4.6 ↔ Haiku 4.5 (티어 차이)	크기가 다른 별개 모델	업데이트 자체가 아님
Claude 3 → Claude 4 (메이저 세대)	전면 교체, 재사전학습으로 추정	새 base — 아님
3.5 Sonnet `20240620` → `20241022`	같은 이름, 날짜 스냅샷만 다른 in-place 갱신	파인튜닝에 가장 가까움
Opus 4.6 → 4.7	토크나이저가 바뀜 → 사실상 재사전학습으로 추정	아님
Opus 4.7 → 4.8	breaking change 없음, 대부분 프롬프트 재튜닝	델타가 작음 (단정 불가)

거의 유일한 단서, 토크나이저

Opus 4.6 이하 — 구 토크나이저를 씁니다.
Opus 4.7 — 토크나이저가 새로 바뀌어, 같은 텍스트가 대략 1배에서 1.35배 사이로 다르게 쪼개집니다.
Opus 4.8과 Fable 5 — 4.7과 동일한 토크나이저를 공유해 토큰 수가 거의 그대로입니다.

모델 업데이트는 파인튜닝일까 — Claude 라인업으로 따져본 경계

모델이 만들어지는 세 단계

Claude 라인업에 대입해보기

거의 유일한 단서, 토크나이저

"Claude 파인튜닝"이라는 말이 가리키는 것

추정이지, 확증이 아닙니다

관련 글

Claude Code에서 SuperClaude 프레임워크를 걷어낸 이유 — 71KB를 5KB로

claude -p 를 LaunchAgent 에 붙일 때 만난 7가지 함정

Claude Code 소스 유출이 드러낸 아키텍처 — 1편: 512,000줄의 전체 조감도

모델 업데이트는 파인튜닝일까 — Claude 라인업으로 따져본 경계

모델이 만들어지는 세 단계

Claude 라인업에 대입해보기

거의 유일한 단서, 토크나이저

"Claude 파인튜닝"이라는 말이 가리키는 것

추정이지, 확증이 아닙니다

관련 글

Claude Code에서 SuperClaude 프레임워크를 걷어낸 이유 — 71KB를 5KB로

claude -p 를 LaunchAgent 에 붙일 때 만난 7가지 함정

Claude Code 소스 유출이 드러낸 아키텍처 — 1편: 512,000줄의 전체 조감도