LIGHT
공부/AI-POT 2026. 6. 12. 01:50

AI-POT 2급 자격증 공부(트랜스포머_사전학습_토크나이저_임베딩)

LLM은 어떻게 학습할까? 트랜스포머·토크나이저·임베딩 한 번에 이해하기

ChatGPT 같은 거대 언어 모델(LLM)은 도대체 어떻게 사람 말을 배우는 걸까요? 그 비밀은 트랜스포머라는 두뇌 구조, 그리고 문장을 잘게 쪼개 숫자로 바꾸는 토크나이저·임베딩 과정에 있습니다. 이번 글에서는 LLM이 학습하는 전 과정을 처음부터 끝까지 따라가 봅니다.


1. 모든 것의 시작, 트랜스포머 아키텍처

2017년, AI 역사를 바꾼 논문 한 편이 나옵니다. 제목부터 강렬한 'Attention Is All You Need(필요한 건 어텐션뿐)'. 여기서 제안된 트랜스포머(Transformer) 는 기존 RNN의 한계를 깨부수며, 오늘날 GPT와 BERT의 공통 뿌리가 되었습니다.

두 개의 심장: 인코더와 디코더

트랜스포머는 크게 두 부분으로 나뉩니다.

  • 인코더(Encoder): 입력된 문장(프롬프트)을 이해하고 변환하는 부분
  • 디코더(Decoder): 그 이해를 바탕으로 결과물을 생성하는 부분

트랜스포머가 강력한 두 가지 이유

  1. 병렬 처리: 단어를 하나씩 읽던 RNN과 달리, 모든 단어를 동시에 처리합니다. → 압도적으로 빠름
  2. 장거리 의존성 해결: 문장이 아무리 길어도 전체 맥락을 기억합니다. → "앞에서 뭐라고 했더라?" 문제 해결

트랜스포머를 움직이는 3대 부품

부품 역할 쉽게 말하면
셀프 어텐션 단어들의 관련성을 동시에 계산 "이 단어가 어떤 단어와 연결되지?"
멀티헤드 어텐션 셀프 어텐션을 여러 개 묶음 여러 관점에서 동시에 분석
포지셔널 인코딩 단어의 순서(위치) 정보 제공 "이게 몇 번째 단어더라?"

여기서 재밌는 점. 트랜스포머는 모든 단어를 동시에 보다 보니 순서 감각이 없습니다. "나는 너를 좋아해"와 "너는 나를 좋아해"를 구분하려면 위치 정보가 필요하죠. 그래서 포지셔널 인코딩이 "몇 번째 단어인지"를 따로 알려주는 겁니다.

💡 (심화) 셀프 어텐션은 내부적으로 Query(질문)·Key(키)·Value(밸류) 세 요소로 단어 간 관련성을 계산합니다. 도서관에서 검색어(Query)로 책 제목(Key)을 찾아 내용(Value)을 얻는 것과 비슷해요.


2. AI의 교육 과정 — 사전 학습과 파인튜닝

사람이 초등학교부터 대학 전공까지 단계별로 배우듯, AI도 두 단계로 학습합니다.

📚 1단계: 사전 학습 (Pre-training) — 기초 교육

대규모 데이터셋으로 언어의 기본기를 닦는 과정입니다. 방식은 모델마다 다릅니다.

방식 사용 모델 학습법
마스킹 기반 BERT 문장의 단어를 가린 뒤 빈칸 맞히기
자기회귀 기반 GPT 다음에 올 단어 예측하기

🎯 2단계: 파인튜닝 (Fine-tuning) — 전공 교육

기초를 닦은 모델을 특정 용도에 맞게 미세 조정하는 단계입니다. 예를 들어 의료 상담용, 법률 검토용처럼 전문 분야에 특화시키는 거죠. 기초 교육을 받은 학생에게 전공을 가르치는 것과 같습니다.

💡 (심화) 두 가지 학습 개념

  • 자기지도 학습: 모델이 스스로 문제와 답을 만들어 학습 (정답 라벨이 따로 없어도 됨)
  • 전이 학습: 이미 배운 기존 지식을 활용해 새로운 분야를 빠르게 익힘


3. 문장을 숫자로 — 토크나이저와 임베딩

컴퓨터는 글자를 모릅니다. 오직 숫자만 이해하죠. 그래서 우리 문장을 AI에게 먹이려면 두 단계 변환이 필요합니다.

✂️ 토크나이저 — 문장 자르기

문장을 작은 조각, 즉 토큰(token) 으로 나누는 과정입니다. 자르는 단위에 따라 세 종류가 있어요.

방식 자르는 단위 장점 단점
문자 단위 글자 하나하나 (ㄱ,ㅏ...) 단순함 의미 파악이 어려움
단어 단위 완성된 단어 의미가 명확 처음 보는 단어에 취약
서브워드 단위 🏆 의미 있는 조각 두 방식의 장점만 결합

오늘날 주류는 서브워드 단위입니다. 자주 쓰는 단어는 통째로 두고, 드문 단어만 의미 있는 조각으로 쪼개죠. 예를 들어 "끝없이"라는 단어를 "끝" + "없이"로 나누면, 처음 보는 단어라도 의미를 추측할 수 있습니다.

🔢 임베딩 — 숫자로 바꾸기

쪼갠 토큰을 컴퓨터가 이해하는 숫자 벡터로 변환하는 단계입니다. 이렇게 숫자로 바뀌어야 비로소 AI 모델에 입력되어 학습이 진행돼요.

🔑 전체 흐름: 문장 → [토크나이저] 토큰으로 분리 → [임베딩] 숫자 벡터로 변환 → AI 모델 입력 → 학습

토크나이저와 임베딩은 떼려야 뗄 수 없는 짝꿍입니다. 자르지 않으면 숫자로 바꿀 수도 없으니까요.


마치며

LLM의 학습 과정을 한 문장으로 요약하면 이렇습니다.

트랜스포머라는 두뇌로, 문장을 토큰으로 쪼개 숫자(임베딩)로 바꾼 뒤, 대규모 사전학습으로 기초를 닦고 파인튜닝으로 전문성을 갖춘다.

복잡해 보이지만, 결국 "사람 말을 컴퓨터가 알아들을 숫자로 바꾸고, 단계별로 가르친다" 는 단순한 원리입니다. 이 흐름만 잡아두면 어떤 LLM을 만나도 구조가 보이기 시작할 거예요.


📇 핵심만 빠르게 — 한 줄 암기 카드

  • 2017·RNN극복·GPT/BERT 기반 → 트랜스포머 (Attention Is All You Need)
  • 입력 이해 → 인코더 / 결과 생성 → 디코더
  • 단어 관련성 동시 계산 → 셀프 어텐션 / 여러 묶음 → 멀티헤드 / 순서 정보 → 포지셔널 인코딩
  • 셀프 어텐션 3요소 → Query·Key·Value
  • 대규모 기초 교육 → 사전 학습 (마스킹=BERT / 자기회귀=GPT)
  • 특정 용도 미세 조정 → 파인튜닝
  • 스스로 문제·답 생성 → 자기지도 학습 / 기존 지식 활용 → 전이 학습
  • 문장→토큰 분리 → 토크나이저 (문자/단어/서브워드)
  • 토큰→숫자 벡터 → 임베딩

이 글이 도움이 되셨다면 공감과 댓글 부탁드려요. AI 개념 정리 시리즈, 다음 편에서 계속됩니다! 🙌

#LLM #트랜스포머 #토크나이저 #임베딩 #파인튜닝 #사전학습 #셀프어텐션 #AI자격증 #AIPOT

h

hyos

IT · 스타트업 · 개인기록. 만들고, 실패하고, 기록합니다.

COMMENTS