LIGHT
공부/AI-POT 2026. 6. 12. 16:50

AI-POT 2급 자격증 공부(ChatGPT_구조_프롬프트처리_RLHF)

ChatGPT는 어떻게 내 질문에 답할까? 구조·처리 과정·RLHF 완전 정리

ChatGPT에 한 줄 입력하면 마치 사람처럼 술술 문장이 흘러나옵니다. 그런데 이 'GPT'가 정확히 뭘 줄인 말인지, 내 질문이 안에서 어떤 단계를 거쳐 답으로 바뀌는지 아시나요? 이 글에서는 ChatGPT의 구조와 특징부터, 프롬프트가 응답으로 변환되는 5단계, 그리고 ChatGPT를 '사람처럼' 만들어준 핵심 기술 RLHF까지 한 번에 정리합니다.


ChatGPT, 이름부터 뜯어보자 — GPT의 정체

ChatGPT는 OpenAI가 개발한 대화형 인공지능 언어 모델이자 대표적인 생성형 AI입니다. 그런데 이 'GPT'라는 세 글자에 ChatGPT의 정체가 다 들어 있어요.

GPT = Generative(생성) · Pre-trained(사전 훈련된) · Transformer(트랜스포머)

시험이든 면접이든 단골로 나오는 부분입니다. 세 단어 중 'Generative(생성)''Transformer' 는 비교적 쉽게 외워지는데, 진짜 함정은 가운데 있어요.

📌 헷갈리기 쉬운 포인트: 가운데 'Pre-trained(사전 훈련된)' 에 집중하세요. 여기서 한 번씩 막힙니다.

발전 흐름도 간단히 짚고 갈게요.

시점 모델 내용
2021.12.30 ChatGPT 3.5 모델 출시
2023.03 GPT-4 성능 대폭 향상

버전마다 다르다 — 멀티모달은 GPT-4부터

ChatGPT의 기본기는 대화 맥락을 기억하면서 질문 답변·창작·번역·요약 같은 텍스트 작업을 해내는 것입니다. 그런데 버전이 올라가면서 결정적인 변화가 생겼어요. 바로 멀티모달(Multimodal) 입니다.

멀티모달 = 텍스트뿐 아니라 이미지·음성까지 다루는 능력. GPT-4부터 적용됩니다.

버전 특징
GPT-3.5 기본 대화 + 텍스트 작업 (멀티모달 ❌)
GPT-4 향상된 처리 능력 + 멀티모달(이미지 생성·음성 처리·실시간 웹 검색)
GPT-4 옴니(Omni) 더 복잡한 작업 + 한층 높은 정확도

📌 시험 포인트: GPT-3.5는 멀티모달로 보기 어렵고, 멀티모달은 GPT-4 모델부터입니다. 이거 한 줄이 종종 정답을 가릅니다.

참고로 ChatGPT 같은 생성형 AI는 UI/UX가 2~4주마다 빠르게 바뀌기 때문에, 교재 스크린샷과 실제 화면이 다른 건 자연스러운 일이에요. 또 예전 시험과 달리 이제는 웹 검색 기능이 추가돼서, 출제 범위에 따라 답이 달라질 수 있다는 점도 알아두면 좋습니다.


내 질문은 어떻게 답이 될까? — 프롬프트 처리 5단계

여기가 이번 글의 핵심입니다. 내가 입력창에 글을 쓰고 엔터를 누르는 순간, ChatGPT 내부에서는 5단계가 차례로 돌아갑니다.

입력 → 전처리 → 토큰화 → 모델 처리 → 후처리

순서 단계 안에서 벌어지는 일
1 입력 사용자가 텍스트를 입력
2 전처리 이전 대화 기록까지 포함해 컴퓨터가 이해할 컨텍스트를 만듦
3 토큰화 컨텍스트를 컴퓨터가 이해하는 조각(토큰) 으로 나누고 의미 부여
4 모델 처리 토큰을 받아 계산 → 이때 트랜스포머의 셀프 어텐션이 작동
5 후처리 모델이 만든 토큰 ID를 다시 텍스트로 변환 → 최종 응답 완성

흐름을 잡는 팁은 이렇습니다. 사람의 말(입력) 이 들어와서, 컴퓨터가 알아들을 형태(전처리·토큰화) 로 바뀌고, 모델이 계산(모델 처리) 한 뒤, 다시 사람의 말(후처리) 로 돌아 나오는 거죠.

🔑 순서 통째 암기: 입력 · 전처리 · 토큰화 · 모델 처리 · 후처리


한 글자씩 예측한다 — 자기 회귀적 생성

그럼 4단계 '모델 처리'에서 답은 정확히 어떻게 만들어질까요? ChatGPT는 완성된 문장을 한 번에 뱉어내지 않습니다. 한 글자(토큰)씩, 차례대로 예측하며 문장을 쌓아 올려요. 이걸 자기 회귀적 생성(Autoregressive) 이라고 부릅니다.

자기 회귀 = 이전에 생성한 토큰들을 근거로, 그다음 올 토큰을 순차적으로 예측하는 방식

예를 들어 "한국의 수도는"이라는 입력이 들어오면,

한국의 수도는 → 서울입니다

이렇게 앞 내용을 보고 다음 단어를 한 칸씩 예측해 나갑니다. ChatGPT가 답을 한 글자씩 타이핑하듯 보여주는 것도 바로 이 원리 때문이에요.


ChatGPT를 '사람처럼' 만든 비밀 — RLHF

기술적으로 답을 생성할 수 있다고 해서, 그게 곧 '사람이 만족하는 답'은 아닙니다. ChatGPT가 유독 자연스럽고 인간적인 이유, 그 핵심에 RLHF가 있습니다.

RLHF (Reinforcement Learning from Human Feedback) = 인간 피드백을 통한 강화 학습

원리는 의외로 직관적입니다. AI가 여러 답변을 내놓으면, 사람이 "이게 더 좋다"고 평가하고, AI는 사람이 좋다고 한 답변을 더 많이 내놓도록 훈련됩니다. 기본 모델이 인간 평가를 받아 강화 학습되는 3단계 구조예요.

여기서 가장 중요한 키워드는 단 하나입니다.

🔑 인간의 피드백(Human Feedback) — "인간 평가자들의 평가로 작동하는 AI 훈련 방법론"이라면 정답은 무조건 RLHF.


모든 토큰을 동시에 본다 — 멀티헤드 어텐션

마지막으로, 모델 처리 단계에서 작동하는 멀티헤드 어텐션(Multi-Head Attention) 을 짚고 갑니다. GPT가 문맥을 이해하는 핵심 메커니즘이에요.

기존 방식이 문장을 앞에서 뒤로 순서대로 읽었다면, 트랜스포머는 모든 토큰 간의 관계를 동시에, 전(全) 방향으로 계산합니다. 작동 순서는 이렇습니다.

  1. 프롬프트를 여러 토큰으로 분리
  2. 각 토큰이 다른 토큰과 어떻게 연결되는지 관계를 파악
  3. 중요도에 따라 점수를 부여
  4. 수집한 정보를 종합해 응답을 생성

🎼 비유: 멀티헤드 어텐션은 오케스트라 지휘자와 같습니다. 모든 악기(단어)의 관계를 동시에, 병렬적으로 파악해 하나의 연주(응답)로 엮어내죠.


마치며

오늘 내용을 한 문장으로 정리하면 이렇습니다.

ChatGPT는 내 질문을 5단계(입력→전처리→토큰화→모델 처리→후처리)로 가공해, 한 토큰씩 자기회귀적으로 답을 생성하고, RLHF로 그 답을 '사람이 좋아하는 방향'으로 다듬는다.

작동 원리를 알면 프롬프트를 쓰는 손끝도 달라집니다. AI가 어떻게 생각하는지 이해한 사람이, 결국 더 좋은 질문을 던지니까요.


📇 핵심만 빠르게 — 한 줄 암기 카드

  • OpenAI 대화형 언어 모델 = 생성형 AI
  • GPT = Generative(생성)·Pre-trained(사전훈련)·Transformer(트랜스포머)
  • 멀티모달(이미지·음성·웹검색) = GPT-4부터 (3.5 ❌)
  • 처리 5단계: 입력 → 전처리 → 토큰화 → 모델 처리 → 후처리
  • 모델 처리 단계에서 셀프 어텐션 작동, 후처리 = 토큰 ID → 텍스트
  • 한 토큰씩 순차 예측 → 자기 회귀적 생성 ("한국의 수도는 서울입니다")
  • 인간 피드백 강화 학습 → RLHF (사람처럼 대화하는 핵심)
  • 모든 토큰 관계 동시·병렬 계산 → 멀티헤드 어텐션 (오케스트라 지휘자)

이 글이 도움이 되셨다면 공감과 댓글 부탁드려요. AI 개념 정리 시리즈, 다음 편에서 계속됩니다! 🙌

 

h

hyos

IT · 스타트업 · 개인기록. 만들고, 실패하고, 기록합니다.

COMMENTS