AI-POT 2급 자격증 공부(ChatGPT_구조_프롬프트처리_RLHF)
ChatGPT는 어떻게 내 질문에 답할까? 구조·처리 과정·RLHF 완전 정리
ChatGPT에 한 줄 입력하면 마치 사람처럼 술술 문장이 흘러나옵니다. 그런데 이 'GPT'가 정확히 뭘 줄인 말인지, 내 질문이 안에서 어떤 단계를 거쳐 답으로 바뀌는지 아시나요? 이 글에서는 ChatGPT의 구조와 특징부터, 프롬프트가 응답으로 변환되는 5단계, 그리고 ChatGPT를 '사람처럼' 만들어준 핵심 기술 RLHF까지 한 번에 정리합니다.
ChatGPT, 이름부터 뜯어보자 — GPT의 정체
ChatGPT는 OpenAI가 개발한 대화형 인공지능 언어 모델이자 대표적인 생성형 AI입니다. 그런데 이 'GPT'라는 세 글자에 ChatGPT의 정체가 다 들어 있어요.
GPT = Generative(생성) · Pre-trained(사전 훈련된) · Transformer(트랜스포머)
시험이든 면접이든 단골로 나오는 부분입니다. 세 단어 중 'Generative(생성)' 와 'Transformer' 는 비교적 쉽게 외워지는데, 진짜 함정은 가운데 있어요.
📌 헷갈리기 쉬운 포인트: 가운데 'Pre-trained(사전 훈련된)' 에 집중하세요. 여기서 한 번씩 막힙니다.
발전 흐름도 간단히 짚고 갈게요.
| 시점 | 모델 | 내용 |
|---|---|---|
| 2021.12.30 | ChatGPT 3.5 | 모델 출시 |
| 2023.03 | GPT-4 | 성능 대폭 향상 |
버전마다 다르다 — 멀티모달은 GPT-4부터
ChatGPT의 기본기는 대화 맥락을 기억하면서 질문 답변·창작·번역·요약 같은 텍스트 작업을 해내는 것입니다. 그런데 버전이 올라가면서 결정적인 변화가 생겼어요. 바로 멀티모달(Multimodal) 입니다.
멀티모달 = 텍스트뿐 아니라 이미지·음성까지 다루는 능력. GPT-4부터 적용됩니다.
| 버전 | 특징 |
|---|---|
| GPT-3.5 | 기본 대화 + 텍스트 작업 (멀티모달 ❌) |
| GPT-4 | 향상된 처리 능력 + 멀티모달(이미지 생성·음성 처리·실시간 웹 검색) |
| GPT-4 옴니(Omni) | 더 복잡한 작업 + 한층 높은 정확도 |
📌 시험 포인트: GPT-3.5는 멀티모달로 보기 어렵고, 멀티모달은 GPT-4 모델부터입니다. 이거 한 줄이 종종 정답을 가릅니다.
참고로 ChatGPT 같은 생성형 AI는 UI/UX가 2~4주마다 빠르게 바뀌기 때문에, 교재 스크린샷과 실제 화면이 다른 건 자연스러운 일이에요. 또 예전 시험과 달리 이제는 웹 검색 기능이 추가돼서, 출제 범위에 따라 답이 달라질 수 있다는 점도 알아두면 좋습니다.
내 질문은 어떻게 답이 될까? — 프롬프트 처리 5단계
여기가 이번 글의 핵심입니다. 내가 입력창에 글을 쓰고 엔터를 누르는 순간, ChatGPT 내부에서는 5단계가 차례로 돌아갑니다.
입력 → 전처리 → 토큰화 → 모델 처리 → 후처리
| 순서 | 단계 | 안에서 벌어지는 일 |
|---|---|---|
| 1 | 입력 | 사용자가 텍스트를 입력 |
| 2 | 전처리 | 이전 대화 기록까지 포함해 컴퓨터가 이해할 컨텍스트를 만듦 |
| 3 | 토큰화 | 컨텍스트를 컴퓨터가 이해하는 조각(토큰) 으로 나누고 의미 부여 |
| 4 | 모델 처리 | 토큰을 받아 계산 → 이때 트랜스포머의 셀프 어텐션이 작동 |
| 5 | 후처리 | 모델이 만든 토큰 ID를 다시 텍스트로 변환 → 최종 응답 완성 |
흐름을 잡는 팁은 이렇습니다. 사람의 말(입력) 이 들어와서, 컴퓨터가 알아들을 형태(전처리·토큰화) 로 바뀌고, 모델이 계산(모델 처리) 한 뒤, 다시 사람의 말(후처리) 로 돌아 나오는 거죠.
🔑 순서 통째 암기: 입력 · 전처리 · 토큰화 · 모델 처리 · 후처리
한 글자씩 예측한다 — 자기 회귀적 생성
그럼 4단계 '모델 처리'에서 답은 정확히 어떻게 만들어질까요? ChatGPT는 완성된 문장을 한 번에 뱉어내지 않습니다. 한 글자(토큰)씩, 차례대로 예측하며 문장을 쌓아 올려요. 이걸 자기 회귀적 생성(Autoregressive) 이라고 부릅니다.
자기 회귀 = 이전에 생성한 토큰들을 근거로, 그다음 올 토큰을 순차적으로 예측하는 방식
예를 들어 "한국의 수도는"이라는 입력이 들어오면,
한국의 수도는 → 서울 → 입니다
이렇게 앞 내용을 보고 다음 단어를 한 칸씩 예측해 나갑니다. ChatGPT가 답을 한 글자씩 타이핑하듯 보여주는 것도 바로 이 원리 때문이에요.
ChatGPT를 '사람처럼' 만든 비밀 — RLHF
기술적으로 답을 생성할 수 있다고 해서, 그게 곧 '사람이 만족하는 답'은 아닙니다. ChatGPT가 유독 자연스럽고 인간적인 이유, 그 핵심에 RLHF가 있습니다.
RLHF (Reinforcement Learning from Human Feedback) = 인간 피드백을 통한 강화 학습
원리는 의외로 직관적입니다. AI가 여러 답변을 내놓으면, 사람이 "이게 더 좋다"고 평가하고, AI는 사람이 좋다고 한 답변을 더 많이 내놓도록 훈련됩니다. 기본 모델이 인간 평가를 받아 강화 학습되는 3단계 구조예요.
여기서 가장 중요한 키워드는 단 하나입니다.
🔑 인간의 피드백(Human Feedback) — "인간 평가자들의 평가로 작동하는 AI 훈련 방법론"이라면 정답은 무조건 RLHF.
모든 토큰을 동시에 본다 — 멀티헤드 어텐션
마지막으로, 모델 처리 단계에서 작동하는 멀티헤드 어텐션(Multi-Head Attention) 을 짚고 갑니다. GPT가 문맥을 이해하는 핵심 메커니즘이에요.
기존 방식이 문장을 앞에서 뒤로 순서대로 읽었다면, 트랜스포머는 모든 토큰 간의 관계를 동시에, 전(全) 방향으로 계산합니다. 작동 순서는 이렇습니다.
- 프롬프트를 여러 토큰으로 분리
- 각 토큰이 다른 토큰과 어떻게 연결되는지 관계를 파악
- 중요도에 따라 점수를 부여
- 수집한 정보를 종합해 응답을 생성
🎼 비유: 멀티헤드 어텐션은 오케스트라 지휘자와 같습니다. 모든 악기(단어)의 관계를 동시에, 병렬적으로 파악해 하나의 연주(응답)로 엮어내죠.
마치며
오늘 내용을 한 문장으로 정리하면 이렇습니다.
ChatGPT는 내 질문을 5단계(입력→전처리→토큰화→모델 처리→후처리)로 가공해, 한 토큰씩 자기회귀적으로 답을 생성하고, RLHF로 그 답을 '사람이 좋아하는 방향'으로 다듬는다.
작동 원리를 알면 프롬프트를 쓰는 손끝도 달라집니다. AI가 어떻게 생각하는지 이해한 사람이, 결국 더 좋은 질문을 던지니까요.
📇 핵심만 빠르게 — 한 줄 암기 카드
- OpenAI 대화형 언어 모델 = 생성형 AI
- GPT = Generative(생성)·Pre-trained(사전훈련)·Transformer(트랜스포머)
- 멀티모달(이미지·음성·웹검색) = GPT-4부터 (3.5 ❌)
- 처리 5단계: 입력 → 전처리 → 토큰화 → 모델 처리 → 후처리
- 모델 처리 단계에서 셀프 어텐션 작동, 후처리 = 토큰 ID → 텍스트
- 한 토큰씩 순차 예측 → 자기 회귀적 생성 ("한국의 수도는 서울입니다")
- 인간 피드백 강화 학습 → RLHF (사람처럼 대화하는 핵심)
- 모든 토큰 관계 동시·병렬 계산 → 멀티헤드 어텐션 (오케스트라 지휘자)
이 글이 도움이 되셨다면 공감과 댓글 부탁드려요. AI 개념 정리 시리즈, 다음 편에서 계속됩니다! 🙌
'공부 > AI-POT' 카테고리의 다른 글
| AI-POT 2급 자격증 공부(AI자연어처리_NLP_프롬프트구조화_패턴) (0) | 2026.06.12 |
|---|---|
| AI-POT 2급 자격증 공부(프롬프트엔지니어링_개념_구성요소_역사) (0) | 2026.06.12 |
| AI-POT 2급 자격증 공부(트랜스포머_사전학습_토크나이저_임베딩) (0) | 2026.06.12 |
| AI-POT 2급 자격증 공부(생성형AI_필수요소_NLP_파라미터_공격) (0) | 2026.06.12 |
| AI-POT 2급 자격증 공부(생성형AI_원리_모델_한계) (0) | 2026.06.12 |