LLM 기초 개념 총정리 - 대규모 언어 모델의 모든 것

ChatGPT가 세상을 바꿨습니다. 하지만 그 뒤에 있는 기술, LLM(Large Language Model, 대규모 언어 모델)을 제대로 이해하는 사람은 많지 않습니다. LLM은 단순한 챗봇이 아닙니다. AI 혁명의 핵심이자, 앞으로 10년을 바꿀 기술입니다.

LLM이란 무엇인가?

LLM은 방대한 텍스트 데이터로 학습한 AI 모델입니다. 인터넷의 책, 기사, 위키피디아, 코드를 읽으면서 언어의 패턴을 배웁니다. 수십억 개의 단어를 학습하며 문법, 사실, 추론 능력까지 습득합니다.

핵심은 '확률적 예측'입니다. "하늘은 ___"이라는 문장에서 다음 단어로 "파랗다"가 올 확률이 높다는 것을 학습합니다. 단순해 보이지만, 수천억 개의 파라미터로 이 확률을 정교하게 계산하면 놀라운 일이 가능합니다.

GPT-3는 1750억 개의 파라미터를 가집니다. GPT-4는 공개되지 않았지만 1조 개가 넘을 것으로 추정됩니다. 파라미터가 많을수록 더 복잡한 패턴을 학습하고, 더 정교한 언어를 생성합니다.

하지만 LLM은 진짜 '이해'를 하는 걸까요? 논쟁이 있습니다. 어떤 학자는 통계적 패턴 매칭일 뿐이라고 하고, 어떤 학자는 emergent ability(창발적 능력)로 진짜 이해에 가깝다고 합니다. 확실한 건, 실용적으로는 이해하는 것처럼 작동한다는 것입니다.

LLM의 진화 과정

초기 언어 모델은 작았습니다. 2018년 BERT는 3억 4천만 개 파라미터였습니다. 당시로는 획기적이었지만, 생성 능력은 제한적이었습니다. 주로 분류, 개체명 인식 같은 특정 작업에 쓰였습니다.

GPT-2(2019)는 15억 개 파라미터로 처음으로 그럴듯한 문장 생성을 보여줬습니다. OpenAI는 처음에 "악용 가능성" 때문에 공개를 망설였습니다. 하지만 지금 보면 GPT-2는 귀여운 수준입니다.

GPT-3(2020)가 게임 체인저였습니다. 1750억 개 파라미터로 Few-shot Learning을 보여줬습니다. 예시 몇 개만 주면 새로운 작업을 수행합니다. 별도 학습 없이 번역, 요약, 코딩, 수학 문제 풀이를 합니다.

ChatGPT(2022)는 GPT-3.5를 대화에 최적화했습니다. RLHF(Reinforcement Learning from Human Feedback)로 인간의 선호를 학습했습니다. 유용하고, 무해하고, 정직한 답변을 하도록 조정되었습니다.

GPT-4(2023)는 멀티모달입니다. 텍스트뿐 아니라 이미지도 이해합니다. 추론 능력이 크게 향상되어 변호사 시험 상위 10%에 들 정도입니다. Claude, Gemini 같은 경쟁자도 등장했습니다.

LLM의 핵심 기술들

Transformer 아키텍처가 모든 것의 시작입니다. 2017년 Google이 발표한 "Attention is All You Need" 논문에서 소개되었습니다. Self-Attention 메커니즘으로 문장의 모든 단어를 동시에 참조합니다. RNN의 순차 처리보다 훨씬 효율적입니다.

Pre-training과 Fine-tuning이 학습 전략입니다. Pre-training에서는 방대한 데이터로 언어의 기본을 배웁니다. "다음 단어 예측" 같은 간단한 작업으로 자가 학습합니다. Fine-tuning에서는 특정 작업에 맞게 조정합니다.

Tokenization은 텍스트를 처리 가능한 단위로 나눕니다. 단어보다 작은 서브워드 단위로 나눕니다. "running"을 "run"과 "ning"으로 나누는 식입니다. 이렇게 하면 모르는 단어도 추론할 수 있습니다.

Temperature와 Top-p는 생성의 다양성을 조절합니다. Temperature가 높으면 창의적이지만 무작위적입니다. 낮으면 일관적이지만 지루합니다. Top-p는 확률 상위 몇 %만 고려합니다. 이 파라미터를 조절해 원하는 스타일을 얻습니다.

RLHF(Reinforcement Learning from Human Feedback)는 인간의 피드백으로 모델을 조정합니다. 여러 답변을 생성하고 사람이 좋은 답변을 선택합니다. 모델은 이 선호를 학습해 더 나은 답변을 생성하도록 진화합니다.

LLM의 강점과 한계

강점은 명확합니다. 범용성이 뛰어납니다. 하나의 모델로 번역, 요약, 코딩, 작문, 분석 등 무수한 작업을 합니다. Few-shot Learning으로 새 작업에 빠르게 적응합니다. 자연스러운 대화가 가능해 누구나 쓸 수 있습니다.

하지만 한계도 분명합니다. 환각(Hallucination)이 가장 큰 문제입니다. 사실이 아닌 내용을 그럴듯하게 지어냅니다. 출처를 확인하지 않고 믿으면 위험합니다.

지식 컷오프도 문제입니다. 학습 시점 이후의 정보는 모릅니다. GPT-4도 2023년 4월 이후 일은 모릅니다. RAG 같은 기술로 보완할 수 있지만, 기본적인 한계입니다.

수학과 논리적 추론에서 실수합니다. 복잡한 계산이나 여러 단계의 논리는 잘못된 결론을 내릴 수 있습니다. Chain-of-Thought 프롬프팅으로 개선되지만 완벽하지 않습니다.

편향도 문제입니다. 학습 데이터의 편향을 그대로 반영합니다. 인터넷 텍스트가 주로 서구 중심이고, 특정 집단에 대한 고정관념이 포함되어 있습니다. OpenAI, Anthropic 등이 노력하지만 완전히 제거하기 어렵습니다.

실전 활용 전략

프롬프트 엔지니어링이 핵심 스킬입니다. 같은 모델도 질문을 어떻게 하느냐에 따라 결과가 천차만별입니다. 명확하고 구체적으로 질문하세요. 역할을 부여하고("당신은 전문 마케터입니다"), 예시를 제공하고, 단계별로 생각하게 하세요.

시스템 메시지를 활용하세요. API를 쓴다면 시스템 메시지로 모델의 행동을 설정할 수 있습니다. "당신은 친절하고 간결하게 답변하는 비서입니다" 같은 지침을 줍니다.

반복적으로 개선하세요. 첫 번째 답변이 마음에 안 들면 피드백을 주고 재생성하세요. "더 전문적으로", "더 간단하게", "예시를 추가해" 같은 지시로 원하는 결과에 가까워집니다.

도구와 함께 쓰세요. LLM만으로는 한계가 있습니다. 계산은 계산기에, 최신 정보는 검색엔진에, 이미지 생성은 Midjourney에 맡기세요. LangChain 같은 프레임워크로 여러 도구를 orchestrate할 수 있습니다.

프라이버시를 조심하세요. 민감한 정보는 입력하지 마세요. OpenAI 같은 회사는 입력 데이터로 모델을 개선할 수 있습니다. API 설정에서 데이터 사용을 opt-out할 수 있는지 확인하세요.

실천 가이드

여러 모델 비교하기: ChatGPT만 쓰지 말고 Claude, Gemini, Perplexity도 써보세요. 각각 장단점이 있습니다. 창의적 작문은 Claude가, 최신 정보는 Perplexity가 나을 수 있습니다.
프롬프트 라이브러리 만들기: 잘 작동하는 프롬프트를 모아두세요. 업무 보고서, 이메일, 기획서 같은 반복 작업용 템플릿을 만들어두면 효율이 높아집니다.
API로 자동화하기: 반복 작업은 API로 자동화하세요. Python 스크립트로 여러 문서를 한 번에 요약하거나, 고객 문의에 자동 답변할 수 있습니다.
한계 인지하기: LLM이 만능은 아닙니다. 중요한 결정은 사람이 해야 합니다. LLM은 초안 작성, 아이디어 브레인스토밍, 정보 검색 보조로 쓰고, 최종 판단은 당신이 하세요.
지속적으로 학습하기: LLM 분야는 빠르게 발전합니다. 새로운 모델, 기법, 활용법이 계속 나옵니다. r/ChatGPT, r/LocalLLaMA 같은 커뮤니티를 팔로우하세요.

마무리

LLM은 AI의 가장 중요한 돌파구입니다. 처음으로 AI가 자연어로 인간과 소통하며 복잡한 작업을 수행할 수 있게 되었습니다. 단순한 도구를 넘어, 일하는 방식 자체를 바꾸고 있습니다.

완벽하지 않습니다. 환각, 편향, 지식 한계 등 문제가 있습니다. 하지만 적절히 활용하면 생산성을 몇 배로 높일 수 있습니다. 반복 작업을 자동화하고, 아이디어를 얻고, 학습을 가속화할 수 있습니다.

중요한 건 LLM을 이해하고 현명하게 쓰는 것입니다. 맹목적으로 믿지도 말고, 두려워 피하지도 마세요. 도구로서 한계를 인지하고 강점을 활용하세요. 그것이 AI 시대를 살아가는 지혜입니다.

함께 읽으면 좋은 글