1. 파운데이션 모델(Foundation Model)이란?
파운데이션 모델은 라벨이 없는 대규모 데이터를 기반으로 자기지도 학습을 통해 사전 학습된 후, 다양한 태스크에 전이 학습이나 프롬프트 기반 학습으로 쉽게 적용할 수 있는 범용 인공지능 모델을 의미한다.
텍스트, 이미지, 코드, 음성 등 멀티모달 입력을 처리할 수 있으며, 하나의 모델이 번역, 요약, 생성, 분류 등 여러 작업을 수행할 수 있는 것이 특징이다. 쉽게 말해, 하나의 초거대 모델을 만들어 여러 가지 문제에 재사용할 수 있는 AI의 범용 엔진이라고 볼 수 있다.
인공지능 (AI: Artificial Intelligence)
└── 머신러닝 (ML: Machine Learning)
├── 지도학습 (Supervised Learning)
├── 비지도학습 (Unsupervised Learning)
├── 준지도학습 (Semi-Supervised Learning)
├── 강화학습 (Reinforcement Learning)
└── 딥러닝 (DL: Deep Learning)
├── 합성곱 신경망 (CNN)
├── 순환 신경망 (RNN, LSTM, GRU)
├── 생성모델 (GAN, VAE)
└── 트랜스포머 (Transformer)
├── 언어 모델 (Language Models)
│ ├── BERT (Encoder-only)
│ ├── GPT (Decoder-only)
│ └── T5 (Encoder-Decoder)
│
└── 파운데이션 모델 (Foundation Model)
├── 대형 언어 모델 (LLM: GPT-4, Claude, Gemini 등)
├── 멀티모달 모델 (텍스트+이미지+음성: GPT-4o, Gemini 1.5 등)
└── 생성형 AI 응용 (ChatGPT, Copilot, DALL·E, Sora 등)
2. 기존 AI 모델과의 차이점
구분 | 기존 AI 모델 | 파운데이션 모델 |
학습 방식 | 특정 작업에 맞춰 별도 학습 | 대규모 범용 데이터로 사전학습 |
데이터 요구 | 작업별 라벨링된 데이터 필요 | 라벨 없이도 자기지도 학습 가능 |
적용 범위 | 한 가지 작업에 특화 | 다양한 작업에 재활용 가능 |
확장성 | 모델별 한계 있음 | 모델 크기/데이터가 커질수록 성능 향상 (Scaling Law) |
예시 | CNN(이미지 분류), RNN(시계열 예측), SVM | GPT, BERT, PaLM, LLaMA, DALL·E, GPT-4o 등 |
3. 파운데이션 모델 핵심 특징
3-1) 대규모 자기지도 학습 (Self-Supervised Learning)
파운데이션 모델은 라벨이 없는 대규모 데이터를 활용하여 스스로 학습합니다. 문장 속 단어를 가리고 예측하거나, 다음에 올 단어를 추론하는 방식으로 데이터를 이해하는 능력을 기릅니다. 이러한 자기지도 학습 방식은 별도의 수작업 라벨링 없이도 방대한 범용 데이터를 학습할 수 있게 해주며, 모델의 확장성과 범용성에 중요한 기반이 됩니다.
3-2) 범용성 (Generality)
기존 모델들은 특정 작업에만 특화되어 있었다면, 파운데이션 모델은 하나의 모델로 번역, 요약, 질의응답, 텍스트 생성 등 여러 작업을 수행할 수 있습니다. 특정 태스크에 한정되지 않고 다양한 작업에 재사용 가능한 구조로 설계되어 있어, 매우 높은 활용도를 가집니다.
이러한 범용성 덕분에 GPT나 Gemini 같은 모델들이 다양한 서비스에서 통합적으로 활용될 수 있습니다.
3-3) 전이 학습 용이성 (Transferability)
파운데이션 모델은 학습된 지식을 바탕으로 새로운 작업에 빠르게 적응할 수 있습니다. 사전학습된 모델에 적은 양의 데이터를 추가로 학습시키는 파인튜닝(fine-tuning), 또는 프롬프트(prompt)를 통해 문맥만 제시하고 학습 없이도 작업을 수행하는 방식이 대표적입니다.
이러한 유연성 덕분에 실제 활용 시 개발 시간과 비용을 크게 줄일 수 있습니다.
3-4) Few-shot / Zero-shot 학습 능력
파운데이션 모델은 몇 개의 예시만 주거나, 심지어 예시 없이도 새로운 작업을 수행할 수 있는 능력을 갖추고 있습니다.
Few-shot 학습은 모델에 몇 가지 예시를 제공하고 문맥 속에서 패턴을 파악하게 하며, Zero-shot 학습은 예시 없이 자연어 지시만으로도 작업을 수행할 수 있게 합니다. 이러한 능력은 모델이 언어 구조와 논리를 깊이 있게 학습하고 있다는 증거이며, 데이터가 부족한 환경에서도 높은 성능을 낼 수 있게 해줍니다.
3-5) 스케일 법칙 (Scaling Law)
파운데이션 모델은 모델의 크기(파라미터 수), 학습 데이터의 양, 학습 연산량이 증가할수록 성능도 함께 향상되는 특성을 보입니다.
이러한 ‘스케일 법칙’은 대형 모델들이 성능에서 우위를 보이는 근거이며, GPT-4, Gemini 1.5, Claude 3와 같은 초거대 모델 개발을 정당화하는 이론적 기반이 됩니다.
3-6) 멀티모달 처리 가능성
파운데이션 모델은 텍스트뿐 아니라 이미지, 음성, 영상 등 다양한 형태의 데이터를 함께 이해하고 처리할 수 있습니다.
예를 들어 CLIP은 이미지와 텍스트의 연관성을 학습하고, GPT-4o는 텍스트, 이미지, 음성까지 통합 입력을 처리하며, Sora는 텍스트로부터 영상을 생성할 수 있습니다. 이러한 멀티모달 처리 능력은 단순한 언어 모델을 넘어, 보다 인간과 유사한 인공지능 시스템으로 진화하고 있음을 보여줍니다.
4. 활용 사례와 대표 모델
모델명 | 소속 | 주요 특징 | 활용 사례 |
GPT-4 / GPT-4o | OpenAI | 텍스트·이미지·음성 처리 가능, 대화·요약·코드 생성에 강점 | ChatGPT, Copilot, Bing AI |
PaLM 2 / Gemini 1.5 | Google DeepMind | 멀티모달 처리, 장기 문맥 이해, 다양한 언어에 최적화 | Bard → Gemini 통합 |
Claude 3 | Anthropic | 대용량 문서 처리, 윤리 중심 설계, 안정적인 응답 | 문서 요약, 법률 분석, 고객 응대 |
LLaMA 3 | Meta | 오픈소스 기반, 커뮤니티 확산 중심, 다양한 파인튜닝 가능 | OpenChat, Mistral 기반 모델 등 |
DALL·E 3 | OpenAI | 텍스트를 이미지로 생성, 자연스러운 그림 표현력 | 콘텐츠 제작, 광고, 디자인 |
Sora | OpenAI | 텍스트를 짧은 동영상으로 생성, 움직임·배경 표현력 우수 | 시각적 아이디어 시뮬레이션 |
CLIP | OpenAI | 이미지-텍스트 간 의미 유사도 학습, 멀티모달 인식 기반 기술 | 이미지 검색, 멀티모달 추론 |
5. 기술적 구조와 학습 방식
5-1) 트랜스포머(Transformer) 기반 구조
파운데이션 모델은 대부분 트랜스포머(Transformer) 아키텍처를 기반으로 설계됩니다.
2017년 구글이 발표한 이 구조는 병렬 연산이 가능하고, 문맥 정보를 잘 포착할 수 있어 대규모 데이터 학습에 매우 적합합니다.
트랜스포머는 입력 간의 관계를 계산하는 **어텐션 메커니즘(self-attention)**을 통해 긴 문장이나 복잡한 문맥도 효과적으로 처리할 수 있습니다.
5-2) 모델 구조 유형
파운데이션 모델은 사용 목적에 따라 다음 세 가지 트랜스포머 구조 중 하나로 설계됩니다.
- Encoder-only
입력을 이해하는 데 최적화된 구조로, 주로 문장 분류, 감정 분석 등에 사용됩니다.
대표 모델: BERT - Decoder-only
이전 단어를 기반으로 다음 단어를 생성하는 구조로, 자연어 생성에 특화되어 있습니다.
대표 모델: GPT 시리즈 - Encoder-Decoder
입력을 이해한 후 출력까지 생성하는 구조로, 번역이나 요약 같은 입력-출력 매핑 작업에 사용됩니다.
대표 모델: T5, BART
5-3) 학습 방식: 자기지도 학습 (Self-Supervised Learning)
파운데이션 모델은 대부분 자기지도 학습(self-supervised learning) 방식을 사용합니다.
이는 별도의 라벨 없이도 데이터를 스스로 예측하도록 학습시키는 방식이며, 대표적으로 다음과 같은 학습 방식이 사용됩니다.
- Masked Language Modeling (MLM)
입력 문장에서 일부 단어를 가리고(masking) 이를 예측하도록 학습
→ BERT, RoBERTa 등에서 사용 - Causal Language Modeling (CLM)
앞 단어를 기반으로 다음 단어를 예측하도록 학습
→ GPT 계열에서 사용 - Contrastive Learning
서로 관련 있는 쌍(예: 이미지와 설명)을 가깝게, 무관한 쌍은 멀어지도록 학습
→ CLIP, DINO 등 멀티모달 모델에 활용
5-4) 멀티모달 학습 구조
최근 파운데이션 모델은 텍스트뿐 아니라 이미지, 음성, 영상 등 다양한 모달(Modalities)을 함께 처리할 수 있는 방향으로 발전하고 있다.
- 입력 정규화 및 융합
서로 다른 데이터 유형(예: 이미지 픽셀, 음성 파형, 텍스트 토큰)을 벡터 형태로 통일하여 트랜스포머에 입력 - 공통 임베딩 공간
서로 다른 모달 간 의미적 유사도를 계산할 수 있도록, 동일한 벡터 공간에서 학습 - 대표 모델
GPT-4o(텍스트·음성·이미지), Gemini 1.5, Flamingo 등
5-5) 학습 전략
파운데이션 모델은 일반적으로 다음 두 단계로 학습 및 활용된다.
- 1단계: 사전 학습 (Pretraining)
웹 문서, 코드, 이미지 등 방대한 범용 데이터를 기반으로 모델을 먼저 학습 - 2단계: 후속 활용 (Fine-tuning 또는 Prompting)
- Fine-tuning: 특정 태스크에 맞춰 추가 학습
- Prompting: 학습 없이 자연어 지시만으로 태스크 수행
- In-context learning: 프롬프트 안에 몇 가지 예시를 보여주고 모델이 문맥을 활용해 작업 수행
6. AWS 기반 모델 서비스
서비스 | 설명 | 주요 활용 사례 |
Amazon SageMaker | 통합 개발환경(IDE), 학습/튜닝/배포 자동화 지원. 사전 학습 모델도 활용 가능 | 커스텀 ML 모델 학습 및 배포, 생성형 AI 모델 미세조정(Fine-Tuning) |
Amazon Bedrock | OpenAI, Anthropic, Cohere 등 주요 기업의 LLM API에 서버리스로 접근 가능 | 텍스트 생성, 요약, 분류, 생성형 챗봇 구축 |
SageMaker JumpStart | 사전 훈련된 모델과 템플릿을 빠르게 가져다 쓸 수 있는 서비스 | 텍스트 생성, 이미지 분류, 감정 분석 등 빠른 프로토타입 개발 |
SageMaker Studio Lab | SageMaker의 경량 버전. 무료로 사용할 수 있는 모델 실험 환경 | 생성형 AI 실습, 간단한 모델 학습, 학습용 데모 개발 |
Amazon CodeWhisperer | 코드 자동 완성 AI. 프롬프트 기반으로 코드 추천 및 생성 수행 | 코드 생성, 보안 감지, 개발자 프로덕티비티 향상 |
Amazon Polly | 텍스트 → 음성(TTS) 변환. 다양한 언어/음색/억양 조정 가능 | 뉴스 낭독, 오디오북 생성, 음성 비서 앱 구축 |
Amazon Transcribe | 음성 → 텍스트(STT) 변환. 스트리밍 오디오도 지원 | 회의록 자동화, 전화 상담 분석, 자막 생성 |
Amazon Comprehend | 텍스트 감정 분석, 개체명 인식(NER), 토픽 모델링 등 자연어 처리 기능 제공 | 고객 피드백 분석, 문서 자동 태깅, 뉴스 클러스터링 등 |
Amazon Translate | 자동 번역 API 서비스. 여러 언어 간 실시간 번역 지원 | 다국어 챗봇, 다국어 문서 처리, 웹사이트 자동 번역 등 |
Amazon Kendra | 문서 내 지식 기반 질문에 정답을 반환하는 인텔리전트 검색 서비스 | 고객사 내부 지식검색, Q&A 챗봇, 문서 기반 검색 시스템 구축 |
Amazon Lex | 대화형 인터페이스 구축. 음성/텍스트 기반 챗봇 제작 가능 | 고객 상담 챗봇, 예약 시스템, FAQ 자동화 등 |
7. 커스터마이징 방법
생성형 AI 모델을 특정 도메인이나 목적에 맞게 최적화하려면 커스터마이징이 필요하다.
이 과정에서 가장 대표적인 방식은 전이 학습(Transfer Learning)이며, 여기에 포함되는 다양한 방법들이 있다. 전이 학습은 사전 학습된 대형 모델을 그대로 사용하지 않고, 새로운 데이터나 지식에 맞게 모델을 재조정하는 접근 방식이다.
방법 | 설명 | 대표 활용 서비스 | 예시 |
Fine-Tuning (미세 조정) |
사전 학습된 모델에 특정 도메인의 데이터를 추가 학습시켜 성능을 향상시킴 | SageMaker, Bedrock |
법률 문서 요약, 의료 데이터 분류, 산업 특화 챗봇 |
Prompt Engineering (프롬프트 설계) |
별도 학습 없이 잘 설계된 프롬프트로 모델 응답을 유도 | Bedrock, CodeWhisperer, Lex |
“~한 형식으로 정리해줘” / “표 형식으로 요약해줘” 등 지시형 문장 설계 |
Instruction Tuning | 특정 지시문(Instruction)에 대해 모델이 일관되게 응답하도록 훈련 | Bedrock (Anthropic Claude 계열 등) | “고객 응대 문장 생성”, “비즈니스 요약 전용 모델” 등 |
Retrieval-Augmented Generation (RAG) |
검색 기반 지식(DB, 문서)을 함께 결합하여 응답 정확도를 높임 | Kendra + Bedrock, SageMaker + OpenSearch |
내부 정책 문서를 검색 후 요약, 기업 지식 기반 질의응답 등 |
Embedding 기반 검색 | 사용자 데이터셋을 벡터화하여 의미 기반 검색을 수행하고 생성 결과에 반영 | Bedrock + Kendra / SageMaker | 유사한 고객 리뷰 검색 후 요약, 특정 주제 기사 모음 후 생성 |
모델 선택 및 사양 조절 | 목적에 따라 GPT, Claude, Titan 등 다양한 LLM 중 선택하고 파라미터 설정 조정 가능 | Bedrock | 빠른 응답 → 작은 모델 / 고품질 응답 → 큰 모델 선택 |
엔드포인트 환경 최적화 | 추론 속도, 비용 효율성을 고려하여 서버리스 / 배치 / 멀티모델 호스팅 구성 가능 | SageMaker Hosting, Serverless Inference |
대규모 문서 일괄 요약은 배치 추론, 실시간 질의는 엔드포인트 사용 |
8. 모델 평가 방법
모델 유형 | 평가 지표 | 설명 | 활용 상황 |
분류 (Classification) |
Accuracy (정확도) | 전체 샘플 중 정답을 맞힌 비율 | 데이터가 균형 잡혀 있을 때 |
Precision (정밀도) | 예측이 True인 것 중 실제로도 True인 비율 | 스팸 필터링, 질병 진단 등 False Positive가 중요할 때 |
|
Recall (재현율) | 실제 True 중 예측도 True인 비율 | 암 탐지, 결함 검출 등 False Negative가 중요할 때 |
|
F1 Score | Precision과 Recall의 조화 평균 | 데이터 불균형 문제에서 적절한 지표 |
|
AUC-ROC | 다양한 임계값에서의 분류 성능 요약 | 이진 분류 모델의 전반적인 성능 비교 |
|
회귀 (Regression) |
RMSE(Root Mean Squared Error) |
실제값과 예측값 차이의 제곱 평균의 제곱근 (오차 크기에 민감) | 가격 예측, 수요 예측 |
MAE (Mean Absolute Error) |
실제값과 예측값 차이의 절댓값 평균 | 이상치 영향이 적은 회귀 문제 | |
R² Score (결정 계수) | 모델이 전체 변동성 중 얼마나 설명했는지를 나타냄 | 예측 모델의 설명력 평가 | |
생성 모델 (Generative) |
BLEU (Bilingual Evaluation Understudy) |
생성 문장과 기준 정답 간의 n-gram 중복률 기반 정량 평가. 단어 위치 및 정렬에 민감하게 작동함. | 기계번역, 코드 생성 |
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) |
참조 문장 내 단어(n-gram)가 생성 문장에서 얼마나 잘 회수(Recall)되었는지 평가 | 텍스트 요약, 문서 생성 | |
METEOR | BLEU의 보완형. 동의어, 어근, 형태소 분석 등을 통해 문장 유사도를 더 섬세하게 계산 | 기계번역, 문장 생성 | |
BERTScore | 사전학습된 BERT 모델의 토큰 임베딩 유사도를 기반으로 의미적 유사성을 정량화함 | 고급 자연어 생성 평가 (예: 추론, 요약, 창의적 문장 등) | |
Inception Score (IS) | 생성 이미지가 분명한 클래스에 속하고, 다양한 이미지를 생성하는지를 측정 | GAN 등 생성 모델 성능 비교 | |
Human Evaluation (사람 평가) |
문장 자연스러움, 논리성, 문맥 적합도 등 주관적 평가 필요 | ChatGPT, 생성형 AI 등 응답의 질 평가 | |
클러스터링 (비지도) |
실루엣 계수 (Silhouette Score) |
각 샘플이 군집에 잘 속해 있는지 측정 | K-Means, 계층 군집 등 |
엘보우 기법 (Elbow Method) |
군집 수를 적절히 결정하는 데 사용되는 시각적 도구 | 최적 클러스터 수 설정 |
참고 문헌:
https://aws.amazon.com/ko/what-is/foundation-models/
파운데이션 모델이란?- 생성형 AI의 파운데이션 모델 설명 - AWS
파운데이션 모델은 사전 훈련되었더라도 추론 중에 데이터 입력 또는 프롬프트를 통해 계속 학습할 수 있습니다. 즉, 세심하게 선별된 프롬프트를 통해 포괄적인 결과를 개발할 수 있습니다. FM
aws.amazon.com
https://blogs.nvidia.co.kr/blog/what-are-foundation-models/
파운데이션 모델이란 무엇인가? | NVIDIA Blog
1956년에 마일즈 데이비스 퀸텟(Miles Davis Quintet)은 프레스티지 레코드 사의 스튜디오에서 라이브 연주를 녹음하고 있었습니다.
blogs.nvidia.co.kr
'AWS' 카테고리의 다른 글
[AWS] AWS Certified AI Practitioner 취득 후기 (0) | 2025.06.22 |
---|---|
[AWS] AWS Certified AI Practitioner 개념 정리 - 5 (0) | 2025.06.22 |
[AWS] AWS Certified AI Practitioner 개념 정리 - 4 (0) | 2025.06.22 |
[AWS] AWS Certified AI Practitioner 개념 정리 - 2 (0) | 2025.06.22 |
[AWS] AWS Certified AI Practitioner 개념 정리 - 1 (0) | 2025.06.22 |