Pink Rose Flower

AWS

[AWS] AWS Certified AI Practitioner 개념 정리 - 3

hyunjoo 2025. 6. 22. 23:07

1. 파운데이션 모델(Foundation Model)이란?

파운데이션 모델은 라벨이 없는 대규모 데이터를 기반으로 자기지도 학습을 통해 사전 학습된 후, 다양한 태스크에 전이 학습이나 프롬프트 기반 학습으로 쉽게 적용할 수 있는 범용 인공지능 모델을 의미한다.

텍스트, 이미지, 코드, 음성 등 멀티모달 입력을 처리할 수 있으며, 하나의 모델이 번역, 요약, 생성, 분류 등 여러 작업을 수행할 수 있는 것이 특징이다. 쉽게 말해, 하나의 초거대 모델을 만들어 여러 가지 문제에 재사용할 수 있는 AI의 범용 엔진이라고 볼 수 있다.

 

 

인공지능 (AI: Artificial Intelligence)
└── 머신러닝 (ML: Machine Learning)
    ├── 지도학습 (Supervised Learning)
    ├── 비지도학습 (Unsupervised Learning)
    ├── 준지도학습 (Semi-Supervised Learning)
    ├── 강화학습 (Reinforcement Learning)
    └── 딥러닝 (DL: Deep Learning)
        ├── 합성곱 신경망 (CNN)
        ├── 순환 신경망 (RNN, LSTM, GRU)
        ├── 생성모델 (GAN, VAE)
        └── 트랜스포머 (Transformer)
            ├── 언어 모델 (Language Models)
            │   ├── BERT (Encoder-only)
            │   ├── GPT (Decoder-only)
            │   └── T5 (Encoder-Decoder)
            │
            └── 파운데이션 모델 (Foundation Model)
                ├── 대형 언어 모델 (LLM: GPT-4, Claude, Gemini 등)
                ├── 멀티모달 모델 (텍스트+이미지+음성: GPT-4o, Gemini 1.5 등)
                └── 생성형 AI 응용 (ChatGPT, Copilot, DALL·E, Sora 등)

 

2. 기존 AI 모델과의 차이점

구분 기존 AI 모델 파운데이션 모델
학습 방식 특정 작업에 맞춰 별도 학습 대규모 범용 데이터로 사전학습
데이터 요구 작업별 라벨링된 데이터 필요 라벨 없이도 자기지도 학습 가능
적용 범위 한 가지 작업에 특화 다양한 작업에 재활용 가능
확장성 모델별 한계 있음 모델 크기/데이터가 커질수록 성능 향상 (Scaling Law)
예시 CNN(이미지 분류), RNN(시계열 예측), SVM GPT, BERT, PaLM, LLaMA, DALL·E, GPT-4o 등

 

 

3. 파운데이션 모델 핵심 특징

3-1) 대규모 자기지도 학습 (Self-Supervised Learning)

파운데이션 모델은 라벨이 없는 대규모 데이터를 활용하여 스스로 학습합니다. 문장 속 단어를 가리고 예측하거나, 다음에 올 단어를 추론하는 방식으로 데이터를 이해하는 능력을 기릅니다. 이러한 자기지도 학습 방식은 별도의 수작업 라벨링 없이도 방대한 범용 데이터를 학습할 수 있게 해주며, 모델의 확장성과 범용성에 중요한 기반이 됩니다.

 

3-2) 범용성 (Generality)

기존 모델들은 특정 작업에만 특화되어 있었다면, 파운데이션 모델은 하나의 모델로 번역, 요약, 질의응답, 텍스트 생성 등 여러 작업을 수행할 수 있습니다. 특정 태스크에 한정되지 않고 다양한 작업에 재사용 가능한 구조로 설계되어 있어, 매우 높은 활용도를 가집니다.
이러한 범용성 덕분에 GPT나 Gemini 같은 모델들이 다양한 서비스에서 통합적으로 활용될 수 있습니다.

 

3-3) 전이 학습 용이성 (Transferability)

파운데이션 모델은 학습된 지식을 바탕으로 새로운 작업에 빠르게 적응할 수 있습니다. 사전학습된 모델에 적은 양의 데이터를 추가로 학습시키는 파인튜닝(fine-tuning), 또는 프롬프트(prompt)를 통해 문맥만 제시하고 학습 없이도 작업을 수행하는 방식이 대표적입니다.
이러한 유연성 덕분에 실제 활용 시 개발 시간과 비용을 크게 줄일 수 있습니다.

 

3-4) Few-shot / Zero-shot 학습 능력

파운데이션 모델은 몇 개의 예시만 주거나, 심지어 예시 없이도 새로운 작업을 수행할 수 있는 능력을 갖추고 있습니다.
Few-shot 학습은 모델에 몇 가지 예시를 제공하고 문맥 속에서 패턴을 파악하게 하며, Zero-shot 학습은 예시 없이 자연어 지시만으로도 작업을 수행할 수 있게 합니다. 이러한 능력은 모델이 언어 구조와 논리를 깊이 있게 학습하고 있다는 증거이며, 데이터가 부족한 환경에서도 높은 성능을 낼 수 있게 해줍니다.

 

3-5) 스케일 법칙 (Scaling Law)

파운데이션 모델은 모델의 크기(파라미터 수), 학습 데이터의 양, 학습 연산량이 증가할수록 성능도 함께 향상되는 특성을 보입니다.
이러한 ‘스케일 법칙’은 대형 모델들이 성능에서 우위를 보이는 근거이며, GPT-4, Gemini 1.5, Claude 3와 같은 초거대 모델 개발을 정당화하는 이론적 기반이 됩니다.

 

3-6) 멀티모달 처리 가능성

파운데이션 모델은 텍스트뿐 아니라 이미지, 음성, 영상 등 다양한 형태의 데이터를 함께 이해하고 처리할 수 있습니다.
예를 들어 CLIP은 이미지와 텍스트의 연관성을 학습하고, GPT-4o는 텍스트, 이미지, 음성까지 통합 입력을 처리하며, Sora는 텍스트로부터 영상을 생성할 수 있습니다. 이러한 멀티모달 처리 능력은 단순한 언어 모델을 넘어, 보다 인간과 유사한 인공지능 시스템으로 진화하고 있음을 보여줍니다.

 

 

4. 활용 사례와 대표 모델

모델명 소속 주요 특징 활용 사례
GPT-4 / GPT-4o OpenAI 텍스트·이미지·음성 처리 가능, 대화·요약·코드 생성에 강점 ChatGPT, Copilot, Bing AI
PaLM 2 / Gemini 1.5 Google DeepMind 멀티모달 처리, 장기 문맥 이해, 다양한 언어에 최적화 Bard → Gemini 통합
Claude 3 Anthropic 대용량 문서 처리, 윤리 중심 설계, 안정적인 응답 문서 요약, 법률 분석, 고객 응대
LLaMA 3 Meta 오픈소스 기반, 커뮤니티 확산 중심, 다양한 파인튜닝 가능 OpenChat, Mistral 기반 모델 등
DALL·E 3 OpenAI 텍스트를 이미지로 생성, 자연스러운 그림 표현력 콘텐츠 제작, 광고, 디자인
Sora OpenAI 텍스트를 짧은 동영상으로 생성, 움직임·배경 표현력 우수 시각적 아이디어 시뮬레이션
CLIP OpenAI 이미지-텍스트 간 의미 유사도 학습, 멀티모달 인식 기반 기술 이미지 검색, 멀티모달 추론

 

 

5. 기술적 구조와 학습 방식

5-1) 트랜스포머(Transformer) 기반 구조

파운데이션 모델은 대부분 트랜스포머(Transformer) 아키텍처를 기반으로 설계됩니다.
2017년 구글이 발표한 이 구조는 병렬 연산이 가능하고, 문맥 정보를 잘 포착할 수 있어 대규모 데이터 학습에 매우 적합합니다.
트랜스포머는 입력 간의 관계를 계산하는 **어텐션 메커니즘(self-attention)**을 통해 긴 문장이나 복잡한 문맥도 효과적으로 처리할 수 있습니다.

 

5-2) 모델 구조 유형

파운데이션 모델은 사용 목적에 따라 다음 세 가지 트랜스포머 구조 중 하나로 설계됩니다.

  • Encoder-only
    입력을 이해하는 데 최적화된 구조로, 주로 문장 분류, 감정 분석 등에 사용됩니다.
    대표 모델: BERT
  • Decoder-only
    이전 단어를 기반으로 다음 단어를 생성하는 구조로, 자연어 생성에 특화되어 있습니다.
    대표 모델: GPT 시리즈
  • Encoder-Decoder
    입력을 이해한 후 출력까지 생성하는 구조로, 번역이나 요약 같은 입력-출력 매핑 작업에 사용됩니다.
    대표 모델: T5, BART

 

5-3) 학습 방식: 자기지도 학습 (Self-Supervised Learning)

파운데이션 모델은 대부분 자기지도 학습(self-supervised learning) 방식을 사용합니다.
이는 별도의 라벨 없이도 데이터를 스스로 예측하도록 학습시키는 방식이며, 대표적으로 다음과 같은 학습 방식이 사용됩니다.

  • Masked Language Modeling (MLM)
    입력 문장에서 일부 단어를 가리고(masking) 이를 예측하도록 학습
    → BERT, RoBERTa 등에서 사용
  • Causal Language Modeling (CLM)
    앞 단어를 기반으로 다음 단어를 예측하도록 학습
    → GPT 계열에서 사용
  • Contrastive Learning
    서로 관련 있는 쌍(예: 이미지와 설명)을 가깝게, 무관한 쌍은 멀어지도록 학습
    → CLIP, DINO 등 멀티모달 모델에 활용

 

5-4) 멀티모달 학습 구조

최근 파운데이션 모델은 텍스트뿐 아니라 이미지, 음성, 영상 등 다양한 모달(Modalities)을 함께 처리할 수 있는 방향으로 발전하고 있다.

  • 입력 정규화 및 융합
    서로 다른 데이터 유형(예: 이미지 픽셀, 음성 파형, 텍스트 토큰)을 벡터 형태로 통일하여 트랜스포머에 입력
  • 공통 임베딩 공간
    서로 다른 모달 간 의미적 유사도를 계산할 수 있도록, 동일한 벡터 공간에서 학습
  • 대표 모델
    GPT-4o(텍스트·음성·이미지), Gemini 1.5, Flamingo 등

 

5-5) 학습 전략

파운데이션 모델은 일반적으로 다음 두 단계로 학습 및 활용된다.

  • 1단계: 사전 학습 (Pretraining)
    웹 문서, 코드, 이미지 등 방대한 범용 데이터를 기반으로 모델을 먼저 학습
  • 2단계: 후속 활용 (Fine-tuning 또는 Prompting)
    • Fine-tuning: 특정 태스크에 맞춰 추가 학습
    • Prompting: 학습 없이 자연어 지시만으로 태스크 수행
    • In-context learning: 프롬프트 안에 몇 가지 예시를 보여주고 모델이 문맥을 활용해 작업 수행

 

6. AWS 기반 모델 서비스

서비스 설명 주요 활용 사례
Amazon SageMaker 통합 개발환경(IDE), 학습/튜닝/배포 자동화 지원. 사전 학습 모델도 활용 가능 커스텀 ML 모델 학습 및 배포, 생성형 AI 모델 미세조정(Fine-Tuning)
Amazon Bedrock OpenAI, Anthropic, Cohere 등 주요 기업의 LLM API에 서버리스로 접근 가능 텍스트 생성, 요약, 분류, 생성형 챗봇 구축
SageMaker JumpStart 사전 훈련된 모델과 템플릿을 빠르게 가져다 쓸 수 있는 서비스 텍스트 생성, 이미지 분류, 감정 분석 등 빠른 프로토타입 개발
SageMaker Studio Lab SageMaker의 경량 버전. 무료로 사용할 수 있는 모델 실험 환경 생성형 AI 실습, 간단한 모델 학습, 학습용 데모 개발
Amazon CodeWhisperer 코드 자동 완성 AI. 프롬프트 기반으로 코드 추천 및 생성 수행 코드 생성, 보안 감지, 개발자 프로덕티비티 향상
Amazon Polly 텍스트 → 음성(TTS) 변환. 다양한 언어/음색/억양 조정 가능 뉴스 낭독, 오디오북 생성, 음성 비서 앱 구축
Amazon Transcribe 음성 → 텍스트(STT) 변환. 스트리밍 오디오도 지원 회의록 자동화, 전화 상담 분석, 자막 생성
Amazon Comprehend 텍스트 감정 분석, 개체명 인식(NER), 토픽 모델링 등 자연어 처리 기능 제공 고객 피드백 분석, 문서 자동 태깅, 뉴스 클러스터링 등
Amazon Translate 자동 번역 API 서비스. 여러 언어 간 실시간 번역 지원 다국어 챗봇, 다국어 문서 처리, 웹사이트 자동 번역 등
Amazon Kendra 문서 내 지식 기반 질문에 정답을 반환하는 인텔리전트 검색 서비스 고객사 내부 지식검색, Q&A 챗봇, 문서 기반 검색 시스템 구축
Amazon Lex 대화형 인터페이스 구축. 음성/텍스트 기반 챗봇 제작 가능 고객 상담 챗봇, 예약 시스템, FAQ 자동화 등

 

7. 커스터마이징 방법

생성형 AI 모델을 특정 도메인이나 목적에 맞게 최적화하려면 커스터마이징이 필요하다.
이 과정에서 가장 대표적인 방식은 전이 학습(Transfer Learning)이며, 여기에 포함되는 다양한 방법들이 있다. 전이 학습은 사전 학습된 대형 모델을 그대로 사용하지 않고, 새로운 데이터나 지식에 맞게 모델을 재조정하는 접근 방식이다.

방법 설명 대표 활용 서비스 예시
Fine-Tuning
(미세 조정)
사전 학습된 모델에 특정 도메인의 데이터를 추가 학습시켜 성능을 향상시킴 SageMaker,
Bedrock
법률 문서 요약, 의료 데이터 분류, 산업 특화 챗봇
Prompt Engineering
(프롬프트 설계)
별도 학습 없이 잘 설계된 프롬프트로 모델 응답을 유도 Bedrock,
CodeWhisperer, Lex
“~한 형식으로 정리해줘” / “표 형식으로 요약해줘” 등 지시형 문장 설계
Instruction Tuning 특정 지시문(Instruction)에 대해 모델이 일관되게 응답하도록 훈련 Bedrock (Anthropic Claude 계열 등) “고객 응대 문장 생성”, “비즈니스 요약 전용 모델” 등
Retrieval-Augmented
Generation (RAG)
검색 기반 지식(DB, 문서)을 함께 결합하여 응답 정확도를 높임 Kendra +
Bedrock,
SageMaker +
OpenSearch
내부 정책 문서를 검색 후 요약, 기업 지식 기반 질의응답 등
Embedding 기반 검색 사용자 데이터셋을 벡터화하여 의미 기반 검색을 수행하고 생성 결과에 반영 Bedrock + Kendra / SageMaker 유사한 고객 리뷰 검색 후 요약, 특정 주제 기사 모음 후 생성
모델 선택 및 사양 조절 목적에 따라 GPT, Claude, Titan 등 다양한 LLM 중 선택하고 파라미터 설정 조정 가능 Bedrock 빠른 응답 → 작은 모델 / 고품질 응답 → 큰 모델 선택
엔드포인트 환경 최적화 추론 속도, 비용 효율성을 고려하여 서버리스 / 배치 / 멀티모델 호스팅 구성 가능 SageMaker Hosting,
Serverless Inference
대규모 문서 일괄 요약은 배치 추론, 실시간 질의는 엔드포인트 사용

 

8. 모델 평가 방법

모델 유형 평가 지표 설명 활용 상황
분류
(Classification)
Accuracy (정확도) 전체 샘플 중 정답을 맞힌 비율 데이터가 균형 잡혀 있을 때
  Precision (정밀도) 예측이 True인 것 중 실제로도 True인 비율 스팸 필터링, 질병 진단 등
False Positive가 중요할 때
  Recall (재현율) 실제 True 중 예측도 True인 비율 암 탐지, 결함 검출 등
False Negative가 중요할 때
  F1 Score Precision과 Recall의 조화 평균 데이터 불균형 문제에서
적절한 지표
  AUC-ROC 다양한 임계값에서의 분류 성능 요약 이진 분류 모델의 전반적인
성능 비교
회귀
(Regression)
RMSE(Root Mean
Squared Error)
실제값과 예측값 차이의 제곱 평균의 제곱근 (오차 크기에 민감) 가격 예측, 수요 예측
  MAE
(Mean Absolute Error)
실제값과 예측값 차이의 절댓값 평균 이상치 영향이 적은 회귀 문제
  R² Score (결정 계수) 모델이 전체 변동성 중 얼마나 설명했는지를 나타냄 예측 모델의 설명력 평가
생성 모델
(Generative)
BLEU
(Bilingual Evaluation Understudy)
생성 문장과 기준 정답 간의 n-gram 중복률 기반 정량 평가. 단어 위치 및 정렬에 민감하게 작동함. 기계번역, 코드 생성
  ROUGE
(Recall-Oriented
Understudy for
Gisting Evaluation)
참조 문장 내 단어(n-gram)가 생성 문장에서 얼마나 잘 회수(Recall)되었는지 평가 텍스트 요약, 문서 생성
  METEOR BLEU의 보완형. 동의어, 어근, 형태소 분석 등을 통해 문장 유사도를 더 섬세하게 계산 기계번역, 문장 생성
  BERTScore 사전학습된 BERT 모델의 토큰 임베딩 유사도를 기반으로 의미적 유사성을 정량화함 고급 자연어 생성 평가 (예: 추론, 요약, 창의적 문장 등)
  Inception Score (IS) 생성 이미지가 분명한 클래스에 속하고, 다양한 이미지를 생성하는지를 측정 GAN 등 생성 모델 성능 비교
  Human Evaluation
(사람 평가)
문장 자연스러움, 논리성, 문맥 적합도 등 주관적 평가 필요 ChatGPT, 생성형 AI 등 응답의 질 평가
클러스터링
(비지도)
실루엣 계수
(Silhouette Score)
각 샘플이 군집에 잘 속해 있는지 측정 K-Means, 계층 군집 등
  엘보우 기법
(Elbow Method)
군집 수를 적절히 결정하는 데 사용되는 시각적 도구 최적 클러스터 수 설정

 

 

 

 

참고 문헌: 

https://aws.amazon.com/ko/what-is/foundation-models/

 

파운데이션 모델이란?- 생성형 AI의 파운데이션 모델 설명 - AWS

파운데이션 모델은 사전 훈련되었더라도 추론 중에 데이터 입력 또는 프롬프트를 통해 계속 학습할 수 있습니다. 즉, 세심하게 선별된 프롬프트를 통해 포괄적인 결과를 개발할 수 있습니다. FM

aws.amazon.com

https://blogs.nvidia.co.kr/blog/what-are-foundation-models/

 

파운데이션 모델이란 무엇인가? | NVIDIA Blog

1956년에 마일즈 데이비스 퀸텟(Miles Davis Quintet)은 프레스티지 레코드 사의 스튜디오에서 라이브 연주를 녹음하고 있었습니다.

blogs.nvidia.co.kr

 

반응형