Pink Rose Flower

AWS

[AWS] AWS Certified AI Practitioner 개념 정리 - 1

hyunjoo 2025. 6. 22. 23:05

자주 나왔던 개념들만 간단히 정리해보기!

시험에서 각 개념에 대해 깊이있게 물어보지는 않아서 간단하게만 정리해 보았다.

 

 

1. 머신러닝 학습 방식 정리: 지도학습, 비지도학습, 강화학습

학습 방법 입력 데이터 정답(라벨) 유무 학습 목표 대표 사례
지도학습 있음 있음 입력에 대한 정답을 예측 분류, 회귀 문제
비지도학습 있음 없음 데이터 내 숨겨진 구조나 패턴 발견 군집화, 차원 축소
강화학습 있음 즉각적인 정답은 없고 보상 존재 보상을 최대화하는 최적의 행동 학습 게임 전략, 자율 주행

 

1-1) 지도학습 (Supervised Learning)

지도학습은 입력값과 그에 대응하는 정답(라벨)을 함께 제공하여 학습하는 방법으로 모델은 주어진 입력에 대해 정답을 예측하는 방향으로 학습을 진행한다. 정답과 예측값 사이의 오차를 줄여가며 학습이 이루어진다.

유형 주요 알고리즘
분류 로지스틱 회귀, 결정 트리, SVM, KNN, 신경망
회귀 선형 회귀, 릿지 회귀, 라쏘 회귀

 

1-2) 비지도학습(Unsupervised Learning)

비지도학습은 정답이 주어지지 않은 데이터로부터 유의미한 정보나 구조를 찾아내는 방법이다. 모델은 라벨이 없이도 스스로 데이터의 패턴, 군집, 특성 등을 파악해야 한다.

유형 설명 주요 알고리즘
군집화 유사한 데이터끼리 자동으로 그룹화 K-Means, DBSCAN, 계층적 군집화
차원 축소 주요 특징만 남기고 정보 압축 PCA, t-SNE
연관 규칙 학습 항목 간의 관계나 규칙 발견 Apriori, FP-Growth

 

1-3) 강화학습 (Reinforcement Learning)

강화학습은 에이전트(agent)가 환경(environment)과 상호작용하며 보상(reward)을 최대화하는 방향으로 학습하는 방법이다.
정답은 없고, 보상을 기준으로 무엇이 더 나은 행동인지를 스스로 학습해나간다.

유형 설명 주요 알고리즘
가치 기반 학습 상태의 가치 또는 행동의 가치를 추정하여 학습 Q-Learning, SARSA, DQN
정책 기반 학습 직접적으로 최적의 행동을 선택하는 정책을 학습 Policy Gradient, REINFORCE
Actor-Critic 가치 기반 + 정책 기반의 혼합형 구조 A2C, A3C, PPO 등

⭐️⭐️⭐️⭐️⭐️  2. 주요 AWS(Amazon Web Services) AI 서비스

아마존에서 제공하는 다양한 ai 서비스들 중 몇가지 서비스들의 기능에 대해 정리해보자. 

 

1) 모델 개발 및 호스팅

서비스명  설명 활용 사례
Amazon SageMaker 머신러닝 모델을 코드 없이도 쉽게 학습, 튜닝, 배포할 수 있는 완전관리형 플랫폼임. 실시간 추론 API 생성, MLOps 관리, AutoML 기능 등을 포함함. 수요 예측 모델 개발, 개인화 추천 시스템 구축, 금융 리스크 예측 등
AWS Lambda 서버를 직접 운영하지 않고 코드만으로 자동 실행되는 서버리스 컴퓨팅 환경을 제공함. 이벤트 기반 처리를 위한 핵심 인프라임. 이미지 업로드 시 자동 추론,
API 호출 후 실시간 예측 수행, 모델 결과 처리 자동화 등
AWS Glue 데이터를 수집하고, 정제 및 변환(ETL)하여 AI 모델 학습에 적합한 구조로 가공하는 서버리스 데이터 통합 서비스임. 대용량 로그 데이터 정제, 데이터 웨어하우스 적재 전 사전 가공, SageMaker 학습 데이터셋 생성 등
AWS Step Functions 여러 AWS 서비스(SageMaker, Lambda 등)를 연결하여 워크플로우 기반으로 자동화된 머신러닝 파이프라인을 구성할 수 있게 해주는 오케스트레이션 서비스임. “데이터 수집 → 모델 학습 →
예측 → 저장” 전 과정을 자동화, MLOps 파이프라인 구축 등
Amazon RDS / Aurora / DocumentDB AI 모델이 사용하는 입력 데이터 또는 예측 결과를 저장하는 관계형/문서형 데이터베이스 서비스임. 실시간 분석이나 학습용 데이터 저장소로 자주 활용됨. 예측 결과 저장 및 조회, 사용자 행동 로그 기록, 입력 피처 데이터 보관 등

 

 

2) AI 서비스 ( 사전 훈련된 AI API )

2-1) 이미지/비디오 처리

서비스명 설명 주요 활용 사례
Amazon Rekognition 이미지와 비디오에서 얼굴, 객체, 장면, 텍스트 등을 자동으로 감지하는 컴퓨터 비전 서비스임. 사전 학습된 모델을 사용하므로 별도 학습이 필요 없음. 얼굴 인증 시스템, 부적절 콘텐츠 자동 필터링, CCTV 영상 내 이상행동 감지 등

 

2-2) 텍스트 및 문서 처리

서비스명 설명 주요 활용 사례
Amazon Comprehend - 감정 분석, 개체명 인식(NER), 토픽 모델링 등 텍스트 의미 분석
- AWS에서 제공하는 완전관리형 자연어 처리(NLP) 서비스로,
텍스트에서 의미를 자동으로 분석하고 추출하는 기능을 제공.
- 기계학습 모델을 직접 구축하지 않고도 텍스트 분류, 감정 분석, 개체명 인식(NER)[: 사람, 장소, 날씨, 통화 등 고유명사 추출],핵심 문구 자동 추출, 언어 자동 감지, 개인 정보 자동 인식 및 마스킹..  등 다양한 작업을 수행
리뷰 감정 분석, 뉴스 자동 분류, 고객 상담 기록 분석 등
Amazon Textract - 문서 이미지(PDF, 스캔본 등)에서 텍스트뿐 아니라 표, 체크박스, 폼 필드 등 구조화된 정보까지 인식하여 추출하는 고급 OCR 서비스
- 단순 문자열 추출이 아닌 문서 레이아웃과 문맥을 함께 이해함
보험청구서 처리 자동화,
계약서 디지털화, 인보이스 분석 등
Amazon Translate - 100개 이상의 언어 간 자동 번역을 제공하는 뉴럴 기계 번역(NMT) 기반 서비스
- 문장 구조와 문맥을 고려하여 자연스러운 번역 결과를 생성함
글로벌 웹사이트 번역,
다국어 채팅 지원,
문서 자동 번역 등
Amazon Kendra - 사용자의 자연어 질문(Query)에 대해 기업 내부 문서(FAQ, PDF, 정책 문서 등)에서 가장 관련 있는 정보를 추론 및 검색하는 AI 기반 문서 검색 서비스
- 단순 키워드 매칭이 아닌 문맥 기반 질의응답이 강점임
고객지원 챗봇 내 정보 검색,
정책 문서 검색 자동화,
내부 지식 시스템 구축 등

 

2-3) 음성 처리

서비스명 설명 주요 활용 사례
Amazon Transcribe 음성 데이터를 텍스트로 자동 변환하는 STT(Speech-to-Text) 서비스. 다양한 언어와 억양을 지원함. 회의 자동 자막 생성, 콜센터 대화 기록 분석, 영상 자막 처리 등
Amazon Polly 텍스트를 자연스러운 사람 음성으로 합성하는 TTS(Text-to-Speech) 서비스임. 여러 언어와 음색을 지원함. 음성 안내 시스템, 오디오북 제작, 시각장애인을 위한 웹 콘텐츠 음성화 등

 

2-4) 챗봇 및 인터페이스

서비스명 설명 주요 활용 사례
Amazon Lex 자연어 이해(NLU) 기반의 음성 및 텍스트 챗봇을 생성할 수 있는 서비스. Amazon Alexa와 동일한 기술을 기반으로 함. 예약 챗봇, 고객 상담 챗봇, 간단한 업무 자동화 인터페이스 구축 등

 

2-5) 개인화 

서비스명 설명 주요 활용 사례
Amazon Personalize 사용자의 행동 데이터를 기반으로 추천 시스템을 손쉽게 구축할 수 있는 AI 서비스. Collaborative Filtering, Ranking 등 다양한 알고리즘이 내장되어 있음. 실시간 제품 추천, 개인화 콘텐츠 제공

 

 

3) 생성형 AI (Generative AI)

서비스명 설명 주요 활용 사례
Amazon Bedrock 다양한 생성형 AI 모델(Anthropic Claude, Meta Llama, Cohere, Amazon Titan 등)을 API 형태로 사용할 수 있도록 제공하는 플랫폼임. 인프라 관리 없이 텍스트 생성, 요약, 분류, 질의응답 등의 LLM 기능을 바로 활용할 수 있음. 비즈니스 문서 요약, 고객 질문 자동 응답, 콘텐츠 생성 자동화, 코드 리뷰 자동화 등
Amazon
CodeWhisperer
개발자가 IDE 환경에서 코딩할 때 실시간으로 코드 추천 및 자동 완성을 제공하는 생성형 AI 서비스임. 보안, 성능, 문서화까지 고려된 코드 추천이 가능함. Python, Java 등 다양한 언어에서 함수 자동 완성, 주석 기반 코드 생성, 보안 취약점 감지 등
Amazon Q AWS 전문가처럼 작동하는 생성형 AI 기반 업무 도우미로, 자연어로 질문하면 AWS 서비스 구성, 코드 작성, 리소스 추천 등을 자동으로 안내함. Bedrock 기반으로 작동함. “이 설정이 왜 안 될까?” 같은 질문에 대한 코드 기반 응답, IAM 정책 자동 작성, 서비스 추천 등
Amazon
DeepComposer
AI 기반으로 음악을 작곡할 수 있는 체험형 생성 AI 플랫폼임. 음악 생성 AI를 시각적으로 실험해보며 딥러닝의 원리를 익힐 수 있도록 설계됨. AI 교육 콘텐츠, 음악 생성 입문, GAN 기반 음원 조합 실습 등 (실제 프로덕션보다는 교육용에 가까움)

 

 

4) 데이터 스트리밍 및 실시간 처리

서비스명 설명 주요 활용 사례
Amazon Kinesis 실시간으로 대용량 데이터 스트리밍을 수집·처리·분석할 수 있는 서비스임. 스트리밍 데이터를 AI 모델에 실시간 입력하거나, 이벤트 기반 처리를 구현하는 데 사용됨. 센서 데이터 실시간 수집, 사용자 클릭 로그 분석, 실시간 추천 시스템 구축 등
Amazon Lookout for Metrics 시계열 데이터나 비즈니스 지표에서 이상치를 자동 탐지하고, 이상 원인을 분석하는 완전관리형 AI 서비스임. 머신러닝 기반으로 패턴을 학습하고 예기치 못한 변화에 반응함. 매출 급변 감지, 사용자 수 급감 탐지, 시스템 지표 모니터링 등
Amazon Monitron 공장·설비 등의 산업 장비에 부착된 IoT 센서를 통해 데이터를 수집하고, 장비 이상 상태를 자동으로 감지하는 예지 보전 서비스임. 제조 장비 고장 예측, 진동/온도 이상 감지, 정비 시점 예측 등

 

 

5) 헬스케어 및 생명과학 특화 AI

서비스명 설명 주요 활용 사례
Amazon Comprehend Medical 임상 기록이나 의료 문서에서 질병명, 약물, 검사 결과, 증상 등의 의료 정보를 자동으로 추출하는 의료 특화 자연어 처리 서비스임. HIPAA를 준수하며, 의료 텍스트 구조화에 적합함. 전자의무기록(EMR) 분석, 임상 요약 자동화, 보험 청구 문서 처리 등
AWS HealthImaging 의료용 영상(DICOM 등)을 저장, 검색, 분석할 수 있는 고성능 클라우드 기반 의료 영상 플랫폼임. AI 기반 영상 분석과 연계하여 빠르고 효율적인 헬스케어 워크플로우를 구축할 수 있음. 병원 PACS 대체, 방사선 영상 분석 AI 연계, 진단 영상 처리 최적화 등
AWS HealthOmics 유전체, 단백질, RNA 등 생명과학 데이터의 저장, 처리, 분석을 위한 특화 인프라 서비스임. 생물정보학 워크플로우 및 AI 기반 생명정보 분석에 적합함. 유전체 분석 파이프라인 구축, 맞춤형 치료 분석, 생명과학 연구 데이터 처리 등

 

 

6) 데이터 시각화 및 분석

서비스명 설명  주요 활용 사례
Amazon QuickSight 대시보드, 그래프, 지표 등 시각적 요소를 통해 데이터를 분석할 수 있는 BI(Business Intelligence) 도구임. ML 기반 인사이트 예측 기능도 탑재되어 있음. 사용자 행동 분석 시각화, 예측 모델 결과 대시보드, 매출 트렌드 자동 탐지 등

 

 

7) AI와 함께 자주 활용되는 인프라 서비스

서비스명 설명 주요 활용 사례
Amazon RDS (for PostgreSQL) 관계형 데이터베이스로, AI 학습용 데이터 저장소 및 예측 결과 보관소로 활용됨. 고객정보, 트랜잭션, 로그 데이터 저장 및 AI와 연계 처리
Amazon Aurora MySQL/PostgreSQL 호환 고성능 관계형 DB 서비스로, AI 시스템의 실시간 처리에 적합함. AI 결과 기록, 사용자 상태 저장, 분석용 데이터 운영 등
Amazon DocumentDB (MongoDB 호환) NoSQL 문서형 데이터베이스로, 비정형 데이터나 JSON 구조 데이터 저장에 유리함. 챗봇 대화 로그, 이벤트 스트림 저장, 사용자 피드백 기록 등
Amazon OpenSearch Service Elasticsearch 기반의 실시간 검색 및 로그 분석 플랫폼임. AI 결과나 예측 정보를 검색 가능한 형태로 저장하고 제공함. 유사 문서 검색, AI 추천 결과 필터링, 시스템 로그 분석 등

 

 

3. API 호출형 서비스 vs 직접 구성형 서비스

위에서 본 서비스들을 기능별이 아닌 api 호출 여부로 다시 한번 정리해보고 두 차이에 대해 알아보자!

API 호출형 서비스 직접 구성형 서비스
사전 훈련된 AI 모델을 AWS가 제공하고, 사용자는 API로 호출만 하면 됨 사용자가 직접 데이터를 준비하고 모델을 학습/배포하거나 데이터 파이프라인을 구성해야 함
  • 별도 모델 학습 필요 없음
  • REST API 혹은 SDK로 바로 사용 가능
  • 빠르게 결과를 얻을 수 있음 (Low-code/No-code)
  • 요금은 호출 횟수 기반
  • 데이터 전처리, 모델 설계/학습, 튜닝을 사용자가 직접 해야함
  • 커스터마이징 가능
  • 비용은 리소스 사용량 및 실행 시간 기반
Rekognition, Polly, Transcribe, Textract, Comprehend, 
Translate, Lex, Kendra, Bedrock, CodeWhisperer
SageMaker, Lambda, Glue, Kinesis

 

 

4. Amazon SageMaker의 세부 기능

Amazon SageMaker는 데이터 수집부터 모델 배포·모니터링, 그리고 생성형 AI 통합까지 전 과정을 아우르는 올인원 ML 플랫폼이다.
SageMaker는 구성 요소별로 세분화된 기능들을 통해 사용자가 코드 기반 혹은 시각적 인터페이스로 유연하게 ML 파이프라인을 설계할 수 있도록 지원한다.

SageMaker의 전체 흐름을 데이터 준비 → 모델 개발 및 학습 → 배포 및 서빙 → 모니터링 및 운영 → 사전 훈련 모델 활용의 5단계로 나누어, 각 단계에서 어떤 기능이 제공되는지를 정리해보자

구분 서비스명 기능 설명
① 데이터 준비 SageMaker Data Wrangler 시각적 인터페이스를 통해 데이터를 수집, 전처리, 탐색, 피처 엔지니어링까지 수행함.
  SageMaker Ground Truth 반자동 또는 수동 방식으로 정확한 라벨링 데이터를 생성할 수 있도록 지원함.
  SageMaker Feature Store ML 학습 및 추론에 사용하는 피처(Feature)를 저장하고 재사용할 수 있는 중앙 저장소 역할을 함.
  SageMaker Processing 전처리, 후처리, 모델 평가 등 반복적인 배치 작업을 수행할 수 있는 컴퓨팅 환경을 제공함.
② 모델 개발 및 학습 SageMaker Studio Jupyter 기반의 통합 개발환경으로, 실험 관리, 디버깅, 데이터 분석 등을 통합적으로 지원함.
  SageMaker Training Jobs 대규모 데이터를 분산 환경에서 학습할 수 있으며, 비용 최적화를 위한 Spot 인스턴스도 지원함.
  Hyperparameter Tuning
(HPO)
하이퍼파라미터를 자동으로 조정해 최적의 모델 성능을 찾을 수 있도록 함.
  SageMaker Experiments 여러 실험 결과와 파라미터, 메트릭을 체계적으로 관리하고 비교할 수 있음.
  SageMaker Debugger 학습 중 내부 상태를 실시간 추적하고, 비정상적 학습 패턴을 자동으로 탐지함.
③ 모델 배포 및 서빙 SageMaker Hosting
/ Endpoints
실시간 추론이 가능한 엔드포인트를 배포하고 지속적으로 운영할 수 있음.

(엔드포인트 배포란 ? 훈련된 모델을 API 형태로 실시간 요청을 처리할 수 있게 만드는 것. 즉, 학습된 모델을 클라우드 환경에 올려두고, 외부 시스템(웹, 앱, Lambda 등)에서 HTTP 요청으로 예측을 받을 수 있도록 API 서버처럼 항상 켜져 있는 형태로 운영하는 것 )
  SageMaker Batch Transform 대량의 입력 데이터를 비동기적/비실시간으로 예측할 수 있음.
  SageMaker Serverless
Inference
요청이 있을 때만 인프라가 활성화되는 서버리스 방식으로, 유휴 비용이 발생하지 않음.
  Multi-Model Endpoints 하나의 엔드포인트에서 여러 모델을 동시에 운영할 수 있어 효율성과 비용 최적화에 유리함.
④ 모델 모니터링 및 관리 SageMaker Model Monitor 배포된 모델의 입력 데이터와 예측 결과를 지속적으로 감시하고, 데이터 드리프트를 탐지함.( 데이터 드리프트(Data Drift)란 ? 모델을 훈련할 때 사용했던 데이터 분포와 운영(예측) 중에 실제 들어오는 입력 데이터의 분포가 달라지는 현상. 즉 모델이 과거 데이터로 학습했는데, 지금 들어오는 데이터가 전혀 다른 패턴을 보인다면 예측 정확도가 떨어지는 현상) 
  SageMaker Model Registry 모델을 버전별로 등록하고, 승인 및 배포 상태를 체계적으로 관리함.
  SageMaker Clarify 모델 편향성(Bias) 분석 및 설명 가능성(Explainability) 평가 기능을 제공함.
(모델 편향성이란? 모델이 특정 집단(예: 성별, 연령, 인종 등)에 대해 불균형하거나 불공정한 예측을 하는 현상을 의미함) 
( 설명 가능성이란? 모델의 예측 결과에 대해 왜 이런 결과가 나왔는지에 대해 사람이 이해할 수 있도록 설명하는 능력을 말함. 복잡한 모델일 수록 설명 어려움 )
  SageMaker Pipelines ML 전체 워크플로우를 코드 기반으로 정의하고, 자동화 및 재사용 가능한 파이프라인을 구성함.
⑤ 사전 훈련 모델 활용 및 통합 SageMaker JumpStart 사전 훈련된 다양한 모델과 솔루션 템플릿을 제공하여 실험을 빠르게 시작할 수 있음.
  SageMaker Studio Lab SageMaker의 무료 경량 버전 실험 환경으로, 개인 프로젝트 및 학습용으로 활용 가능함.
  SageMaker Agents for
Bedrock
생성형 AI 모델(Bedrock)을 SageMaker 내에서 Agent 형태로 호출하고 통합할 수 있음.
반응형