자주 나왔던 개념들만 간단히 정리해보기!
시험에서 각 개념에 대해 깊이있게 물어보지는 않아서 간단하게만 정리해 보았다.
1. 머신러닝 학습 방식 정리: 지도학습, 비지도학습, 강화학습
학습 방법 | 입력 데이터 | 정답(라벨) 유무 | 학습 목표 | 대표 사례 |
지도학습 | 있음 | 있음 | 입력에 대한 정답을 예측 | 분류, 회귀 문제 |
비지도학습 | 있음 | 없음 | 데이터 내 숨겨진 구조나 패턴 발견 | 군집화, 차원 축소 |
강화학습 | 있음 | 즉각적인 정답은 없고 보상 존재 | 보상을 최대화하는 최적의 행동 학습 | 게임 전략, 자율 주행 |
1-1) 지도학습 (Supervised Learning)
지도학습은 입력값과 그에 대응하는 정답(라벨)을 함께 제공하여 학습하는 방법으로 모델은 주어진 입력에 대해 정답을 예측하는 방향으로 학습을 진행한다. 정답과 예측값 사이의 오차를 줄여가며 학습이 이루어진다.
유형 | 주요 알고리즘 |
분류 | 로지스틱 회귀, 결정 트리, SVM, KNN, 신경망 |
회귀 | 선형 회귀, 릿지 회귀, 라쏘 회귀 |
1-2) 비지도학습(Unsupervised Learning)
비지도학습은 정답이 주어지지 않은 데이터로부터 유의미한 정보나 구조를 찾아내는 방법이다. 모델은 라벨이 없이도 스스로 데이터의 패턴, 군집, 특성 등을 파악해야 한다.
유형 | 설명 | 주요 알고리즘 |
군집화 | 유사한 데이터끼리 자동으로 그룹화 | K-Means, DBSCAN, 계층적 군집화 |
차원 축소 | 주요 특징만 남기고 정보 압축 | PCA, t-SNE |
연관 규칙 학습 | 항목 간의 관계나 규칙 발견 | Apriori, FP-Growth |
1-3) 강화학습 (Reinforcement Learning)
강화학습은 에이전트(agent)가 환경(environment)과 상호작용하며 보상(reward)을 최대화하는 방향으로 학습하는 방법이다.
정답은 없고, 보상을 기준으로 무엇이 더 나은 행동인지를 스스로 학습해나간다.
유형 | 설명 | 주요 알고리즘 |
가치 기반 학습 | 상태의 가치 또는 행동의 가치를 추정하여 학습 | Q-Learning, SARSA, DQN |
정책 기반 학습 | 직접적으로 최적의 행동을 선택하는 정책을 학습 | Policy Gradient, REINFORCE |
Actor-Critic | 가치 기반 + 정책 기반의 혼합형 구조 | A2C, A3C, PPO 등 |
⭐️⭐️⭐️⭐️⭐️ 2. 주요 AWS(Amazon Web Services) AI 서비스
아마존에서 제공하는 다양한 ai 서비스들 중 몇가지 서비스들의 기능에 대해 정리해보자.
1) 모델 개발 및 호스팅
서비스명 | 설명 | 활용 사례 |
Amazon SageMaker | 머신러닝 모델을 코드 없이도 쉽게 학습, 튜닝, 배포할 수 있는 완전관리형 플랫폼임. 실시간 추론 API 생성, MLOps 관리, AutoML 기능 등을 포함함. | 수요 예측 모델 개발, 개인화 추천 시스템 구축, 금융 리스크 예측 등 |
AWS Lambda | 서버를 직접 운영하지 않고 코드만으로 자동 실행되는 서버리스 컴퓨팅 환경을 제공함. 이벤트 기반 처리를 위한 핵심 인프라임. | 이미지 업로드 시 자동 추론, API 호출 후 실시간 예측 수행, 모델 결과 처리 자동화 등 |
AWS Glue | 데이터를 수집하고, 정제 및 변환(ETL)하여 AI 모델 학습에 적합한 구조로 가공하는 서버리스 데이터 통합 서비스임. | 대용량 로그 데이터 정제, 데이터 웨어하우스 적재 전 사전 가공, SageMaker 학습 데이터셋 생성 등 |
AWS Step Functions | 여러 AWS 서비스(SageMaker, Lambda 등)를 연결하여 워크플로우 기반으로 자동화된 머신러닝 파이프라인을 구성할 수 있게 해주는 오케스트레이션 서비스임. | “데이터 수집 → 모델 학습 → 예측 → 저장” 전 과정을 자동화, MLOps 파이프라인 구축 등 |
Amazon RDS / Aurora / DocumentDB | AI 모델이 사용하는 입력 데이터 또는 예측 결과를 저장하는 관계형/문서형 데이터베이스 서비스임. 실시간 분석이나 학습용 데이터 저장소로 자주 활용됨. | 예측 결과 저장 및 조회, 사용자 행동 로그 기록, 입력 피처 데이터 보관 등 |
2) AI 서비스 ( 사전 훈련된 AI API )
2-1) 이미지/비디오 처리
서비스명 | 설명 | 주요 활용 사례 |
Amazon Rekognition | 이미지와 비디오에서 얼굴, 객체, 장면, 텍스트 등을 자동으로 감지하는 컴퓨터 비전 서비스임. 사전 학습된 모델을 사용하므로 별도 학습이 필요 없음. | 얼굴 인증 시스템, 부적절 콘텐츠 자동 필터링, CCTV 영상 내 이상행동 감지 등 |
2-2) 텍스트 및 문서 처리
서비스명 | 설명 | 주요 활용 사례 |
Amazon Comprehend | - 감정 분석, 개체명 인식(NER), 토픽 모델링 등 텍스트 의미 분석 - AWS에서 제공하는 완전관리형 자연어 처리(NLP) 서비스로, 텍스트에서 의미를 자동으로 분석하고 추출하는 기능을 제공. - 기계학습 모델을 직접 구축하지 않고도 텍스트 분류, 감정 분석, 개체명 인식(NER)[: 사람, 장소, 날씨, 통화 등 고유명사 추출],핵심 문구 자동 추출, 언어 자동 감지, 개인 정보 자동 인식 및 마스킹.. 등 다양한 작업을 수행 |
리뷰 감정 분석, 뉴스 자동 분류, 고객 상담 기록 분석 등 |
Amazon Textract | - 문서 이미지(PDF, 스캔본 등)에서 텍스트뿐 아니라 표, 체크박스, 폼 필드 등 구조화된 정보까지 인식하여 추출하는 고급 OCR 서비스 - 단순 문자열 추출이 아닌 문서 레이아웃과 문맥을 함께 이해함 |
보험청구서 처리 자동화, 계약서 디지털화, 인보이스 분석 등 |
Amazon Translate | - 100개 이상의 언어 간 자동 번역을 제공하는 뉴럴 기계 번역(NMT) 기반 서비스 - 문장 구조와 문맥을 고려하여 자연스러운 번역 결과를 생성함 |
글로벌 웹사이트 번역, 다국어 채팅 지원, 문서 자동 번역 등 |
Amazon Kendra | - 사용자의 자연어 질문(Query)에 대해 기업 내부 문서(FAQ, PDF, 정책 문서 등)에서 가장 관련 있는 정보를 추론 및 검색하는 AI 기반 문서 검색 서비스 - 단순 키워드 매칭이 아닌 문맥 기반 질의응답이 강점임 |
고객지원 챗봇 내 정보 검색, 정책 문서 검색 자동화, 내부 지식 시스템 구축 등 |
2-3) 음성 처리
서비스명 | 설명 | 주요 활용 사례 |
Amazon Transcribe | 음성 데이터를 텍스트로 자동 변환하는 STT(Speech-to-Text) 서비스. 다양한 언어와 억양을 지원함. | 회의 자동 자막 생성, 콜센터 대화 기록 분석, 영상 자막 처리 등 |
Amazon Polly | 텍스트를 자연스러운 사람 음성으로 합성하는 TTS(Text-to-Speech) 서비스임. 여러 언어와 음색을 지원함. | 음성 안내 시스템, 오디오북 제작, 시각장애인을 위한 웹 콘텐츠 음성화 등 |
2-4) 챗봇 및 인터페이스
서비스명 | 설명 | 주요 활용 사례 |
Amazon Lex | 자연어 이해(NLU) 기반의 음성 및 텍스트 챗봇을 생성할 수 있는 서비스. Amazon Alexa와 동일한 기술을 기반으로 함. | 예약 챗봇, 고객 상담 챗봇, 간단한 업무 자동화 인터페이스 구축 등 |
2-5) 개인화
서비스명 | 설명 | 주요 활용 사례 |
Amazon Personalize | 사용자의 행동 데이터를 기반으로 추천 시스템을 손쉽게 구축할 수 있는 AI 서비스. Collaborative Filtering, Ranking 등 다양한 알고리즘이 내장되어 있음. | 실시간 제품 추천, 개인화 콘텐츠 제공 |
3) 생성형 AI (Generative AI)
서비스명 | 설명 | 주요 활용 사례 |
Amazon Bedrock | 다양한 생성형 AI 모델(Anthropic Claude, Meta Llama, Cohere, Amazon Titan 등)을 API 형태로 사용할 수 있도록 제공하는 플랫폼임. 인프라 관리 없이 텍스트 생성, 요약, 분류, 질의응답 등의 LLM 기능을 바로 활용할 수 있음. | 비즈니스 문서 요약, 고객 질문 자동 응답, 콘텐츠 생성 자동화, 코드 리뷰 자동화 등 |
Amazon CodeWhisperer |
개발자가 IDE 환경에서 코딩할 때 실시간으로 코드 추천 및 자동 완성을 제공하는 생성형 AI 서비스임. 보안, 성능, 문서화까지 고려된 코드 추천이 가능함. | Python, Java 등 다양한 언어에서 함수 자동 완성, 주석 기반 코드 생성, 보안 취약점 감지 등 |
Amazon Q | AWS 전문가처럼 작동하는 생성형 AI 기반 업무 도우미로, 자연어로 질문하면 AWS 서비스 구성, 코드 작성, 리소스 추천 등을 자동으로 안내함. Bedrock 기반으로 작동함. | “이 설정이 왜 안 될까?” 같은 질문에 대한 코드 기반 응답, IAM 정책 자동 작성, 서비스 추천 등 |
Amazon DeepComposer |
AI 기반으로 음악을 작곡할 수 있는 체험형 생성 AI 플랫폼임. 음악 생성 AI를 시각적으로 실험해보며 딥러닝의 원리를 익힐 수 있도록 설계됨. | AI 교육 콘텐츠, 음악 생성 입문, GAN 기반 음원 조합 실습 등 (실제 프로덕션보다는 교육용에 가까움) |
4) 데이터 스트리밍 및 실시간 처리
서비스명 | 설명 | 주요 활용 사례 |
Amazon Kinesis | 실시간으로 대용량 데이터 스트리밍을 수집·처리·분석할 수 있는 서비스임. 스트리밍 데이터를 AI 모델에 실시간 입력하거나, 이벤트 기반 처리를 구현하는 데 사용됨. | 센서 데이터 실시간 수집, 사용자 클릭 로그 분석, 실시간 추천 시스템 구축 등 |
Amazon Lookout for Metrics | 시계열 데이터나 비즈니스 지표에서 이상치를 자동 탐지하고, 이상 원인을 분석하는 완전관리형 AI 서비스임. 머신러닝 기반으로 패턴을 학습하고 예기치 못한 변화에 반응함. | 매출 급변 감지, 사용자 수 급감 탐지, 시스템 지표 모니터링 등 |
Amazon Monitron | 공장·설비 등의 산업 장비에 부착된 IoT 센서를 통해 데이터를 수집하고, 장비 이상 상태를 자동으로 감지하는 예지 보전 서비스임. | 제조 장비 고장 예측, 진동/온도 이상 감지, 정비 시점 예측 등 |
5) 헬스케어 및 생명과학 특화 AI
서비스명 | 설명 | 주요 활용 사례 |
Amazon Comprehend Medical | 임상 기록이나 의료 문서에서 질병명, 약물, 검사 결과, 증상 등의 의료 정보를 자동으로 추출하는 의료 특화 자연어 처리 서비스임. HIPAA를 준수하며, 의료 텍스트 구조화에 적합함. | 전자의무기록(EMR) 분석, 임상 요약 자동화, 보험 청구 문서 처리 등 |
AWS HealthImaging | 의료용 영상(DICOM 등)을 저장, 검색, 분석할 수 있는 고성능 클라우드 기반 의료 영상 플랫폼임. AI 기반 영상 분석과 연계하여 빠르고 효율적인 헬스케어 워크플로우를 구축할 수 있음. | 병원 PACS 대체, 방사선 영상 분석 AI 연계, 진단 영상 처리 최적화 등 |
AWS HealthOmics | 유전체, 단백질, RNA 등 생명과학 데이터의 저장, 처리, 분석을 위한 특화 인프라 서비스임. 생물정보학 워크플로우 및 AI 기반 생명정보 분석에 적합함. | 유전체 분석 파이프라인 구축, 맞춤형 치료 분석, 생명과학 연구 데이터 처리 등 |
6) 데이터 시각화 및 분석
서비스명 | 설명 | 주요 활용 사례 |
Amazon QuickSight | 대시보드, 그래프, 지표 등 시각적 요소를 통해 데이터를 분석할 수 있는 BI(Business Intelligence) 도구임. ML 기반 인사이트 예측 기능도 탑재되어 있음. | 사용자 행동 분석 시각화, 예측 모델 결과 대시보드, 매출 트렌드 자동 탐지 등 |
7) AI와 함께 자주 활용되는 인프라 서비스
서비스명 | 설명 | 주요 활용 사례 |
Amazon RDS (for PostgreSQL) | 관계형 데이터베이스로, AI 학습용 데이터 저장소 및 예측 결과 보관소로 활용됨. | 고객정보, 트랜잭션, 로그 데이터 저장 및 AI와 연계 처리 |
Amazon Aurora | MySQL/PostgreSQL 호환 고성능 관계형 DB 서비스로, AI 시스템의 실시간 처리에 적합함. | AI 결과 기록, 사용자 상태 저장, 분석용 데이터 운영 등 |
Amazon DocumentDB (MongoDB 호환) | NoSQL 문서형 데이터베이스로, 비정형 데이터나 JSON 구조 데이터 저장에 유리함. | 챗봇 대화 로그, 이벤트 스트림 저장, 사용자 피드백 기록 등 |
Amazon OpenSearch Service | Elasticsearch 기반의 실시간 검색 및 로그 분석 플랫폼임. AI 결과나 예측 정보를 검색 가능한 형태로 저장하고 제공함. | 유사 문서 검색, AI 추천 결과 필터링, 시스템 로그 분석 등 |
3. API 호출형 서비스 vs 직접 구성형 서비스
위에서 본 서비스들을 기능별이 아닌 api 호출 여부로 다시 한번 정리해보고 두 차이에 대해 알아보자!
API 호출형 서비스 | 직접 구성형 서비스 |
사전 훈련된 AI 모델을 AWS가 제공하고, 사용자는 API로 호출만 하면 됨 | 사용자가 직접 데이터를 준비하고 모델을 학습/배포하거나 데이터 파이프라인을 구성해야 함 |
|
|
Rekognition, Polly, Transcribe, Textract, Comprehend, Translate, Lex, Kendra, Bedrock, CodeWhisperer |
SageMaker, Lambda, Glue, Kinesis |
4. Amazon SageMaker의 세부 기능
Amazon SageMaker는 데이터 수집부터 모델 배포·모니터링, 그리고 생성형 AI 통합까지 전 과정을 아우르는 올인원 ML 플랫폼이다.
SageMaker는 구성 요소별로 세분화된 기능들을 통해 사용자가 코드 기반 혹은 시각적 인터페이스로 유연하게 ML 파이프라인을 설계할 수 있도록 지원한다.
SageMaker의 전체 흐름을 데이터 준비 → 모델 개발 및 학습 → 배포 및 서빙 → 모니터링 및 운영 → 사전 훈련 모델 활용의 5단계로 나누어, 각 단계에서 어떤 기능이 제공되는지를 정리해보자
구분 | 서비스명 | 기능 설명 |
① 데이터 준비 | SageMaker Data Wrangler | 시각적 인터페이스를 통해 데이터를 수집, 전처리, 탐색, 피처 엔지니어링까지 수행함. |
SageMaker Ground Truth | 반자동 또는 수동 방식으로 정확한 라벨링 데이터를 생성할 수 있도록 지원함. | |
SageMaker Feature Store | ML 학습 및 추론에 사용하는 피처(Feature)를 저장하고 재사용할 수 있는 중앙 저장소 역할을 함. | |
SageMaker Processing | 전처리, 후처리, 모델 평가 등 반복적인 배치 작업을 수행할 수 있는 컴퓨팅 환경을 제공함. | |
② 모델 개발 및 학습 | SageMaker Studio | Jupyter 기반의 통합 개발환경으로, 실험 관리, 디버깅, 데이터 분석 등을 통합적으로 지원함. |
SageMaker Training Jobs | 대규모 데이터를 분산 환경에서 학습할 수 있으며, 비용 최적화를 위한 Spot 인스턴스도 지원함. | |
Hyperparameter Tuning (HPO) |
하이퍼파라미터를 자동으로 조정해 최적의 모델 성능을 찾을 수 있도록 함. | |
SageMaker Experiments | 여러 실험 결과와 파라미터, 메트릭을 체계적으로 관리하고 비교할 수 있음. | |
SageMaker Debugger | 학습 중 내부 상태를 실시간 추적하고, 비정상적 학습 패턴을 자동으로 탐지함. | |
③ 모델 배포 및 서빙 | SageMaker Hosting / Endpoints |
실시간 추론이 가능한 엔드포인트를 배포하고 지속적으로 운영할 수 있음. (엔드포인트 배포란 ? 훈련된 모델을 API 형태로 실시간 요청을 처리할 수 있게 만드는 것. 즉, 학습된 모델을 클라우드 환경에 올려두고, 외부 시스템(웹, 앱, Lambda 등)에서 HTTP 요청으로 예측을 받을 수 있도록 API 서버처럼 항상 켜져 있는 형태로 운영하는 것 ) |
SageMaker Batch Transform | 대량의 입력 데이터를 비동기적/비실시간으로 예측할 수 있음. | |
SageMaker Serverless Inference |
요청이 있을 때만 인프라가 활성화되는 서버리스 방식으로, 유휴 비용이 발생하지 않음. | |
Multi-Model Endpoints | 하나의 엔드포인트에서 여러 모델을 동시에 운영할 수 있어 효율성과 비용 최적화에 유리함. | |
④ 모델 모니터링 및 관리 | SageMaker Model Monitor | 배포된 모델의 입력 데이터와 예측 결과를 지속적으로 감시하고, 데이터 드리프트를 탐지함.( 데이터 드리프트(Data Drift)란 ? 모델을 훈련할 때 사용했던 데이터 분포와 운영(예측) 중에 실제 들어오는 입력 데이터의 분포가 달라지는 현상. 즉 모델이 과거 데이터로 학습했는데, 지금 들어오는 데이터가 전혀 다른 패턴을 보인다면 예측 정확도가 떨어지는 현상) |
SageMaker Model Registry | 모델을 버전별로 등록하고, 승인 및 배포 상태를 체계적으로 관리함. | |
SageMaker Clarify | 모델 편향성(Bias) 분석 및 설명 가능성(Explainability) 평가 기능을 제공함. (모델 편향성이란? 모델이 특정 집단(예: 성별, 연령, 인종 등)에 대해 불균형하거나 불공정한 예측을 하는 현상을 의미함) ( 설명 가능성이란? 모델의 예측 결과에 대해 왜 이런 결과가 나왔는지에 대해 사람이 이해할 수 있도록 설명하는 능력을 말함. 복잡한 모델일 수록 설명 어려움 ) |
|
SageMaker Pipelines | ML 전체 워크플로우를 코드 기반으로 정의하고, 자동화 및 재사용 가능한 파이프라인을 구성함. | |
⑤ 사전 훈련 모델 활용 및 통합 | SageMaker JumpStart | 사전 훈련된 다양한 모델과 솔루션 템플릿을 제공하여 실험을 빠르게 시작할 수 있음. |
SageMaker Studio Lab | SageMaker의 무료 경량 버전 실험 환경으로, 개인 프로젝트 및 학습용으로 활용 가능함. | |
SageMaker Agents for Bedrock |
생성형 AI 모델(Bedrock)을 SageMaker 내에서 Agent 형태로 호출하고 통합할 수 있음. |
'AWS' 카테고리의 다른 글
[AWS] AWS Certified AI Practitioner 취득 후기 (0) | 2025.06.22 |
---|---|
[AWS] AWS Certified AI Practitioner 개념 정리 - 5 (0) | 2025.06.22 |
[AWS] AWS Certified AI Practitioner 개념 정리 - 4 (0) | 2025.06.22 |
[AWS] AWS Certified AI Practitioner 개념 정리 - 3 (0) | 2025.06.22 |
[AWS] AWS Certified AI Practitioner 개념 정리 - 2 (0) | 2025.06.22 |