자연어처리
[Langchain] 사용 가능한 LLM 정리( API vs 로컬 모델)
hyunjoo
2025. 2. 23. 23:56
LangChain에서는 다양한 클라우드 API 및 로컬 LLM을 활용할 수 있다. 각 모델은 성능, 비용, 사용 용도에 따라 적절히 선택해야 한다. API 기반 모델은 빠르게 배포할 때 유용하고, 로컬 모델은 장기적으로 비용 절감과 데이터 보안 면에서 장점이 있다.
API 기반 LLM (클라우드 모델)
클라우드에서 실행되는 LLM으로, 설정이 간단하고 성능이 좋지만, API 비용이 발생한다. 가장 많이 사용되는 gpt 모델은 키 발급받고 비용 지불하고 사용하면 되는데 성능이 다른 모델에 비해 월등히 좋은 것 같긴 하다.
OpenAI | GPT-4, GPT-3.5 | 강력한 성능, 높은 비용 |
Anthropic | Claude 3 | 긴 컨텍스트(최대 100K 토큰) 지원, 뛰어난 요약 능력 |
Gemini Pro | 멀티모달 지원 (이미지+텍스트), Google 생태계와 강한 연동 | |
Cohere | Command R | 빠른 속도, 저렴한 비용, 챗봇 최적화 |
Mistral AI | Mistral 7B | 오픈소스, 저렴한 비용, 로컬에서도 실행 가능 |
Hugging Face | 다양한 모델 | 다양한 오픈소스 모델 API 제공, 맞춤형 LLM 구축 가능 |
로컬 LLM (Local LLM)
내 PC 또는 서버에서 직접 실행하는 LLM으로, 데이터 프라이버시 보호와 무료로 사용이 가능하지만, 설치 등 초기 설정이 필요하다.
실제로 사용해보니 설치도 간단했다. 아쉬운 점은 api 로 제공되는 모델보다는 성능이 떨어지는 것 같다. 올라마를 설치하면 무료로 사용 가능하며 요즘 이슈인 딥시크 모델을 사용해볼 수 있다. Hugging Face는 API도 제공하고, 로컬 모델도 지원하므로 원하는 방식으로 활용 가능하다.
플랫폼 | 대표 모델 | 특징 |
Ollama | DeepSeek-R1, Llama 2, Mistral | 경량화된 로컬 실행 지원, 손쉬운 설정 |
GPT4All | Mistral, LLaMA, GPT-J, Replit Code 등 | CPU에서도 실행 가능, 저사양 환경에서 유용 |
vLLM | Llama 2, Mistral | 초고속 로컬 LLM 실행 가능, 대량 요청 처리에 강점 |
Hugging Face |
Falcon, OPT, Llama 2, Mistral | API와 로컬 모델 모두 지원 |
- Ollama: 공식 사이트에서 다운로드 후 설치( https://ollama.com )
- GPT4All: pip install gpt4all, 모델 다운로드( https://www.nomic.ai/gpt4all ) 후 ~/.gpt4all/ 폴더에 저장
- vLLM: pip install vllm 후 실행
- Hugging Face: pip install transformers torch 후 모델 다운로드
반응형