[Langchain] 사용 가능한 LLM 정리( API vs 로컬 모델)

AI/자연어처리

[Langchain] 사용 가능한 LLM 정리( API vs 로컬 모델)

hyunjoo 2025. 2. 23. 23:56

LangChain에서는 다양한 클라우드 API 및 로컬 LLM을 활용할 수 있다. 각 모델은 성능, 비용, 사용 용도에 따라 적절히 선택해야 한다. API 기반 모델은 빠르게 배포할 때 유용하고, 로컬 모델은 장기적으로 비용 절감과 데이터 보안 면에서 장점이 있다.

API 기반 LLM (클라우드 모델)

클라우드에서 실행되는 LLM으로, 설정이 간단하고 성능이 좋지만, API 비용이 발생한다. 가장 많이 사용되는 gpt 모델은 키 발급받고 비용 지불하고 사용하면 되는데 성능이 다른 모델에 비해 월등히 좋은 것 같긴 하다.

OpenAI	GPT-4, GPT-3.5	강력한 성능, 높은 비용
Anthropic	Claude 3	긴 컨텍스트(최대 100K 토큰) 지원, 뛰어난 요약 능력
Google	Gemini Pro	멀티모달 지원 (이미지+텍스트), Google 생태계와 강한 연동
Cohere	Command R	빠른 속도, 저렴한 비용, 챗봇 최적화
Mistral AI	Mistral 7B	오픈소스, 저렴한 비용, 로컬에서도 실행 가능
Hugging Face	다양한 모델	다양한 오픈소스 모델 API 제공, 맞춤형 LLM 구축 가능

로컬 LLM (Local LLM)

내 PC 또는 서버에서 직접 실행하는 LLM으로, 데이터 프라이버시 보호와 무료로 사용이 가능하지만, 설치 등 초기 설정이 필요하다.

실제로 사용해보니 설치도 간단했다. 아쉬운 점은 api 로 제공되는 모델보다는 성능이 떨어지는 것 같다. 올라마를 설치하면 무료로 사용 가능하며 요즘 이슈인 딥시크 모델을 사용해볼 수 있다. Hugging Face는 API도 제공하고, 로컬 모델도 지원하므로 원하는 방식으로 활용 가능하다.

플랫폼	대표 모델	특징
Ollama	DeepSeek-R1, Llama 2, Mistral	경량화된 로컬 실행 지원, 손쉬운 설정
GPT4All	Mistral, LLaMA, GPT-J, Replit Code 등	CPU에서도 실행 가능, 저사양 환경에서 유용
vLLM	Llama 2, Mistral	초고속 로컬 LLM 실행 가능, 대량 요청 처리에 강점
Hugging Face	Falcon, OPT, Llama 2, Mistral	API와 로컬 모델 모두 지원

Ollama: 공식 사이트에서 다운로드 후 설치( https://ollama.com )
GPT4All: pip install gpt4all, 모델 다운로드( https://www.nomic.ai/gpt4all ) 후 ~/.gpt4all/ 폴더에 저장
vLLM: pip install vllm 후 실행
Hugging Face: pip install transformers torch 후 모델 다운로드