로컬 LLM 설치 가이드 — Ollama로 내 컴퓨터에서 AI 돌리기 (2026)
Ollama 설치부터 로컬 LLM 실행까지 완벽 가이드. Llama 3, Mistral, Gemma 등 오픈소스 모델을 내 컴퓨터에서 프라이버시를 지키며 사용하는 방법을 단계별로 설명합니다.
왜 로컬 LLM인가?
ChatGPT, Claude 같은 클라우드 AI 서비스는 편리하지만, 데이터 프라이버시, API 비용, 인터넷 의존성, 커스터마이징 한계 등의 이슈가 있습니다. 로컬 LLM은 이 모든 문제를 해결합니다:
- 완전한 프라이버시: 데이터가 내 컴퓨터를 떠나지 않음
- 비용 무료: API 호출 비용 없음
- 오프라인 사용: 인터넷 없이도 작동
- 커스터마이징: 파인튜닝, 프롬프트 자유도 무제한
- 속도: 네트워크 지연 없는 즉시 응답
2026년 현재, 양자화(quantization) 기술의 발전으로 16GB RAM의 일반 노트북에서도 충분히 사용 가능한 수준의 모델을 실행할 수 있습니다.
Ollama란?
Ollama는 로컬에서 LLM을 가장 쉽게 실행할 수 있게 해주는 오픈소스 도구입니다. Docker 없이 단일 바이너리로 설치되며, 간단한 명령어로 다양한 모델을 다운로드·실행할 수 있습니다. macOS, Windows, Linux를 모두 지원합니다.
Ollama 설치하기
macOS
# Homebrew로 설치
brew install ollama
# 또는 공식 설치 스크립트
curl -fsSL https://ollama.com/install.sh | sh
Windows
Ollama 공식 사이트에서 설치 파일을 다운로드하여 실행합니다.
Linux
curl -fsSL https://ollama.com/install.sh | sh
설치 확인
ollama --version
# ollama version 0.5.x
모델 다운로드와 실행
첫 모델 실행
# Llama 3.2 (3B) 다운로드 및 실행
ollama run llama3.2
# Meta의 Llama 3.1 (8B)
ollama run llama3.1
# Google Gemma 2 (9B)
ollama run gemma2
# Mistral (7B)
ollama run mistral
2026년 추천 모델
| 모델 | 크기 | 필요 RAM | 특징 |
|---|---|---|---|
| Llama 3.2 3B | 2GB | 8GB | 가벼움, 일상 대화 |
| Llama 3.1 8B | 4.7GB | 16GB | 균형잡힌 성능 |
| Mistral 7B | 4.1GB | 16GB | 코딩에 강함 |
| Qwen2.5 14B | 9GB | 24GB | 다국어, 한국어 우수 |
| DeepSeek-R1 7B | 4.7GB | 16GB | 추론 능력 강화 |
| Codestral 22B | 13GB | 32GB | 코딩 특화 |
한국어 성능
한국어 성능은 Qwen2.5, EXAONE (LG AI Research), SOLAR (Upstage)가 우수합니다:
ollama run qwen2.5:14b
활용법: API 서버와 통합
REST API 활용
Ollama는 자동으로 localhost:11434에 API 서버를 실행합니다:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1",
"prompt": "한국의 수도는?"
}'
Open WebUI 연동
브라우저에서 ChatGPT와 같은 인터페이스로 사용하려면 Open WebUI를 설치합니다:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
브라우저에서 http://localhost:3000으로 접속하면 됩니다.
VS Code / Cursor 연동
Continue 확장을 설치하면 VS Code에서 로컬 모델로 코드 자동완성과 채팅을 사용할 수 있습니다. AI 코딩 도구 비교에서 더 자세한 내용을 확인하세요.
성능 최적화 팁
GPU 활용
NVIDIA GPU가 있다면 Ollama가 자동으로 CUDA를 사용합니다. Apple Silicon Mac에서는 Metal이 자동 활성화됩니다.
# GPU 사용 확인
ollama ps
양자화 수준 선택
모델명 뒤에 양자화 수준을 지정할 수 있습니다:
- Q4_K_M: 기본값, 성능과 크기의 균형
- Q8_0: 더 높은 품질, 더 큰 메모리 사용
- Q2_K: 최소 메모리, 품질 저하 있음
Modelfile로 커스터마이징
FROM llama3.1
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
SYSTEM """당신은 한국어에 능통한 AI 어시스턴트입니다."""
ollama create my-assistant -f Modelfile
ollama run my-assistant
참고 자료
결론
Ollama는 로컬 LLM의 진입장벽을 획기적으로 낮춘 도구입니다. 2026년 기준, 일반 노트북에서도 GPT-3.5급 이상의 성능을 무료로, 프라이버시를 지키며 사용할 수 있습니다. 지금 바로 설치해 보세요.