로컬 LLM 설치 가이드 — Ollama로 내 컴퓨터에서 AI 돌리기 (2026)

Computer terminal with AI code

왜 로컬 LLM인가?

ChatGPT, Claude 같은 클라우드 AI 서비스는 편리하지만, 데이터 프라이버시, API 비용, 인터넷 의존성, 커스터마이징 한계 등의 이슈가 있습니다. 로컬 LLM은 이 모든 문제를 해결합니다:

완전한 프라이버시: 데이터가 내 컴퓨터를 떠나지 않음
비용 무료: API 호출 비용 없음
오프라인 사용: 인터넷 없이도 작동
커스터마이징: 파인튜닝, 프롬프트 자유도 무제한
속도: 네트워크 지연 없는 즉시 응답

2026년 현재, 양자화(quantization) 기술의 발전으로 16GB RAM의 일반 노트북에서도 충분히 사용 가능한 수준의 모델을 실행할 수 있습니다.

Ollama란?

Ollama는 로컬에서 LLM을 가장 쉽게 실행할 수 있게 해주는 오픈소스 도구입니다. Docker 없이 단일 바이너리로 설치되며, 간단한 명령어로 다양한 모델을 다운로드·실행할 수 있습니다. macOS, Windows, Linux를 모두 지원합니다.

Ollama 설치하기

macOS

# Homebrew로 설치
brew install ollama

# 또는 공식 설치 스크립트
curl -fsSL https://ollama.com/install.sh | sh

Windows

Ollama 공식 사이트에서 설치 파일을 다운로드하여 실행합니다.

Linux

curl -fsSL https://ollama.com/install.sh | sh

설치 확인

ollama --version
# ollama version 0.5.x

모델 다운로드와 실행

첫 모델 실행

# Llama 3.2 (3B) 다운로드 및 실행
ollama run llama3.2

# Meta의 Llama 3.1 (8B)
ollama run llama3.1

# Google Gemma 2 (9B)
ollama run gemma2

# Mistral (7B)
ollama run mistral

2026년 추천 모델

모델	크기	필요 RAM	특징
Llama 3.2 3B	2GB	8GB	가벼움, 일상 대화
Llama 3.1 8B	4.7GB	16GB	균형잡힌 성능
Mistral 7B	4.1GB	16GB	코딩에 강함
Qwen2.5 14B	9GB	24GB	다국어, 한국어 우수
DeepSeek-R1 7B	4.7GB	16GB	추론 능력 강화
Codestral 22B	13GB	32GB	코딩 특화

한국어 성능

한국어 성능은 Qwen2.5, EXAONE (LG AI Research), SOLAR (Upstage)가 우수합니다:

ollama run qwen2.5:14b

활용법: API 서버와 통합

REST API 활용

Ollama는 자동으로 localhost:11434에 API 서버를 실행합니다:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "한국의 수도는?"
}'

Open WebUI 연동

브라우저에서 ChatGPT와 같은 인터페이스로 사용하려면 Open WebUI를 설치합니다:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

브라우저에서 http://localhost:3000으로 접속하면 됩니다.

VS Code / Cursor 연동

Continue 확장을 설치하면 VS Code에서 로컬 모델로 코드 자동완성과 채팅을 사용할 수 있습니다. AI 코딩 도구 비교에서 더 자세한 내용을 확인하세요.

성능 최적화 팁

GPU 활용

NVIDIA GPU가 있다면 Ollama가 자동으로 CUDA를 사용합니다. Apple Silicon Mac에서는 Metal이 자동 활성화됩니다.

# GPU 사용 확인
ollama ps

양자화 수준 선택

모델명 뒤에 양자화 수준을 지정할 수 있습니다:

Q4_K_M: 기본값, 성능과 크기의 균형
Q8_0: 더 높은 품질, 더 큰 메모리 사용
Q2_K: 최소 메모리, 품질 저하 있음

Modelfile로 커스터마이징

FROM llama3.1
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
SYSTEM """당신은 한국어에 능통한 AI 어시스턴트입니다."""

ollama create my-assistant -f Modelfile
ollama run my-assistant

참고 자료

결론

Ollama는 로컬 LLM의 진입장벽을 획기적으로 낮춘 도구입니다. 2026년 기준, 일반 노트북에서도 GPT-3.5급 이상의 성능을 무료로, 프라이버시를 지키며 사용할 수 있습니다. 지금 바로 설치해 보세요.