AI/ML

로컬 LLM 설치 가이드 — Ollama로 내 컴퓨터에서 AI 돌리기 (2026)

Ollama 설치부터 로컬 LLM 실행까지 완벽 가이드. Llama 3, Mistral, Gemma 등 오픈소스 모델을 내 컴퓨터에서 프라이버시를 지키며 사용하는 방법을 단계별로 설명합니다.

·5 min read
#Ollama#로컬LLM#오픈소스AI#Llama3#셀프호스팅

Computer terminal with AI code

왜 로컬 LLM인가?

ChatGPT, Claude 같은 클라우드 AI 서비스는 편리하지만, 데이터 프라이버시, API 비용, 인터넷 의존성, 커스터마이징 한계 등의 이슈가 있습니다. 로컬 LLM은 이 모든 문제를 해결합니다:

  • 완전한 프라이버시: 데이터가 내 컴퓨터를 떠나지 않음
  • 비용 무료: API 호출 비용 없음
  • 오프라인 사용: 인터넷 없이도 작동
  • 커스터마이징: 파인튜닝, 프롬프트 자유도 무제한
  • 속도: 네트워크 지연 없는 즉시 응답

2026년 현재, 양자화(quantization) 기술의 발전으로 16GB RAM의 일반 노트북에서도 충분히 사용 가능한 수준의 모델을 실행할 수 있습니다.

Ollama란?

Ollama는 로컬에서 LLM을 가장 쉽게 실행할 수 있게 해주는 오픈소스 도구입니다. Docker 없이 단일 바이너리로 설치되며, 간단한 명령어로 다양한 모델을 다운로드·실행할 수 있습니다. macOS, Windows, Linux를 모두 지원합니다.

Ollama 설치하기

macOS

# Homebrew로 설치
brew install ollama

# 또는 공식 설치 스크립트
curl -fsSL https://ollama.com/install.sh | sh

Windows

Ollama 공식 사이트에서 설치 파일을 다운로드하여 실행합니다.

Linux

curl -fsSL https://ollama.com/install.sh | sh

설치 확인

ollama --version
# ollama version 0.5.x

모델 다운로드와 실행

첫 모델 실행

# Llama 3.2 (3B) 다운로드 및 실행
ollama run llama3.2

# Meta의 Llama 3.1 (8B)
ollama run llama3.1

# Google Gemma 2 (9B)
ollama run gemma2

# Mistral (7B)
ollama run mistral

2026년 추천 모델

모델크기필요 RAM특징
Llama 3.2 3B2GB8GB가벼움, 일상 대화
Llama 3.1 8B4.7GB16GB균형잡힌 성능
Mistral 7B4.1GB16GB코딩에 강함
Qwen2.5 14B9GB24GB다국어, 한국어 우수
DeepSeek-R1 7B4.7GB16GB추론 능력 강화
Codestral 22B13GB32GB코딩 특화

한국어 성능

한국어 성능은 Qwen2.5, EXAONE (LG AI Research), SOLAR (Upstage)가 우수합니다:

ollama run qwen2.5:14b

활용법: API 서버와 통합

REST API 활용

Ollama는 자동으로 localhost:11434에 API 서버를 실행합니다:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "한국의 수도는?"
}'

Open WebUI 연동

브라우저에서 ChatGPT와 같은 인터페이스로 사용하려면 Open WebUI를 설치합니다:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

브라우저에서 http://localhost:3000으로 접속하면 됩니다.

VS Code / Cursor 연동

Continue 확장을 설치하면 VS Code에서 로컬 모델로 코드 자동완성과 채팅을 사용할 수 있습니다. AI 코딩 도구 비교에서 더 자세한 내용을 확인하세요.

성능 최적화 팁

GPU 활용

NVIDIA GPU가 있다면 Ollama가 자동으로 CUDA를 사용합니다. Apple Silicon Mac에서는 Metal이 자동 활성화됩니다.

# GPU 사용 확인
ollama ps

양자화 수준 선택

모델명 뒤에 양자화 수준을 지정할 수 있습니다:

  • Q4_K_M: 기본값, 성능과 크기의 균형
  • Q8_0: 더 높은 품질, 더 큰 메모리 사용
  • Q2_K: 최소 메모리, 품질 저하 있음

Modelfile로 커스터마이징

FROM llama3.1
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
SYSTEM """당신은 한국어에 능통한 AI 어시스턴트입니다."""
ollama create my-assistant -f Modelfile
ollama run my-assistant

참고 자료

결론

Ollama는 로컬 LLM의 진입장벽을 획기적으로 낮춘 도구입니다. 2026년 기준, 일반 노트북에서도 GPT-3.5급 이상의 성능을 무료로, 프라이버시를 지키며 사용할 수 있습니다. 지금 바로 설치해 보세요.

관련 글