LLMFit: 당신의 하드웨어에 맞는 LLM을 찾아주는 도구

LLMFit

로컬 LLM을 실행하고 싶은데 어떤 모델이 내 컴퓨터에서 돌아갈지 모르겠다. 8GB RAM에 Llama 3.1 70B를 돌리려다 실패한 경험이 있을 것이다. LLMFit은 이 문제를 한 번에 해결한다. 시스템 사양을 자동으로 분석하고, 실행 가능한 모델만 골라서 보여준다.

“Hundreds of models & providers. One command to find what runs on your hardware.” — 14,000개 이상의 GitHub 스타가 증명하는 실용적인 도구다.

왜 필요한가

로컬 LLM 선택은 복잡하다:

모델이 너무 많음: Hugging Face, Ollama 라이브러리, 각종 양자화 버전 — 무엇을 선택해야 할지 모름
하드웨어 파악 어려워: 내 GPU가 몇 GB인지, CUDA 버전은 맞는지, VRAM이 충분한지
메모리 계산 복잡: Q4 양자화면 얼마나 필요하지? MoE는 활성 전문가만 계산하나?
실패 후 재시도 비용: 10GB 모델 다운로드 후 “out of memory” 에러 — 시간 낭비

LLMFit은 이 모든 것을 자동화한다. 한 번의 명령으로.

LLMFit Hardware Detection

핵심 기능

1. 자동 하드웨어 감지

LLMFit은 시스템의 모든 가속기를 자동으로 인식한다:

하드웨어	감지 방법
NVIDIA GPU	`nvidia-smi` — VRAM, CUDA 코어, 대역폭
AMD GPU	`rocm-smi` — ROCm 지원 GPU
Intel Arc	`sysfs` — XMX 엔진 정보
Apple Silicon	`system_profiler` — Unified Memory
Ascend NPU	`npu-smi` — Huawei AI 가속기

RAM, CPU 코어, 메모리 대역폭까지 분석해서 정확한 추정치를 제공한다.

2. 다차원 스코어링

단순히 “실행 가능/불가능”이 아니다. LLMFit은 4가지 차원에서 모델을 평가한다:

차원	평가 기준
Quality	파라미터 수, 모델 패밀리, 양자화 품질
Speed	tok/s 추정 (하드웨어 대역폭 기반)
Fit	메모리 효율 50-80% 타겟 — 너무 빡빡하면 스왑 발생
Context	지원 컨텍스트 윈도우 크기

이렇게 하면 “실행은 되지만 느린” 모델과 “빠르고 품질 좋은” 모델을 구분할 수 있다.

3. MoE 아키텍처 지원

Mixture of Experts 모델은 특별한 계산이 필요하다:

Mixtral 8x7B: 총 47B 파라미터지만, 추론 시 2개 전문가만 활성 → 실제 메모리는 ~13B 수준
DeepSeek-V2/V3: 236B 파라미터, 활성 21B — 일반 236B 모델과 완전히 다른 요구사항

LLMFit은 이를 자동으로 계산한다. 총 파라미터가 아닌 활성 파라미터 기준으로 메모리를 추정한다.

4. 동적 양자화 선택

양자화	용도	메모리 절감
Q8_0	최고 품질	~25%
Q6_K	균형	~30%
Q4_K_M	추천	~40%
Q3_K_M	절약	~50%
Q2_K	극한 절약	~60%

LLMFit은 하드웨어에 따라 최적의 양자화 레벨을 자동으로 추천한다. 16GB RAM이라면 Q4_K_M, 8GB라면 Q2_K를 제안하는 식이다.

5. 속도 추정 공식

tok/s는 이렇게 계산한다:

tok/s = (bandwidth_GB_s / model_size_GB) × 0.55

0.55는 실제 측정값에서 도출한 효율 계수다. 이론치가 아닌 현실적인 속도를 제공한다.

예시:

RTX 4090 (1008 GB/s 대역폭) + Llama 3.1 8B Q4 (~5GB)
= (1008 / 5) × 0.55 ≈ 110 tok/s

인터랙티브 TUI

터미널에서 바로 모델을 탐색할 수 있다:

$ llmfit

LLMFit TUI

지원 기능

기능	설명
검색	모델 이름, 패밀리, 태그로 필터
정렬	품질, 속도, 메모리 기준
필터	실행 가능한 모델만 표시
다운로드	선택 시 Ollama로 자동 다운로드

Plan Mode (p 키)

“역발상” 기능이다. 원하는 작업을 입력하면 필요한 하드웨어를 역추정한다:

[Plan Mode]
어떤 작업을 하고 싶으신가요? 코드 생성, 128K 컨텍스트

추천 하드웨어:
- RAM: 32GB 이상
- GPU: 16GB VRAM (또는 24GB 권장)
- 추천 모델: Qwen 2.5 Coder 32B Q4_K_M

업그레이드 계획을 세울 때 유용하다.

6가지 컬러 테마

개인 취향도 존중한다:

테마	분위기
Default	깔끔한 다크 모드
Dracula	보라빛 하이라이팅
Solarized	고전 컬러 스킴
Nord	차가운 블루톤
Monokai	노란 키워드 강조
Gruvbox	레트로 따뜻한 톤

--theme 옵션 또는 설정 파일에서 변경한다.

REST API 서버 모드

자동화나 다른 도구와 통합할 때 유용하다:

$ llmfit serve
Server running on http://localhost:8080

API 엔드포인트

# 하드웨어 정보
GET /api/hardware

# 추천 모델 목록
GET /api/recommend?minQuality=0.8&minSpeed=20

# 특정 모델 상세
GET /api/models/llama3.1:8b

# Plan Mode
POST /api/plan
{
  "task": "코드 생성",
  "context": "64K"
}

OpenClaw 스킬이나 CI/CD 파이프라인에서 활용할 수 있다.

로컬 런타임 프로바이더

LLMFit은 모델 추천만 하는 게 아니다. 바로 실행까지 연결한다:

런타임	특징
Ollama	가장 인기, 간편한 CLI
llama.cpp	C++ 기반, 최고 호환성
MLX	Apple Silicon 최적화

추천 모델을 선택하면 해당 런타임으로 다운로드 명령어를 바로 제공한다:

이 모델을 다운로드하시겠습니까?
ollama pull llama3.1:8b-q4_K_M

OpenClaw 스킬 통합

OpenClaw 사용자라면 더 강력하게 활용할 수 있다:

# OpenClaw에서 바로 호출
/skill llmfit

# 현재 하드웨어 기준 추천 모델 표시
# 선택 시 자동 다운로드 및 설정

에이전트가 스스로 하드웨어를 분석하고 적합한 모델을 선택하는 자동화가 가능하다.

기술적 딥다이브

Rust로 작성됨

성능과 안정성을 위해 Rust를 선택했다:

빠른 시작: 밀리초 단위 실행
메모리 안전: 시스템 정보 수집 시 크래시 없음
크로스 플랫폼: macOS, Linux, Windows 지원

모델 데이터베이스

Hugging Face, Ollama 라이브러리, Ollama Official을 통합한 메타데이터를 사용한다:

{
  "name": "llama3.1:8b",
  "family": "llama",
  "parameters": "8B",
  "quantizations": ["Q4_K_M", "Q5_K_M", "Q8_0"],
  "context": 131072,
  "moe": false
}

주기적으로 업데이트되며 로컬 캐시를 사용해 오프라인에서도 동작한다.

메모리 추정 알고리즘

required_memory = parameters × bytes_per_param × overhead

where:
  bytes_per_param = {
    Q8_0: 1.0,
    Q6_K: 0.75,
    Q4_K_M: 0.5,
    Q3_K_M: 0.375,
    Q2_K: 0.25
  }
  overhead = 1.1  // 10% 컨텍스트 버퍼

MoE의 경우 활성 전문가 비율을 추가로 적용한다.

빠른 시작

macOS

brew install llmfit

Windows

scoop install llmfit

Linux

curl -fsSL https://llmfit.axjns.dev/install.sh | sh

실행

# 인터랙티브 모드
llmfit

# 빠른 추천
llmfit recommend --top 5

# 특정 모델 정보
llmfit info llama3.1:70b

# API 서버
llmfit serve --port 8080

LLMFit vs 다른 도구

기능	LLMFit	Ollama	LM Studio	Hugging Face
하드웨어 감지	✅ 자동	❌	✅	❌
MoE 계산	✅	❌	❌	❌
속도 추정	✅	❌	⚠️	❌
양자화 추천	✅	❌	⚠️	❌
TUI	✅	❌	✅ GUI	❌
API 서버	✅	✅	❌	❌
CLI 우선	✅	✅	❌	❌

언제 LLMFit을 쓸까

비추천

이미 특정 모델 고정 사용 — 굳이 필요 없음
클라우드 LLM만 사용 — 로컬 실행 안 함
GUI 선호 — TUI가 불편하면 LM Studio 추천

마치며: 하드웨어 인식 AI 시대의 필수 도구

LLMFit은 단순한 모델 검색 도구가 아니다. 하드웨어와 AI 모델 사이의 번역기다.

핵심 가치 정리

자동 감지 — 시스템 사양을 알 필요 없음
정확한 추정 — MoE, 양자화, 속도까지 계산
바로 실행 — Ollama, llama.cpp로 즉시 연결
개발자 친화적 — CLI, API, 스킬 통합
오픈소스 — 14,000+ 스타, 활발한 개발

로컬 LLM의 진입 장벽을 낮추는 도구다. “내 컴퓨터에서 뭘 돌릴 수 있지?”라는 질문에 대한 명확한 답을 준다.

빠른 시작

# 설치
brew install llmfit  # macOS

# 실행
llmfit

# 추천받기
llmfit recommend --top 5

그리고 Enter. 그게 다다.

🔗 관련 정보

GitHub: https://github.com/axjns/llmfit
웹사이트: https://llmfit.axjns.dev
설치 스크립트: https://llmfit.axjns.dev/install.sh
라이선스: MIT