
18개월간 AI 에이전트로 개발하면서 많은 개발자가 하는 실수를 발견했다. 가장 비싼 모델을 선택한 채로 두고 다시는 건드리지 않는 것.
자신의 프롬프트를 몇 주 치 분석해보니:
- 60-70%는 Sonnet이 충분히 처리하는 일반 기능 구현
- 15-20%는 디버깅/트러블슈팅
- 상당수는 Haiku가 90% 저렴하게 처리할 수 있는 git/이름변경/포매팅 작업
문제는 지식이 아니다. 우리 모두 모델을 바꿔야 한다는 걸 안다. 문제는 마찰이다. 몰입해 있을 때 드롭다운을 생각하고 싶지 않다.
Model Matchmaker란?
Model Matchmaker는 Cursor와 Claude Code용 로컬 훅이다. 각 프롬프트가 전송되기 전에 실행되어 적절한 모델을 추천한다.
핵심 기능:
- 프롬프트 + 현재 모델 읽기
- 키워드 규칙으로 작업 분류 (git ops, 기능 구현, 아키텍처 분석)
- 과도한 지출 시 차단 + 저렴한 모델 추천 (예: Opus로 git commit → Haiku 추천)
- 부족한 성능 시 차단 + 상위 모델 추천 (예: Sonnet으로 아키텍처 → Opus 추천)
!접두사로 바이패스 가능
특징:
- 3개 파일 (bash + python3 + JSON)
- 프록시 없음, API 호출 없음, 외부 서비스 없음
- fail-open: 중단되면 Cursor 정상 진행
작동 원리
두 레이어가 함께 작동한다:
- session-init.sh: 세션 시작 시 실행, 모델 인식 컨텍스트 주입
- model-advisor.sh: 모든 프롬프트 전 실행, 작업 분류, 잘못된 모델 시 추천
모델 라우팅 규칙
| 모델 | 작업 유형 | 패턴 예시 |
|---|---|---|
| Haiku | 기계적, 단순 | git commit, git push, rename, move file, delete file, format, lint |
| Sonnet | 구현 | build, implement, create, fix, debug, add feature, write, component, test |
| Opus | 아키텍처, 분석 | architect, evaluate, tradeoff, strategy, deep dive, redesign, analyze |
Opus는 200단어 이상 프롬프트나 100단어 이상 분석 질문에도 추천된다.
분류기는 보수적이다. 높은 신뢰도일 때만 차단한다. 거짓 허용(약간의 돈 낭비)이 거짓 차단(잘못된 추천으로 흐름 방해)보다 낫다.
설치 방법
# 1. 클론
git clone https://github.com/coyvalyss1/model-matchmaker.git
# 2. Cursor 설정에 복사
cp model-matchmaker/hooks.json ~/.cursor/
mkdir -p ~/.cursor/hooks
cp model-matchmaker/hooks/*.sh ~/.cursor/hooks/
# 3. 실행 권한 부여
chmod +x ~/.cursor/hooks/session-init.sh ~/.cursor/hooks/model-advisor.sh
# 4. Cursor 재시작
패키지 없음, 빌드 단계 없음, 설정 파일 편집 없음.
실제 절감 효과
작성자가 두 제품(DoMoreWorld, Art Ping Pong) 개발 중 수 주간 프롬프트를 회고 분석했다. Opus를 거의 모든 것에 사용했다.
결과:
- 60-70%는 Sonnet이 75% 저렴하게 동일 처리
- git commit, 파일 이름 변경 등은 Haiku가 90% 저렴하게 처리
- 아키텍처 결정과 깊은 분석은 Opus 유지
- 예상 절감: 총 AI 비용의 50-70%
- Haiku는 Opus보다 3-5배 빠른 응답 → 워크플로우 체감 향상
Cursor Auto 모드와 비교
Cursor의 Auto 모드는 서버 사이드에서 GPT-4.1, Claude 4 Sonnet, Gemini 2.5 Pro 중 선택한다. 하지만:
- Opus나 Haiku 포함 안 함
- 어떤 모델 선택했는지 표시 안 함
- 독립 테스트 결과 대부분 Sonnet으로 라우팅
- Cursor 인프라 비용 최적화, 사용자 품질 최적화 아님
Model Matchmaker는 보완적 로컬 레이어다. 선택한 모델 위에서 작동하며 양방향으로 넛지한다.
보안 장점
프록시 기반 라우팅은 실제 위험이 있다:
- 2025년 10월~2026년 1월 사이 LLM 프록시 엔드포인트 대상 91,000+ 공격 세션 탐지
- API 키 DNS 유출 가능성
- 프록시 크래시 시 AI 접근 불가
Model Matchmaker는 완전 로컬 실행:
- 네트워크 호출 없음
- 2초 타임아웃, 실패 시 정상 진행
- 로컬 로깅만 (타임스탬프, 모델, 추천, 20자 프롬프트 스니펫)
로컬 모델에도 적용 가능
Claude 모델용으로 설정되어 있지만, 로컬 모델에도 적용 가능:
- VRAM 절약: Llama 70B(40GB) 대신 Llama 8B(5GB)로 충분한 작업
- 추론 속도: 작은 모델이 2초 vs 10초
- 전력/발열: 가벼운 모델 = 낮은 전기세, 팬 소음 감소
마치며: 비용 절감의 역설
AI 비용 절감은 기술 문제가 아니라 행동 문제다. 우리는 알면서도 가장 비싼 모델을 계속 쓴다. 몰입의 흐름을 깨고 싶지 않기 때문이다.
Model Matchmaker는 이 마찰을 없앤다. 생각할 필요 없이 자동으로 적절한 모델을 추천한다. 12/12 테스트 프롬프트가 튜닝 후 정확히 분류되었다.
로그 파일을 검토해보면 자신의 패턴을 발견할 수 있다. 대부분의 “build” 프롬프트는 실제로 Opus가 필요 없다.