Model Matchmaker: AI 비용 50-70% 절감하는 로컬 훅

Model Matchmaker

18개월간 AI 에이전트로 개발하면서 많은 개발자가 하는 실수를 발견했다. 가장 비싼 모델을 선택한 채로 두고 다시는 건드리지 않는 것.

자신의 프롬프트를 몇 주 치 분석해보니:

60-70%는 Sonnet이 충분히 처리하는 일반 기능 구현
15-20%는 디버깅/트러블슈팅
상당수는 Haiku가 90% 저렴하게 처리할 수 있는 git/이름변경/포매팅 작업

문제는 지식이 아니다. 우리 모두 모델을 바꿔야 한다는 걸 안다. 문제는 마찰이다. 몰입해 있을 때 드롭다운을 생각하고 싶지 않다.

Model Matchmaker란?

Model Matchmaker는 Cursor와 Claude Code용 로컬 훅이다. 각 프롬프트가 전송되기 전에 실행되어 적절한 모델을 추천한다.

핵심 기능:

프롬프트 + 현재 모델 읽기
키워드 규칙으로 작업 분류 (git ops, 기능 구현, 아키텍처 분석)
과도한 지출 시 차단 + 저렴한 모델 추천 (예: Opus로 git commit → Haiku 추천)
부족한 성능 시 차단 + 상위 모델 추천 (예: Sonnet으로 아키텍처 → Opus 추천)
! 접두사로 바이패스 가능

특징:

3개 파일 (bash + python3 + JSON)
프록시 없음, API 호출 없음, 외부 서비스 없음
fail-open: 중단되면 Cursor 정상 진행

작동 원리

두 레이어가 함께 작동한다:

session-init.sh: 세션 시작 시 실행, 모델 인식 컨텍스트 주입
model-advisor.sh: 모든 프롬프트 전 실행, 작업 분류, 잘못된 모델 시 추천

모델 라우팅 규칙

모델	작업 유형	패턴 예시
Haiku	기계적, 단순	git commit, git push, rename, move file, delete file, format, lint
Sonnet	구현	build, implement, create, fix, debug, add feature, write, component, test
Opus	아키텍처, 분석	architect, evaluate, tradeoff, strategy, deep dive, redesign, analyze

Opus는 200단어 이상 프롬프트나 100단어 이상 분석 질문에도 추천된다.

분류기는 보수적이다. 높은 신뢰도일 때만 차단한다. 거짓 허용(약간의 돈 낭비)이 거짓 차단(잘못된 추천으로 흐름 방해)보다 낫다.

설치 방법

# 1. 클론
git clone https://github.com/coyvalyss1/model-matchmaker.git

# 2. Cursor 설정에 복사
cp model-matchmaker/hooks.json ~/.cursor/
mkdir -p ~/.cursor/hooks
cp model-matchmaker/hooks/*.sh ~/.cursor/hooks/

# 3. 실행 권한 부여
chmod +x ~/.cursor/hooks/session-init.sh ~/.cursor/hooks/model-advisor.sh

# 4. Cursor 재시작

패키지 없음, 빌드 단계 없음, 설정 파일 편집 없음.

실제 절감 효과

작성자가 두 제품(DoMoreWorld, Art Ping Pong) 개발 중 수 주간 프롬프트를 회고 분석했다. Opus를 거의 모든 것에 사용했다.

결과:

60-70%는 Sonnet이 75% 저렴하게 동일 처리
git commit, 파일 이름 변경 등은 Haiku가 90% 저렴하게 처리
아키텍처 결정과 깊은 분석은 Opus 유지
예상 절감: 총 AI 비용의 50-70%
Haiku는 Opus보다 3-5배 빠른 응답 → 워크플로우 체감 향상

Cursor Auto 모드와 비교

Cursor의 Auto 모드는 서버 사이드에서 GPT-4.1, Claude 4 Sonnet, Gemini 2.5 Pro 중 선택한다. 하지만:

Opus나 Haiku 포함 안 함
어떤 모델 선택했는지 표시 안 함
독립 테스트 결과 대부분 Sonnet으로 라우팅
Cursor 인프라 비용 최적화, 사용자 품질 최적화 아님

Model Matchmaker는 보완적 로컬 레이어다. 선택한 모델 위에서 작동하며 양방향으로 넛지한다.

보안 장점

프록시 기반 라우팅은 실제 위험이 있다:

2025년 10월~2026년 1월 사이 LLM 프록시 엔드포인트 대상 91,000+ 공격 세션 탐지
API 키 DNS 유출 가능성
프록시 크래시 시 AI 접근 불가

Model Matchmaker는 완전 로컬 실행:

네트워크 호출 없음
2초 타임아웃, 실패 시 정상 진행
로컬 로깅만 (타임스탬프, 모델, 추천, 20자 프롬프트 스니펫)

로컬 모델에도 적용 가능

Claude 모델용으로 설정되어 있지만, 로컬 모델에도 적용 가능:

VRAM 절약: Llama 70B(40GB) 대신 Llama 8B(5GB)로 충분한 작업
추론 속도: 작은 모델이 2초 vs 10초
전력/발열: 가벼운 모델 = 낮은 전기세, 팬 소음 감소

마치며: 비용 절감의 역설

AI 비용 절감은 기술 문제가 아니라 행동 문제다. 우리는 알면서도 가장 비싼 모델을 계속 쓴다. 몰입의 흐름을 깨고 싶지 않기 때문이다.

Model Matchmaker는 이 마찰을 없앤다. 생각할 필요 없이 자동으로 적절한 모델을 추천한다. 12/12 테스트 프롬프트가 튜닝 후 정확히 분류되었다.

로그 파일을 검토해보면 자신의 패턴을 발견할 수 있다. 대부분의 “build” 프롬프트는 실제로 Opus가 필요 없다.

🔗 관련 정보

GitHub: https://github.com/coyvalyss1/model-matchmaker
원본 Reddit 포스트: https://www.reddit.com/r/cursor/comments/1rkh0nl/i_used_cursor_to_cut_my_ai_costs_by_5070_with_a/