
2026년 3월 4일, 카카오가 한국 최초의 옴니모달(Omni-modal) API를 공식 출시했다. 텍스트, 이미지, 오디오를 모두 입력받아 텍스트나 음성으로 응답할 수 있는 이 모델의 이름은 Kanana-1.5-o-9.8B-instruct-2602. 줄여서 Kanana-o다.
GPT-4o나 Gemini 같은 글로벌 모델들과 직접 경쟁하는 이 모델, 과연 어떤 특징이 있을까?
1. Kanana-o가 특별한 이유
진짜 옴니모달: 보고, 듣고, 말한다
Kanana-o는 Text / Image / Audio → Text / Audio를 지원하는 진정한 옴니모달 모델이다. 단순히 여러 모달리티를 따로 처리하는 게 아니라, 하나의 통합된 프레임워크에서 모든 것을 처리한다.
예를 들어:
- 와인 리스트 사진을 보여주고 음성으로 추천을 요청하면, 음성으로 추천해준다
- 수학 문제 이미지를 올리면 단계별 풀이를 텍스트로 제공한다
- 회의 녹음 파일을 올리면 요약본을 만들어준다

한국어, 진짜 잘한다
벤치마크 결과가 인상적이다. 특히 한국어 관련 성능에서 두각을 나타낸다:
| 벤치마크 | Kanana-o | HCX-SEED-Omni | GPT-4o | Gemini-2.5-pro |
|---|---|---|---|---|
| KoNet (한국 지식) | 89.44 | 75.39 | 79.81 | 96.17 |
| KsponSpeech (한국어 ASR) | 6.45 CER | 28.74 CER | 23.19 CER | 17.11 CER |
| KsponTTS (한국어 TTS) | 2.23 CER | 14.67 CER | 3.44 CER | 4.78 CER |
한국어 음성 인식(ASR)과 합성(TTS)에서 압도적인 성능을 보여준다. 특히 HCX-SEED-Omni 대비 한국어 ASR 오류율이 1/4 수준이다.
감정 표현이 풍부하다
Kanana-o는 단순히 텍스트를 읽어주는 게 아니라, 감정이 담긴 자연스러운 음성을 생성한다. 사용자의 의도와 맥락을 파악해 적절한 어조와 감정으로 응답한다.
“와, 사진 진짜 멋지다! 하늘이 쨍하게 파랗고 건물은 햇빛을 받아서 반짝반짝해…”
실제 응답 예시에서 볼 수 있듯, 자연스러운 한국어 구어체와 감정 표현이 돋보인다.
2. 기술적 딥다이브
모델 아키텍처
Kanana-o는 다음 컴포넌트들로 구성된다:
- 이미지/오디오 인코더: 모달리티별로 최적화된 파인튜닝된 인코더
- C-abstractors: 각 모달리티의 특성을 압축하는 어댑터
- 언어 모델: 카카오가 처음부터 학습한 kanana-1.5-9.8B-instruct
- 음성 디코더: 토큰을 파형으로 변환하는 모듈
총 파라미터: 11.6B (LLM: 9.8B) 컨텍스트 길이: 16K 지원 언어: 한국어, 영어
벤치마크 성능 비교
이미지 이해
| 모델 | STEM & Puzzle | General VQA | Document | KoNet |
|---|---|---|---|---|
| Kanana-o | 47.72 | 75.01 | 64.82 | 89.44 |
| GPT-4o | 50.11 | 72.83 | 68.77 | 79.81 |
| Gemini-2.5-pro | 68.36 | 83.59 | 82.43 | 96.17 |
오디오 처리
| 모델 | ASR 영어 | ASR 한국어 | TTS 영어 | TTS 한국어 |
|---|---|---|---|---|
| Kanana-o | 97.70 | 93.28 | 98.16 | 97.77 |
| GPT-4o | 97.43 | 76.28 | 98.33 | 96.56 |
| Gemini-2.5-pro | 96.78 | 84.45 | 98.14 | 95.22 |
전반적으로 GPT-4o와 비슷하거나 일부 영역에서 더 나은 성능을 보이며, 특히 한국어 처리에서 확실한 우위를 점한다.
3. 실제 사용법
기본 설정
OpenAI SDK와 호환되는 API 구조를 사용한다:
from openai import OpenAI
client = OpenAI(
base_url="https://kanana-o.a2s-endpoint.kr-central-2.kakaocloud.com/v1",
api_key="<API_KEY>"
)
이미지 캡셔닝
import base64
def b64_of_file(path: str) -> str:
with open(path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
image_b64 = b64_of_file("photo.jpg")
response = client.chat.completions.create(
model="kanana-o",
messages=[{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": image_b64}},
{"type": "text", "text": "이 사진 설명해줘"}
]
}]
)
음성 응답 받기
response = client.chat.completions.create(
model="kanana-o",
messages=[{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": image_b64}},
{"type": "text", "text": "이 제품 광고문 만들어줘"}
]
}],
modalities=["text", "audio"],
extra_body={"latency_first": True},
audio={"voice": "preset_spk_1"},
stream=True
)
지원 태스크
- 이미지 캡셔닝 & VQA
- OCR 및 문서 이해
- 음성 인식 (ASR)
- 음성 합성 (TTS)
- 음성 번역
- 멀티턴 대화
- 팟캐스트 스타일 음성 생성
4. Kanana-o의 의미
한국 AI 생태계의 이정표
Kanana-o는 한국 기업이 만든 최초의 옴니모달 API다. 단순히 “한국어를 지원하는” 모델이 아니라, 한국어를 가장 잘하는 옴니모달 모델이라는 점이 중요하다.
특히:
- 한국어 음성 데이터셋(KsponSpeech, KsponTTS)에서 압도적 성능
- 한국 지식 벤치마크(KoNet)에서 GPT-4o 능가
- 한국 문맥에 맞는 자연스러운 응답 생성
활용 가능성
- 고객 서비스: 음성/이미지 기반 상담 봇
- 교육: 문제 풀이, 음성 강의 생성
- 콘텐츠 제작: 팟캐스트, 오디오북 자동 생성
- 접근성: 시각/청각 장애인을 위한 멀티모달 인터페이스
- 비즈니스: 회의록 자동 작성, 문서 분석
마치며: 글로벌 경쟁, 그리고 한국의 선택
Kanana-o는 분명 인상적인 모델이다. 특히 한국어 처리에서 보여준 성능은 글로벌 모델들이 쉽게 따라오기 힘든 영역일 것이다.
물론 Gemini-2.5-pro 같은 최상위 모델들과 비교하면 아직 격차가 있다. 하지만 한국어 특화와 옴니모달 통합이라는 명확한 차별점이 있다.
API 가격 정책이 아직 공개되지 않았지만, 카카오 클라우드 생태계와 연동된다면 국내 기업들에게는 충분히 매력적인 선택지가 될 것 같다.