본문으로 건너뛰기

Kanana-o API: 카카오가 공개한 한국 최초 옴니모달 AI

정석

Kanana-o - 카카오의 옴니모달 AI

2026년 3월 4일, 카카오가 한국 최초의 옴니모달(Omni-modal) API를 공식 출시했다. 텍스트, 이미지, 오디오를 모두 입력받아 텍스트나 음성으로 응답할 수 있는 이 모델의 이름은 Kanana-1.5-o-9.8B-instruct-2602. 줄여서 Kanana-o다.

GPT-4o나 Gemini 같은 글로벌 모델들과 직접 경쟁하는 이 모델, 과연 어떤 특징이 있을까?


1. Kanana-o가 특별한 이유

진짜 옴니모달: 보고, 듣고, 말한다

Kanana-o는 Text / Image / Audio → Text / Audio를 지원하는 진정한 옴니모달 모델이다. 단순히 여러 모달리티를 따로 처리하는 게 아니라, 하나의 통합된 프레임워크에서 모든 것을 처리한다.

예를 들어:

오디오 처리 능력

한국어, 진짜 잘한다

벤치마크 결과가 인상적이다. 특히 한국어 관련 성능에서 두각을 나타낸다:

벤치마크Kanana-oHCX-SEED-OmniGPT-4oGemini-2.5-pro
KoNet (한국 지식)89.4475.3979.8196.17
KsponSpeech (한국어 ASR)6.45 CER28.74 CER23.19 CER17.11 CER
KsponTTS (한국어 TTS)2.23 CER14.67 CER3.44 CER4.78 CER

한국어 음성 인식(ASR)과 합성(TTS)에서 압도적인 성능을 보여준다. 특히 HCX-SEED-Omni 대비 한국어 ASR 오류율이 1/4 수준이다.

감정 표현이 풍부하다

Kanana-o는 단순히 텍스트를 읽어주는 게 아니라, 감정이 담긴 자연스러운 음성을 생성한다. 사용자의 의도와 맥락을 파악해 적절한 어조와 감정으로 응답한다.

“와, 사진 진짜 멋지다! 하늘이 쨍하게 파랗고 건물은 햇빛을 받아서 반짝반짝해…”

실제 응답 예시에서 볼 수 있듯, 자연스러운 한국어 구어체와 감정 표현이 돋보인다.


2. 기술적 딥다이브

모델 아키텍처

Kanana-o는 다음 컴포넌트들로 구성된다:

총 파라미터: 11.6B (LLM: 9.8B) 컨텍스트 길이: 16K 지원 언어: 한국어, 영어

벤치마크 성능 비교

이미지 이해

모델STEM & PuzzleGeneral VQADocumentKoNet
Kanana-o47.7275.0164.8289.44
GPT-4o50.1172.8368.7779.81
Gemini-2.5-pro68.3683.5982.4396.17

오디오 처리

모델ASR 영어ASR 한국어TTS 영어TTS 한국어
Kanana-o97.7093.2898.1697.77
GPT-4o97.4376.2898.3396.56
Gemini-2.5-pro96.7884.4598.1495.22

전반적으로 GPT-4o와 비슷하거나 일부 영역에서 더 나은 성능을 보이며, 특히 한국어 처리에서 확실한 우위를 점한다.


3. 실제 사용법

기본 설정

OpenAI SDK와 호환되는 API 구조를 사용한다:

from openai import OpenAI

client = OpenAI(
    base_url="https://kanana-o.a2s-endpoint.kr-central-2.kakaocloud.com/v1",
    api_key="<API_KEY>"
)

이미지 캡셔닝

import base64

def b64_of_file(path: str) -> str:
    with open(path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

image_b64 = b64_of_file("photo.jpg")

response = client.chat.completions.create(
    model="kanana-o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": image_b64}},
            {"type": "text", "text": "이 사진 설명해줘"}
        ]
    }]
)

음성 응답 받기

response = client.chat.completions.create(
    model="kanana-o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": image_b64}},
            {"type": "text", "text": "이 제품 광고문 만들어줘"}
        ]
    }],
    modalities=["text", "audio"],
    extra_body={"latency_first": True},
    audio={"voice": "preset_spk_1"},
    stream=True
)

지원 태스크


4. Kanana-o의 의미

한국 AI 생태계의 이정표

Kanana-o는 한국 기업이 만든 최초의 옴니모달 API다. 단순히 “한국어를 지원하는” 모델이 아니라, 한국어를 가장 잘하는 옴니모달 모델이라는 점이 중요하다.

특히:

활용 가능성

  1. 고객 서비스: 음성/이미지 기반 상담 봇
  2. 교육: 문제 풀이, 음성 강의 생성
  3. 콘텐츠 제작: 팟캐스트, 오디오북 자동 생성
  4. 접근성: 시각/청각 장애인을 위한 멀티모달 인터페이스
  5. 비즈니스: 회의록 자동 작성, 문서 분석

마치며: 글로벌 경쟁, 그리고 한국의 선택

Kanana-o는 분명 인상적인 모델이다. 특히 한국어 처리에서 보여준 성능은 글로벌 모델들이 쉽게 따라오기 힘든 영역일 것이다.

물론 Gemini-2.5-pro 같은 최상위 모델들과 비교하면 아직 격차가 있다. 하지만 한국어 특화옴니모달 통합이라는 명확한 차별점이 있다.

API 가격 정책이 아직 공개되지 않았지만, 카카오 클라우드 생태계와 연동된다면 국내 기업들에게는 충분히 매력적인 선택지가 될 것 같다.


🔗 관련 정보

이전
WezTerm: tmux 없이도 충분한 Rust 기반 GPU 가속 터미널
다음
Spacecake: Claude Code를 위한 최고의 인터페이스