AI 음성 인식 & 합성 도구 비교: Whisper, ElevenLabs, Clova

음성과 텍스트를 오가는 AI 음성 기술

텍스트를 음성으로, 음성을 텍스트로. 예전에는 이게 전문 장비나 고가 소프트웨어가 필요한 영역이었는데, 이제는 API 한 줄이면 된다. Whisper가 나오면서 STT 쪽은 아예 무료로 쓸 수 있는 수준이 됐고, TTS도 ElevenLabs를 필두로 사람과 구분하기 어려운 품질까지 올라왔다.

STT — 음성을 텍스트로

Speech-to-Text. 사람이 말한 걸 텍스트로 변환하는 기술이다. 자막 생성, 회의록 작성, 음성 검색, 보이스 어시스턴트 등 쓰이는 곳이 많다.

Whisper (OpenAI)

2022년 오픈소스로 공개된 모델인데, STT 판도를 바꿔놨다. 핵심 특징:

다국어 지원 — 한국어 포함 99개 언어. 한국어 인식률도 상당히 좋다
오픈소스 — 로컬에서 돌릴 수 있다. 즉, API 비용 없이 무한정 사용 가능
모델 크기 선택 — tiny, base, small, medium, large, turbo 등. 정확도와 속도 사이에서 선택
타임스탬프 — 단어 단위 타임스탬프 지원. 자막 만들기에 적합
번역 — 다른 언어 음성을 영어 텍스트로 변환하는 번역 기능도 내장

로컬 실행이 가능하다는 게 큰 장점이다. GPU가 있으면 large 모델도 실시간에 가깝게 돌릴 수 있고, CPU에서도 small 모델 정도는 쓸 만하다.

# Whisper 로컬 실행 예시
import whisper

model = whisper.load_model("medium")
result = model.transcribe("meeting.mp3", language="ko")
print(result["text"])

OpenAI API를 통해 클라우드에서도 쓸 수 있다. 기존 Whisper API는 분당 $0.006이고, 2026년에 추가된 GPT-4o Transcribe도 같은 가격이다. 더 저렴한 GPT-4o Mini Transcribe는 분당 $0.003으로 절반 가격이고, 화자 구분이 필요하면 별도의 GPT-4o Transcribe Diarize 모델을 사용하면 된다. Deepgram Nova-2($0.0043/분)도 가격 경쟁력 있는 대안이다.

# OpenAI API를 통한 Whisper 사용
from openai import OpenAI

client = OpenAI()
with open("meeting.mp3", "rb") as f:
    result = client.audio.transcriptions.create(
        model="whisper-1",
        file=f,
        language="ko"
    )
print(result.text)

Faster Whisper라는 커뮤니티 구현체도 있다. CTranslate2 기반으로, 원본 Whisper 대비 4배 빠르면서 메모리도 덜 먹는다. 프로덕션에서 로컬 STT를 돌리려면 이쪽을 추천.

Google Cloud Speech-to-Text

구글의 클라우드 STT 서비스. 구글 검색과 유튜브 자막에 사용되는 기술 기반이라 한국어 인식 품질이 높다.

실시간 스트리밍 인식 지원
화자 분리(speaker diarization) 기능
자동 문장부호 삽입
전화 통화 오디오에 최적화된 모델 별도 제공

가격은 월 60분 무료, 이후 분당 $0.016~$0.024 수준.

AWS Transcribe

아마존의 STT 서비스. AWS 인프라와의 연동이 자연스럽다.

실시간 스트리밍 + 배치 처리 모두 지원
맞춤 어휘(Custom Vocabulary) — 전문 용어나 고유명사 인식률 향상
독성 탐지(Toxicity Detection) 기능
Call Analytics — 고객 센터 통화 분석에 특화

가격은 초당 과금이라 짧은 오디오 처리에 유리할 수 있다.

Clova Speech (네이버)

한국어에 특화된 STT 서비스. 네이버의 기술력이 집약된 제품이다.

한국어 최적화 — 한국어 인식 정확도가 높다. 특히 일상 대화, 전화 통화 같은 비정형 음성에서 강점
화자 분리 지원
실시간 스트리밍 인식
도메인 특화 모델 (의료, 법률 등)

한국어만 쓸 거라면 Clova Speech가 좋은 선택이다. 한국어 맞춤법, 조사 처리 같은 부분에서 외국 서비스보다 자연스러운 결과를 내놓는 경우가 많다.

Azure Speech Services

마이크로소프트의 STT 서비스로, Azure의 AI 플랫폼과 긴밀하게 통합되어 있다.

실시간 및 배치 전사 지원
도메인 특화 정확도를 위한 커스텀 음성 모델
화자 분리 기능 내장
Microsoft 365 생태계와의 강한 연동

가격은 표준 인식 시간당 $1부터 시작하고, 월 5시간 무료 티어가 있다.

STT 도구 비교표

	Whisper (로컬)	Whisper (API)	Google STT	AWS Transcribe	Azure Speech	Clova Speech
한국어 품질	좋음	좋음	매우 좋음	좋음	좋음	매우 좋음
실시간 지원	가능 (추가 구현 필요)	불가	지원	지원	지원	지원
오프라인 사용	가능	불가	불가	불가	불가	불가
화자 분리	별도 구현	미지원	지원	지원	지원	지원
비용	무료 (GPU 비용만)	$0.006/분	$0.016/분~	$0.024/분~	$0.017/분~	종량제

TTS — 텍스트를 음성으로

Text-to-Speech. 여기가 최근 몇 년간 가장 극적으로 발전한 분야다. 로봇 같은 기계음에서 벗어나, 이제는 감정 표현까지 자연스러운 수준에 도달했다.

ElevenLabs

TTS 분야의 선두주자. 음성 품질 면에서는 현재 가장 앞서 있다는 평가를 받는다.

음성 클로닝 — 짧은 음성 샘플로 특정 사람의 목소리를 복제. 몇 분짜리 샘플만으로도 놀라운 수준의 결과를 낸다
다국어 지원 — 한국어 포함 30개 이상 언어. 같은 음성으로 여러 언어를 구사하게 할 수 있다
감정 조절 — 텍스트의 맥락에 따라 감정이 자연스럽게 반영된다
스트리밍 API — 실시간 TTS 스트리밍 지원

# ElevenLabs API 예시
from elevenlabs import ElevenLabs

client = ElevenLabs(api_key="your-key")
audio = client.text_to_speech.convert(
    voice_id="voice_id_here",
    text="안녕하세요, 반갑습니다.",
    model_id="eleven_multilingual_v2"
)

무료 티어에서 월 10,000 크레딧(약 10분 TTS)까지 사용 가능. 유료 플랜은 Starter $5/월, Creator $22/월(연간 결제 시 $11/월), Pro $99/월로 구성된다. 상업적 사용이나 대량 처리에는 비용이 꽤 나간다.

주의할 점이 하나 있다. 음성 클로닝은 윤리적·법적 이슈가 있다. 타인의 목소리를 동의 없이 복제하는 건 당연히 문제가 되고, ElevenLabs도 본인 인증 절차를 요구하고 있다.

OpenAI TTS

GPT를 만든 OpenAI에서 제공하는 TTS. 여섯 가지 기본 음성을 제공한다.

자연스러운 음성 품질
다국어 지원 (입력 텍스트 언어를 자동 감지)
HD 모델과 일반 모델 선택 가능
음성 클로닝은 미지원 (정책적으로 제한)

API가 단순해서 빠르게 통합하기 좋다. 가격은 100만 자당 $15(일반) / $30(HD). 여기에 gpt-4o-mini-tts라는 새 모델도 추가됐는데, 토큰 기반 과금으로 분당 약 $0.015 수준이다.

Google Cloud Text-to-Speech

구글 특유의 인프라 안정성이 장점이다.

WaveNet, Neural2 등 고품질 음성 모델
SSML(Speech Synthesis Markup Language) 지원 — 발음, 속도, 피치 세밀 제어
한국어 음성 다수 제공
Studio 음성 — 전문 성우 녹음 기반의 고품질 모델

WaveNet 음성은 100만 자당 $16, Neural2는 $16, Studio는 $160이다. Studio 음성이 비싸긴 하지만 품질은 확실히 좋다.

Azure Neural TTS

마이크로소프트의 TTS 서비스로, Azure 생태계와의 깊은 통합이 특징이다.

100개 이상 언어에서 고품질 뉴럴 음성 지원
SSML 지원으로 세밀한 운율(prosody) 제어 가능
Custom Neural Voice — 자사 데이터로 음성 모델 학습 가능
실시간 및 배치 합성 지원

가격은 뉴럴 음성 기준 100만 자당 $15부터 시작한다.

Clova Voice (네이버)

역시 한국어에 특화된 TTS.

다양한 한국어 음성 (감정별, 연령대별)
한국어 발음 처리가 자연스러움 — 외래어, 약어 등
SSML 지원
커스텀 음성 제작 서비스

한국 시장 타겟 서비스라면 한국어 자연스러움에서 이점이 있다.

개발자 관점에서의 선택 기준

어떤 도구를 쓸지는 결국 요구사항에 달려 있다.

비용을 최소화하고 싶다면 — STT는 Whisper 로컬, TTS는 OpenAI가 합리적이다.

한국어 품질이 최우선이라면 — STT는 Clova Speech, TTS도 Clova Voice가 한국어 특화라는 장점이 있다. 다만 다국어 지원이 필요하면 선택지가 좁아진다.

음성 클로닝이나 맞춤 음성이 필요하다면 — ElevenLabs가 독보적이다. 경쟁 서비스와 품질 차이가 크다.

대규모 처리(배치)가 필요하다면 — Whisper 로컬을 Faster Whisper로 구축하는 게 가장 경제적이다. TTS 대량 처리는 어떤 서비스든 비용이 상당히 나오니까 사전에 견적을 잘 따져봐야 한다.

실시간 스트리밍이 필수라면 — STT는 Google이나 AWS, TTS는 ElevenLabs의 스트리밍 API가 옵션이다.

활용 사례

기술이 있으니 어디에 쓸 수 있는지도 한번 정리해보자.

자막 생성. Whisper의 가장 인기 있는 활용처다. 유튜브 영상, 팟캐스트, 강의 영상에 자막을 자동으로 붙일 수 있다. 타임스탬프 지원이 되니까 SRT/VTT 포맷으로 바로 변환 가능하다.

회의록 자동 작성. 회의 녹음 → Whisper로 텍스트 변환 → LLM으로 요약. 이 파이프라인이 이미 여러 SaaS로 상품화됐다. Otter.ai, Fireflies.ai 같은 서비스가 대표적.

접근성 개선. 시각 장애인을 위한 웹 콘텐츠 음성 변환, 청각 장애인을 위한 실시간 자막 제공. TTS/STT의 본래 목적에 가장 가까운 활용이다.

오디오북 제작. ElevenLabs 같은 고품질 TTS로 오디오북을 만드는 사례가 늘고 있다. 전문 성우 녹음 대비 비용이 크게 절감되고, 제작 시간도 비교가 안 된다.

음성 챗봇/보이스 어시스턴트. STT → LLM → TTS 파이프라인을 조합하면 음성 대화형 AI를 만들 수 있다. 레이턴시가 관건인데, 각 단계의 지연을 줄이는 게 기술적 챌린지다.

콘텐츠 로컬라이제이션. 한국어 영상의 음성을 STT로 텍스트화 → 번역 → TTS로 다른 언어 음성 생성. 완전 자동 더빙까지는 아직 품질이 부족하지만, 초안 수준으로는 충분히 쓸 만하다.

앞으로의 방향

음성 AI 기술은 아직 빠르게 진화 중이다. Whisper 후속 모델이 나올 때마다 인식률이 올라가고 있고, TTS는 감정 표현과 운율이 점점 자연스러워지고 있다.

개발자 입장에서 좋은 소식은, 대부분의 도구가 API로 쉽게 쓸 수 있다는 거다. 음성 처리 자체에 대한 깊은 이해 없이도 STT/TTS를 프로덕트에 통합할 수 있다. 복잡한 건 서비스가 다 처리해주니까.

다만 품질 차이가 도구마다 꽤 있으니, 본격적으로 도입하기 전에 자기 유스케이스에 맞는 샘플 테스트를 반드시 해봐야 한다. 특히 한국어는 영어 대비 지원 수준이 천차만별이다.