Speech to Text
음성을 텍스트로 변환 (STT)
브라우저의 Web Speech API를 사용합니다. Chrome 브라우저에서 가장 잘 작동합니다.
Speech to Text 소개
음성을 텍스트로 변환 도구는 Web Speech API(SpeechRecognition / webkitSpeechRecognition)를 활용하여 음성을 실시간으로 텍스트로 변환하는 무료 브라우저 기반 음성 인식 애플리케이션입니다. 한국어(ko-KR), 영어 미국(en-US), 영어 영국(en-GB), 일본어(ja-JP), 중국어 간체(zh-CN), 스페인어(es-ES), 프랑스어(fr-FR), 독일어(de-DE) 등 8개 언어를 지원하며, 연속 듣기 모드와 중간 결과 표시로 실시간 받아쓰기를 제공합니다.
이 도구는 브라우저에서 완전히 실행되며 어떤 서버에도 데이터가 업로드되지 않습니다. 연속 인식 모드를 사용하여 수동으로 중지할 때까지 계속 듣기를 수행하며, 확정된 텍스트를 축적하면서 중간(진행 중) 결과를 실시간으로 표시합니다. 편집 가능한 출력 텍스트 영역에서 인식 오류를 즉시 수정할 수 있고, 원클릭 복사 버튼으로 전체 텍스트를 클립보드에 즉시 전송할 수 있습니다.
콘텐츠 제작자, 기자, 강의 노트를 작성하는 학생, 접근성이 필요한 사용자, 핸즈프리 텍스트 입력이 필요한 모든 분을 위해 제작되었습니다. 계정 등록, 소프트웨어 설치, 파일 업로드가 필요 없으며, 가장 안정적인 Web Speech API 구현을 제공하는 Google Chrome에서 최적으로 작동합니다.
주요 기능
- 브라우저 Web Speech API를 활용한 실시간 음성-텍스트 변환 — 중간 결과와 최종 결과 구분 표시
- 다국어 지원 — 한국어, 영어(미국/영국), 일본어, 중국어 간체, 스페인어, 프랑스어, 독일어
- 연속 듣기 모드 — 수동 중지까지 계속 녹음, 장시간 받아쓰기 및 강의 노트에 최적
- 중간 결과 실시간 표시 — 최종 인식 확정 전 진행 중인 받아쓰기를 즉시 확인
- 편집 가능한 출력 텍스트 영역 — 녹음 중 또는 녹음 후 인식 오류 수동 수정 가능
- 원클릭 클립보드 복사 — 변환된 텍스트를 다른 애플리케이션으로 즉시 전송
- 서버 처리 없음 — 모든 음성 인식이 브라우저 음성 엔진을 통해 로컬에서 수행
- 시각적 녹음 표시기 — 마이크 활성 상태를 명확히 보여주는 애니메이션 펄스
자주 묻는 질문
음성을 텍스트로 변환 도구는 어떻게 작동하나요?
이 도구는 최신 브라우저에 내장된 Web Speech API(SpeechRecognition 또는 webkitSpeechRecognition)를 사용합니다. "녹음 시작"을 클릭하면 마이크 접근을 요청하고 브라우저 음성 인식 엔진으로 오디오 스트리밍을 시작합니다. API가 실시간으로 음성을 처리하여 말하는 동안 중간(잠정) 결과를, 자연스러운 일시 정지를 감지하면 최종(확정) 결과를 반환합니다. 연속 모드로 "녹음 중지"를 클릭할 때까지 계속 듣습니다.
음성 인식은 어떤 언어를 지원하나요?
8개 언어를 지원합니다: 한국어(ko-KR), 영어 미국(en-US), 영어 영국(en-GB), 일본어(ja-JP), 중국어 간체(zh-CN), 스페인어(es-ES), 프랑스어(fr-FR), 독일어(de-DE). 녹음 시작 전 드롭다운에서 언어를 선택하세요. 인식 정확도는 각 언어에 대한 브라우저 음성 엔진의 품질에 따라 달라집니다.
음성 인식에 가장 적합한 브라우저는 무엇인가요?
Google Chrome이 가장 안정적이고 정확한 Web Speech API 구현을 제공합니다. Microsoft Edge 등 Chromium 기반 브라우저도 잘 작동합니다. Safari는 부분 지원됩니다. Firefox는 현재 음성 인식용 Web Speech API를 지원하지 않습니다. 최상의 결과를 위해 데스크톱 또는 Android의 최신 버전 Google Chrome을 사용하세요.
음성 데이터가 서버로 전송되나요?
Web Speech API 구현은 브라우저마다 다릅니다. Chrome에서는 인식을 위해 오디오가 Google 서버를 통해 처리될 수 있지만, 변환된 텍스트는 브라우저에 머물며 이 도구에 의해 저장되거나 공유되지 않습니다. 오디오 파일이 업로드되지 않고, 텍스트가 데이터베이스에 저장되지 않으며, 모든 텍스트가 기기 로컬에 유지됩니다.
중간 결과와 최종 결과의 차이는 무엇인가요?
중간 결과는 말하는 동안 실시간으로 표시되는 잠정적 변환 텍스트입니다. 음성 엔진이 더 많은 오디오 컨텍스트를 받으면 변경될 수 있습니다. 최종 결과는 엔진이 일시 정지나 문장 경계를 감지한 후 확정한 변환 텍스트입니다. 도구가 둘 다 함께 표시하여 확정 텍스트가 축적되고 중간 텍스트가 끝에서 업데이트되는 매끄러운 실시간 받아쓰기 경험을 제공합니다.
녹음 중에 변환된 텍스트를 편집할 수 있나요?
네, 출력 텍스트 영역은 항상 편집 가능합니다. 녹음이 계속되는 동안 텍스트 영역을 클릭하여 오류를 수정하거나, 구두점을 추가하거나, 서식을 변경할 수 있습니다. 새로 인식된 텍스트는 커서 위치 이후에 추가됩니다. 녹음을 중지한 후에도 자유롭게 편집할 수 있습니다.
변환된 텍스트를 어떻게 복사하나요?
텍스트 영역 위의 "복사" 버튼을 클릭하면 navigator.clipboard API를 사용하여 전체 텍스트가 클립보드에 복사됩니다. "복사됨" 확인이 잠시 표시됩니다. 그런 다음 워드 프로세서, 이메일 클라이언트, 메모 앱 등 어떤 애플리케이션에든 붙여넣을 수 있습니다. 또는 텍스트 영역에서 특정 부분을 선택하여 Ctrl+C / Cmd+C를 사용할 수도 있습니다.
녹음이 자동으로 중지되는 이유는 무엇인가요?
Web Speech API는 장시간 침묵, 네트워크 문제(Chrome에서 음성이 Google 서버를 통해 처리되는 경우), 또는 브라우저의 시간 제한으로 인해 자동으로 중지될 수 있습니다. 이런 경우 "녹음 시작"을 다시 클릭하여 재개하면 됩니다. 이전에 변환된 텍스트는 텍스트 영역에 보존되며, 새로운 인식 결과가 기존 텍스트에 추가됩니다.