Text Summarizer
긴 글 요약 (추출적 요약)
사용 안내
- 추출적 요약 방식으로, 원문에서 중요한 문장을 선별합니다.
- 단어 빈도 기반으로 각 문장의 중요도를 계산합니다.
- 한국어와 영어 텍스트 모두 지원합니다.
- 모든 처리는 브라우저에서 수행되며, 서버로 데이터가 전송되지 않습니다.
Text Summarizer 소개
텍스트 요약기는 새로운 문장을 생성하는 대신 원문에서 가장 중요한 문장을 선택하는 NLP 기법인 추출적 요약을 사용합니다. 클라우드 API 호출이 필요한 AI 기반 요약기와 달리, 이 도구는 단어 빈도 점수화 알고리즘을 사용하여 완전히 브라우저에서 실행됩니다. 입력 텍스트를 문장으로 토큰화하고, 일반적인 영어 및 한국어 불용어를 제외한 단어 빈도 맵을 구축하고, 정규화된 내용어 빈도를 기반으로 각 문장에 점수를 매기고, 초반 문장에 약간의 위치 가중치를 적용한 후, 원래 순서로 상위 N개 문장을 반환합니다.
이 도구는 긴 기사, 연구 논문, 회의 메모, 뉴스 기사에서 핵심 포인트를 빠르게 추출하는 데 유용합니다. 기자와 연구자는 전체 읽기 전에 빠른 개요를 얻기 위해 사용하고, 학생은 밀도 높은 학술 텍스트를 검토하기 위해 사용하며, 콘텐츠 팀은 블로그 포스트에서 소셜 미디어 요약 후보를 생성하기 위해 사용합니다. 이 도구는 같은 세션에서 영어와 한국어 텍스트를 모두 지원하여 이중 언어 워크플로에 유용합니다.
추출 알고리즘의 작동 방식: (1) 문장 끝 구두점을 감지하는 정규식으로 텍스트를 문장으로 분할, (2) 비글자/비숫자 문자를 제거한 후 단어를 소문자로 추출, (3) 영어(100개 이상)와 한국어(30개 이상 조사 및 보조어) 불용어를 빈도 계산에서 제외, (4) 각 단어의 빈도를 문서 내 최대 빈도로 정규화, (5) 각 문장의 점수 = 정규화된 단어 빈도의 합 / 문장 단어 수, 초반 문장에 최대 20%의 위치 가중치 적용, (6) 점수별 상위 N개 문장을 선택하고 원래 텍스트 순서로 재정렬.
주요 기능
- 추출적 요약 — 환각이나 패러프레이징 없이 원문에서 가장 중요한 문장 선택
- 조정 가능한 요약 길이: 필요에 따라 3, 5, 7, 10개 출력 문장 선택
- 언어별 적절한 불용어 목록으로 영어와 한국어 텍스트 모두 지원
- 정규화를 통한 단어 빈도 점수화 — 인위적으로 긴 문장에 대한 편향 방지
- 텍스트 앞부분에 나타나는 문장에 약간의 우선순위를 부여하는 위치 가중 점수화
- 압축 비율 추적을 위한 입력 및 출력 모두의 문자 및 단어 수 표시
- 요약 결과를 클립보드에 한 번의 클릭으로 복사
- 100% 클라이언트 사이드 처리 — 텍스트가 서버나 API로 절대 전송되지 않음
자주 묻는 질문
추출적 요약이란 무엇이며 AI 요약과 어떻게 다른가요?
추출적 요약은 가장 중요하다고 점수가 매겨진 원문의 실제 문장을 선택하고 반환합니다. 출력에는 입력에 나타난 단어만 포함됩니다 — 패러프레이징이나 새로운 내용 생성이 없습니다. AI 기반(추상적) 요약은 대조적으로 텍스트의 여러 부분에서 정보를 패러프레이징하거나 결합하는 새로운 문장을 생성합니다. 추출적 요약은 결정론적이며(동일한 입력은 항상 동일한 출력을 제공), 환각이 없고, 클라우드 API나 구독이 필요하지 않습니다.
단어 빈도 점수화 알고리즘은 어떻게 작동하나요?
알고리즘: (1) 구두점 경계에서 텍스트를 문장으로 분할, (2) 영어와 한국어 불용어를 제외하고 텍스트의 모든 단어로 단어 빈도 맵을 구축, (3) 문서에서 가장 높은 빈도로 나누어 각 단어 빈도를 정규화, (4) 내용어의 정규화된 빈도의 평균으로 각 문장에 점수 부여, (5) 위치 가중치 적용 — 앞부분에 나타나는 문장은 최대 20% 추가 점수를 받아 주제문과 핵심 정보가 문단과 기사 앞부분에 자주 나타나는 것을 반영, (6) 상위 N개 문장을 선택하고 원래 문서 순서로 반환.
왜 일부 중요한 문장이 요약에 포함되지 않나요?
알고리즘은 길이에 비해 얼마나 많은 고빈도(중요) 단어를 포함하는지를 기준으로 문장에 점수를 매깁니다. 새로운 용어를 도입하거나, 맥락을 제공하거나, 고유한 단어를 사용하는 문장은 주관적으로 중요하더라도 낮은 점수를 받을 수 있습니다. 알고리즘은 휴리스틱이며 중요한 개념이 여러 문장에 걸쳐 반복되는 잘 구조화된 텍스트에서 가장 잘 작동합니다.
필요한 최소 텍스트 길이는 얼마인가요?
이 도구는 최소 50자의 입력 텍스트가 필요합니다. 이 최소값은 문장으로 의미 있게 분할하고 점수를 매길 충분한 내용이 있는지 확인합니다. 매우 짧은 텍스트(50자 미만)는 일반적으로 단일 문장이므로 요약할 수 없습니다 — 이 경우 도구가 오류 메시지를 표시합니다.
영어와 한국어 이외의 언어를 지원하나요?
이 도구는 표준 구두점(마침표, 느낌표, 물음표)을 문장 경계로 사용하는 모든 텍스트를 처리합니다. 불용어 목록은 영어와 한국어를 특정적으로 다루므로 다른 언어도 출력을 생성하지만 불용어 필터링이 효과적이지 않을 수 있습니다. 영어와 유사한 불용어(관사, 전치사, 접속사)를 공유하는 유럽 언어의 경우 결과의 질은 여전히 합리적이어야 합니다.
왜 요약에 선택한 것보다 적은 문장이 포함되는 경우가 있나요?
입력 텍스트의 전체 문장 수가 요청한 수보다 적은 경우(예: 텍스트에 3개 문장이 있지만 5개를 요청한 경우) 도구는 사용 가능한 모든 문장을 요약으로 반환합니다. 출력은 입력에 존재하는 것보다 더 많은 문장을 포함할 수 없습니다.
텍스트가 서버나 AI API로 전송되나요?
아니요. 모든 텍스트 처리는 완전히 웹 브라우저 내에서 이루어집니다. 토큰화, 단어 빈도 계산, 문장 점수화, 출력 생성은 모두 기기에서 로컬로 실행되는 JavaScript에 의해 수행됩니다. 텍스트는 브라우저를 절대 벗어나지 않으며, 저장되지 않고, 서버, AI API, 제3자에게 전송되지 않습니다. 이는 기밀 문서, 내부 보고서, 민감한 연구를 요약하는 데 적합합니다.
요약 문장 수를 어떻게 선택해야 하나요?
일반적인 가이드라인: 3문장은 최대 500단어 기사에 잘 맞고(주요 포인트와 두 가지 지원 아이디어 캡처), 5문장은 500-1500단어 기사에 적합하며, 7문장은 중간 길이 문서(1500-3000단어)를 처리하고, 10문장은 더 긴 문서나 더 완전한 개요가 필요할 때 적합합니다. 최적 설정은 원문 텍스트의 정보 밀도와 보존하려는 세부 사항의 양에 따라 다릅니다.