PDF to Word
PDF를 DOCX 문서로 변환
파일을 여기에 드래그하거나
파일 선택최대 50MB, PDF 파일
PDF to Word 소개
PDF to Word는 PDF 문서에서 텍스트 내용을 추출하여 편집 가능한 Microsoft Word DOCX 파일로 출력하는 무료 브라우저 기반 변환 도구입니다. pdfjs-dist로 PDF를 페이지별로 읽고, docx JavaScript 라이브러리(Packer 사용)로 구조화된 Word 문서를 생성하며, 서버 업로드 없이 브라우저에서 모두 처리됩니다.
직접 텍스트를 선택할 수 없는 PDF에서 내용을 복사하거나 편집해야 하는 경우에 유용합니다. PDF 교재에서 노트를 추출하는 학생, PDF 형식의 기사를 수정해야 하는 편집자, 받은 PDF 보고서를 편집 가능한 초안으로 변환하는 직장인 등이 대표적인 사용자입니다.
기술적으로는 pdfjs-dist의 getTextContent()로 각 페이지를 읽고 Y 좌표 근접도(5단위 이상 차이 시 새 줄)를 기준으로 텍스트 항목을 줄 단위로 그룹화합니다. 결과 줄들은 TextRun 자식을 가진 docx Paragraph 객체로 감싸집니다. 페이지 사이에는 PageBreak Paragraph를 삽입하여 원본 페이지 구분을 유지합니다. 전체 단락 배열을 Document로 조립하고 Packer.toBlob()으로 Blob을 생성한 후 .docx 파일로 다운로드합니다.
주요 기능
- PDF 모든 페이지의 텍스트 내용을 추출하여 DOCX 문서로 작성
- 인접 텍스트 항목의 Y 좌표 비교로 정확한 줄 바꿈 감지
- 원본 PDF의 페이지 구분이 Word 페이지 나누기 요소로 보존
- 각 페이지 처리 시 실시간 추출 진행률 표시
- 출력 DOCX 파일명은 원본 PDF 파일명을 기반으로 자동 지정
- pdfjs-dist 및 docx 라이브러리 기반 100% 클라이언트 사이드 처리
- 결과 DOCX는 Microsoft Word, Google Docs, LibreOffice Writer에서 완전 편집 가능
- 최대 50MB PDF 파일 지원, 계정이나 소프트웨어 설치 불필요
자주 묻는 질문
브라우저에서 PDF to Word 변환이 어떻게 작동하나요?
pdfjs-dist로 각 PDF 페이지에서 텍스트 항목을 추출하고 수직 위치(Y 좌표) 기준으로 줄 단위로 그룹화합니다. 이 줄들을 docx Paragraph 객체로 감쌉니다. 모든 페이지 처리 후 페이지 구분을 삽입하고, docx 라이브러리가 유효한 DOCX 바이너리를 조립하여 컴퓨터에 다운로드합니다.
Word 문서가 원본 PDF와 똑같이 보이나요?
아니요. 변환기는 일반 텍스트 내용과 줄/페이지 구분을 추출하지만, 다단 레이아웃, 표, 텍스트 박스, 이미지, 머리글/바닥글, 장식적 폰트 등 복잡한 서식은 DOCX에서 재현되지 않습니다. 출력물은 작성 내용 편집에 적합한 텍스트 중심의 Word 문서입니다.
스캔된 PDF도 Word로 변환할 수 있나요?
아니요. 이 도구는 PDF에 내장된 텍스트 데이터를 활용합니다. 스캔된 PDF나 이미지 기반 PDF에는 선택 가능한 텍스트가 없어 비어 있거나 거의 빈 DOCX가 출력됩니다. 스캔 문서는 먼저 OCR 소프트웨어로 텍스트를 추출해야 합니다.
변환된 DOCX에서 한국어나 다른 비라틴 언어도 지원되나요?
네. docx 라이브러리는 유니코드 텍스트를 처리하므로 pdfjs-dist가 PDF 콘텐츠 스트림에서 추출할 수 있는 한국어, 일본어, 중국어, 아랍어 등 모든 언어가 DOCX에 기록됩니다.
출력 DOCX에 여분의 공백이나 단어가 끊어지는 이유는 무엇인가요?
PDF 텍스트 레이아웃은 각 글자나 단어 조각을 절대 위치로 배치합니다. 같은 시각적 줄에 있는 여러 조각을 추출하면 별도의 텍스트 런으로 나타날 수 있으며 간격 차이가 생기기도 합니다. 줄 그룹화 알고리즘이 이를 완화하지만 원본 단어 간격을 완전히 재현하지는 못합니다.
변환 중 PDF가 서버에 전송되나요?
아니요. pdfjs-dist가 PDF를 파싱하고 docx가 Word 파일을 생성하는 모든 과정이 브라우저 메모리 내 JavaScript로 처리됩니다. 네트워크를 통해 데이터가 전송되지 않으며, DOCX가 로컬에서 생성되어 기기로 직접 다운로드됩니다.
변환된 파일을 Google Docs에서 열 수 있나요?
네. 출력 파일은 표준 .docx 형식입니다. Google 드라이브에 업로드하면 Google Docs에서 열 수 있습니다. Microsoft Word, LibreOffice Writer, Apple Pages 등 DOCX 형식을 지원하는 모든 애플리케이션에서도 사용 가능합니다.
원본 PDF의 이미지, 표, 차트는 어떻게 되나요?
이미지, 차트, 그래픽 표는 추출되지 않습니다. 이 도구는 PDF 콘텐츠 스트림의 텍스트 내용만 처리합니다. PDF에 이미지나 그려진 그래픽으로 내장된 시각적 요소는 DOCX 출력물에 나타나지 않습니다.