liminfo

PDF to Excel

PDF 표를 XLSX 스프레드시트로 변환

파일을 여기에 드래그하거나

파일 선택

최대 50MB, PDF 파일

PDF to Excel 소개

PDF to Excel은 PDF 문서에서 구조화된 텍스트 데이터를 추출하여 Excel XLSX 워크북으로 내보내는 무료 브라우저 기반 변환 도구입니다. pdfjs-dist로 PDF를 읽고 SheetJS(xlsx) 라이브러리로 스프레드시트를 생성하며, 모든 처리가 브라우저 내에서만 이루어져 파일이 서버에 업로드되지 않습니다.

보고서, 재무제표, 데이터셋을 PDF로 받아 숫자를 직접 다뤄야 하는 재무 분석가, 회계사, 연구원, 데이터 전문가에게 특히 유용합니다. 표 데이터를 일일이 수작업으로 입력하는 대신, PDF를 변환하면 몇 초 안에 편집 가능한 워크북을 얻을 수 있습니다.

기술적으로는 pdfjs-dist의 getTextContent()로 각 PDF 페이지의 모든 텍스트 항목을 추출합니다. 각 텍스트 항목은 변환 행렬에서 X/Y 좌표를 가지며, Y 좌표 기준으로 그룹화(행 구성)하고 X 좌표 기준으로 정렬(열 구성)한 후 SheetJS의 aoa_to_sheet()에 전달합니다. 각 페이지는 최종 XLSX 워크북에서 Page 1, Page 2 등의 별도 시트로 저장됩니다.

주요 기능

  • PDF 각 페이지의 텍스트를 공간 위치 기반으로 행/열에 매핑하여 추출
  • 각 PDF 페이지가 XLSX의 별도 워크시트(Page 1, Page 2 등)로 저장
  • Y 좌표(행)와 X 좌표(열) 기준 정렬로 원본 읽기 순서 보존
  • 다중 페이지 문서의 변환 진행률을 실시간 프로그레스 바로 표시
  • 출력 파일명은 원본 PDF 파일명에 .xlsx 확장자를 붙여 자동 지정
  • pdfjs-dist 및 SheetJS 기반 100% 클라이언트 사이드 처리
  • 최대 50MB PDF 파일 지원, 계정 등록이나 소프트웨어 설치 불필요
  • Microsoft Excel, Google 스프레드시트, LibreOffice Calc 등 모든 XLSX 뷰어 호환

자주 묻는 질문

PDF 표가 Excel로 어떻게 변환되나요?

pdfjs-dist로 각 PDF 페이지를 읽어 모든 텍스트 항목과 그 X, Y 좌표를 추출합니다. Y 위치 기준으로 항목을 그룹화해 행을 구성하고, 각 행 내에서 X 위치 기준으로 정렬해 열을 구성한 후 SheetJS로 Excel 워크시트를 생성합니다.

병합 셀이 있는 복잡한 표도 정확하게 변환되나요?

텍스트 위치만으로 표 구조를 추론하므로 단순한 표 레이아웃은 깔끔하게 변환됩니다. 병합 셀, 중첩 헤더, 불규칙한 열 너비가 있는 복잡한 표는 완벽하게 매핑되지 않을 수 있습니다. PDF 형식은 명시적인 표 구조 메타데이터를 저장하지 않기 때문입니다.

스캔된 PDF나 이미지 기반 PDF도 변환할 수 있나요?

아니요. 이 도구는 pdfjs-dist로 PDF 콘텐츠 스트림에서 내장 텍스트를 읽습니다. 스캔된 PDF나 이미지 전용 PDF에는 추출 가능한 텍스트 데이터가 없어 출력이 빈 행으로 나타납니다. 스캔 문서는 먼저 OCR 소프트웨어로 텍스트를 추출하세요.

출력 결과에 빈 열이나 데이터 정렬이 맞지 않는 이유는 무엇인가요?

PDF 레이아웃은 공식적인 표 그리드 없이 텍스트를 절대 위치로 배치합니다. 시각적으로 같은 행에 있는 항목들의 X 또는 Y 좌표에 미세한 차이가 있으면 스프레드시트에서 다른 행이나 열로 분리될 수 있습니다. 이는 텍스트 좌표 기반 추출의 본질적인 한계입니다.

여러 페이지 PDF는 Excel에서 어떻게 처리되나요?

PDF의 각 페이지가 독립적으로 변환되어 XLSX 워크북의 별도 워크시트 탭으로 저장됩니다. 5페이지 PDF라면 Page 1부터 Page 5까지 5개의 시트가 생성되어 각 페이지 데이터가 분리되어 정리됩니다.

변환된 Excel 파일을 Google 스프레드시트에서 사용할 수 있나요?

네. 출력 파일은 표준 .xlsx 형식이므로 Google 드라이브에 업로드하면 Google 스프레드시트에서 바로 열 수 있습니다. Microsoft Excel, LibreOffice Calc, Mac의 Numbers 등 XLSX 형식을 지원하는 모든 애플리케이션에서 사용 가능합니다.

PDF 데이터가 서버에 전송되나요?

아니요. pdfjs-dist와 SheetJS 모두 브라우저에서 JavaScript 라이브러리로 실행됩니다. 어떠한 파일 데이터도 네트워크를 통해 전송되지 않으며, 모든 처리가 브라우저 메모리에서 이루어지고 결과 XLSX가 로컬에서 직접 다운로드됩니다.

원본 PDF의 볼드체, 색상, 테두리 등 서식은 유지되나요?

현재 도구는 일반 텍스트 내용만 추출합니다. 폰트 굵기, 텍스트 색상, 셀 테두리, 배경색 등 PDF의 시각적 서식은 Excel 출력물에 반영되지 않습니다. XLSX에는 서식이 적용되지 않은 기본 스프레드시트 형태로 텍스트 값만 포함됩니다.