Question 1

PDF 표가 Excel로 어떻게 변환되나요?

Accepted Answer

pdfjs-dist로 각 PDF 페이지를 읽어 모든 텍스트 항목과 그 X, Y 좌표를 추출합니다. Y 위치 기준으로 항목을 그룹화해 행을 구성하고, 각 행 내에서 X 위치 기준으로 정렬해 열을 구성한 후 SheetJS로 Excel 워크시트를 생성합니다.

Question 2

병합 셀이 있는 복잡한 표도 정확하게 변환되나요?

Accepted Answer

텍스트 위치만으로 표 구조를 추론하므로 단순한 표 레이아웃은 깔끔하게 변환됩니다. 병합 셀, 중첩 헤더, 불규칙한 열 너비가 있는 복잡한 표는 완벽하게 매핑되지 않을 수 있습니다. PDF 형식은 명시적인 표 구조 메타데이터를 저장하지 않기 때문입니다.

Question 3

스캔된 PDF나 이미지 기반 PDF도 변환할 수 있나요?

Accepted Answer

아니요. 이 도구는 pdfjs-dist로 PDF 콘텐츠 스트림에서 내장 텍스트를 읽습니다. 스캔된 PDF나 이미지 전용 PDF에는 추출 가능한 텍스트 데이터가 없어 출력이 빈 행으로 나타납니다. 스캔 문서는 먼저 OCR 소프트웨어로 텍스트를 추출하세요.

Question 4

출력 결과에 빈 열이나 데이터 정렬이 맞지 않는 이유는 무엇인가요?

Accepted Answer

PDF 레이아웃은 공식적인 표 그리드 없이 텍스트를 절대 위치로 배치합니다. 시각적으로 같은 행에 있는 항목들의 X 또는 Y 좌표에 미세한 차이가 있으면 스프레드시트에서 다른 행이나 열로 분리될 수 있습니다. 이는 텍스트 좌표 기반 추출의 본질적인 한계입니다.

Question 5

여러 페이지 PDF는 Excel에서 어떻게 처리되나요?

Accepted Answer

PDF의 각 페이지가 독립적으로 변환되어 XLSX 워크북의 별도 워크시트 탭으로 저장됩니다. 5페이지 PDF라면 Page 1부터 Page 5까지 5개의 시트가 생성되어 각 페이지 데이터가 분리되어 정리됩니다.

Question 6

변환된 Excel 파일을 Google 스프레드시트에서 사용할 수 있나요?

Accepted Answer

네. 출력 파일은 표준 .xlsx 형식이므로 Google 드라이브에 업로드하면 Google 스프레드시트에서 바로 열 수 있습니다. Microsoft Excel, LibreOffice Calc, Mac의 Numbers 등 XLSX 형식을 지원하는 모든 애플리케이션에서 사용 가능합니다.

Question 7

PDF 데이터가 서버에 전송되나요?

Accepted Answer

아니요. pdfjs-dist와 SheetJS 모두 브라우저에서 JavaScript 라이브러리로 실행됩니다. 어떠한 파일 데이터도 네트워크를 통해 전송되지 않으며, 모든 처리가 브라우저 메모리에서 이루어지고 결과 XLSX가 로컬에서 직접 다운로드됩니다.

Question 8

원본 PDF의 볼드체, 색상, 테두리 등 서식은 유지되나요?

Accepted Answer

현재 도구는 일반 텍스트 내용만 추출합니다. 폰트 굵기, 텍스트 색상, 셀 테두리, 배경색 등 PDF의 시각적 서식은 Excel 출력물에 반영되지 않습니다. XLSX에는 서식이 적용되지 않은 기본 스프레드시트 형태로 텍스트 값만 포함됩니다.

PDF to Excel

PDF to Excel 소개

주요 기능

자주 묻는 질문