pdf-parser

SKILL.md

pdf-parser

PDF 파일에서 텍스트를 추출하여 .txt 파일로 저장한다.

사전 확인

Node.js가 설치되어 있는지 확인:

node --version

없으면 사용자에게 Node.js 설치를 안내하고 중단한다.

절차

Step 1 — 의존성 설치

SCRIPT_DIR="$(dirname "$(realpath "$0")")"
cd "{스킬경로}/scripts" && npm install --silent

설치 확인:

node "{스킬경로}/scripts/extract_pdf_text.js" --check

OK: Node.js and pdf-parse are ready. 가 출력되면 정상. 오류 발생 시 사용자에게 에러 메시지와 함께 중단.

Step 2 — 텍스트 추출

node "{스킬경로}/scripts/extract_pdf_text.js" \
  "{입력.pdf}" \
  -o "{출력경로}/{슬러그}.txt"

출력 경로 결정 규칙:

  • 호출 측에서 출력 경로를 지정하면 그것을 사용
  • 지정이 없으면 입력 PDF와 같은 디렉토리에 저장 ({파일명}.txt)

Step 3 — 결과 반환

추출 성공 시:

✓ PDF 텍스트 추출 완료

  입력: {입력.pdf}  ({N} 페이지)
  출력: {출력경로}/{슬러그}.txt

추출 실패 시 (암호화된 PDF, 이미지만 있는 PDF 등):

⚠️  PDF 텍스트 추출 실패

  원인: {에러 메시지}

  대안:
  - 암호화된 PDF: 비밀번호 해제 후 재시도
  - 스캔본(이미지 PDF): OCR 도구가 필요합니다 (예: Adobe Acrobat, tesseract)
  - 텍스트 레이어가 없는 경우: PDF 원본 파일을 텍스트로 직접 제공해주세요

스크립트 위치

scripts/extract_pdf_text.js — Node.js 기반 PDF 텍스트 추출 스크립트 scripts/package.json — 의존성 정의 (pdf-parse)

Weekly Installs
2
First Seen
6 days ago
Installed on
amp2
cline2
opencode2
cursor2
kimi-cli2
codex2