pdf-process-mineru from skills.volces.com

Tool List

1. pdf_to_markdown

Convert PDF documents to Markdown format, preserving document structure, formulas, tables, and images.

Description: Use MinerU to parse PDF documents and output in Markdown format, supporting OCR, formula recognition, table extraction, and other features.

Parameters:

file_path (string, required): Absolute path to the PDF file
output_dir (string, required): Absolute path to the output directory
backend (string, optional): Parsing backend, options: hybrid-auto-engine (default), pipeline, vlm-auto-engine
language (string, optional): OCR language code, such as en (English), ch (Chinese), ja (Japanese), etc., defaults to auto-detection
enable_formula (boolean, optional): Whether to enable formula recognition, defaults to true
enable_table (boolean, optional): Whether to enable table extraction, defaults to true
start_page (integer, optional): Start page number (starting from 0), defaults to 0
end_page (integer, optional): End page number (starting from 0), defaults to -1 meaning parse all pages

Return Value: