有人刚刚开发了一个工具,可以将 PDF 转换为
干净、结构化的 Markdown
速度达到 100 页/秒 🤯
不需要 GPU。
不需要 API 成本。
没有混乱的解析。
只有原始的、可用的数据。
它可以轻松处理的内容:
• 表格 → 完美提取
• 破损布局 → 自动修复
• 嵌套数据 → 结构化清理
• 扫描混乱 → 转换为可读
这不是小升级。
这会在一夜之间消除 90% 的手动数据清理。
这个工具叫 OpenDataLoader
而且……它是开源的。
仓库 → https://github.com/opendataloader-project/opendataloader-pdf