yena shared this post · May 9
AI探路者Tim

有人刚刚开发了一个工具,可以将 PDF 转换为

干净、结构化的 Markdown

速度达到 100 页/秒 🤯

不需要 GPU。

不需要 API 成本。

没有混乱的解析。

只有原始的、可用的数据。

它可以轻松处理的内容:

• 表格 → 完美提取

• 破损布局 → 自动修复

• 嵌套数据 → 结构化清理

• 扫描混乱 → 转换为可读

这不是小升级。

这会在一夜之间消除 90% 的手动数据清理。

这个工具叫 OpenDataLoader

而且……它是开源的。

仓库 → https://github.com/opendataloader-project/opendataloader-pdf

95