GitHubDaily on x - Social Archiver

yena shared this post · 4h ago

GitHubDaily

1d ago · archived 4h ago

将 PDF 转成文本，遇到扫描件、多栏排版、复杂表格和公式，传统 OCR 经常识别错乱。

olmOCR，一款基于视觉语言模型的 PDF 转 Markdown 工具，已斩获了 17900+ Star！

能处理公式、表格、手写体和复杂版式，还会自动去掉页眉页脚。

并且按自然阅读顺序输出，哪怕多栏排版也不会读串行。

GitHub：http://github.com/allenai/olmocr

单 GPU 本地跑之外也支持接入远程推理服务，处理成本能压到每百万页不到 200 美元。

需要批量处理 PDF、扫描件转成可编辑文本的朋友，尤其是做数据处理或者知识库搭建的，这个工具可以试试。