yena shared this post · 4h ago
GitHubDaily

将 PDF 转成文本,遇到扫描件、多栏排版、复杂表格和公式,传统 OCR 经常识别错乱。

olmOCR,一款基于视觉语言模型的 PDF 转 Markdown 工具,已斩获了 17900+ Star!

能处理公式、表格、手写体和复杂版式,还会自动去掉页眉页脚。

并且按自然阅读顺序输出,哪怕多栏排版也不会读串行。

GitHub:http://github.com/allenai/olmocr

单 GPU 本地跑之外也支持接入远程推理服务,处理成本能压到每百万页不到 200 美元。

需要批量处理 PDF、扫描件转成可编辑文本的朋友,尤其是做数据处理或者知识库搭建的,这个工具可以试试。

67