# 将 PDF 转成文本，遇到扫描件、多栏排版、复杂表格和公式，传统 OCR 经常识别错乱。 olmOCR，一款基于视觉语言模型的 PDF 转 Markdow...
Canonical: https://social-archive.org/yena/1gX5EeKqup
Original URL: https://x.com/GitHub_Daily/status/2072258946963050907
Author: GitHubDaily
Platform: x
## Content
将 PDF 转成文本，遇到扫描件、多栏排版、复杂表格和公式，传统 OCR 经常识别错乱。 olmOCR，一款基于视觉语言模型的 PDF 转 Markdown 工具，已斩获了 17900+ Star！ 能处理公式、表格、手写体和复杂版式，还会自动去掉页眉页脚。 并且按自然阅读顺序输出，哪怕多栏排版也不会读串行。 GitHub：http://github.com/allenai/olmocr 单 GPU 本地跑之外也支持接入远程推理服务，处理成本能压到每百万页不到 200 美元。 需要批量处理 PDF、扫描件转成可编辑文本的朋友，尤其是做数据处理或者知识库搭建的，这个工具可以试试。