yena shared this post · 7h ago
Berryxia.AI

这速度真特么离谱啊!卧槽!

最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。

而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window Attention)。

它让模型在解码时KV Cache保持恒定,不会随着文档页数增加而爆炸式增长。

结果就是:一张图或者一本多页PDF,直接扔进去就能一次性解析完,速度和稳定性都比传统逐页处理的方式好很多。

在OmniDocBench上拿到了93分,比DeepSeek-OCR高出6个百分点。

这已经不是简单的准确率提升,而是把长文档OCR的工作流从“分块+外部调度器拼接”变成了真正的端到端一镜到底。

以前做多页文档最头疼的就是上下文断裂和格式不一致,现在模型能一次性看到整篇文档的结构、布局和逻辑关系,输出质量自然上了一个台阶。

这其实是把OCR从“认字工具”往“长文档理解引擎”又往前推了一大步。

技术路线很清晰,也很实用。

果然百度现在OCR独树一帜,遥遥领先了。

模型地址见评论区~ 👇

441