PDF를 그대로 AI에 읽히면, 검색하기 전부터 답이 미쳐버려.

yena shared this post · 2h ago

1

표가 무너진다. 수식이 깨진다. 2단 조판이 섞인다.
이 ‘최초의 읽기’가 엉망이면, 나중에 아무리 똑똑한 AI를 써도 틀린다.

거기에 꽂히는 게 olmOCR.

AI 연구 기관 Ai2(Allen Institute for Artificial Intelligence)가 공개한, 무료로 쓸 수 있는 OSS의 OCR 도구.
PDF·스캔·PNG·JPEG를, AI가 그대로 이해할 수 있는 깔끔한 Markdown으로 바꿔준다.

단순한 텍스트 추출 도구가 아니다.
유료 OCR의 저하 버전도 아니다.

보통이면 무너지는 부분을, 제대로 처리한다

→ 표
→ 수식
→ 손글씨 문자
→ 2단 조판 레이아웃
→ 도표·삽입 이미지
→ 오래된 스캔
→ 헤더·푸터 자동 제거
→ 사람이 읽기 자연스러운 순서

지금까지 ‘PDF를 복붙해서 손으로 다듬기’였던 게, 그냥 던져넣기만 하면 구조를 유지한 Markdown이 된다.

사내 매뉴얼, 논문, 계약서, 결산 자료를 AI에 읽히게 하고 싶은 사람일수록 효과적이다.

게다가 100만 페이지당 200달러 미만(약 3만 원)으로 엄청 싸.

자세한 건 아래에 올려둔다.

이게 은근히 효과를 발휘하는 이유는, 지금 많은 사람들이 "자사 자료를 AI에게 읽히게 해서 답변을 생성하는 시스템"을 만들고 있기 때문입니다.

하지만 원본 PDF의 텍스트 읽기(인식)가 어긋나 있으면, AI는 내용을 탐색하기도 전에 이미 잘못된 상태가 됩니다.

olmOCR은 그 가장 첫 번째 관문, 즉

내부는 70억 파라미터의 이미지 인식 AI로 구동되며, 본격적인 운영에는 GPU가 필요합니다.

다만 "먼저 시험해 보고 싶다"면, 브라우저에서 작동하는 공식 데모가 있습니다.
환경을 준비할 필요 없이, PDF를 한 장 던져 넣기만 하면 변환 결과를 그 자리에서 확인할 수 있습니다.

데모는 여기

공식 저장소는 여기

晚晚 PDF 这块真是第一步错了后面全歪 8h ago