yena shared this post · 1d ago
AI 카페인 ☕️

Microsoft 오픈소스 중에

요즘 진짜 빠르게 치고 올라가는 게 하나 있음.

「MarkItDown」

한 줄로 설명하면

파일을 AI가 읽기 좋은 Markdown으로 바꿔주는 툴임.

이게 왜 중요하냐면,

지금 AI workflow 대부분은

결국 자료를 먼저 모델에 먹여야 하는 구조인데

PDF, Word, PPT, Excel을 그대로 넣으면

생각보다 결과가 불안정함.

· 구조 깨지고

· 추출 누락되고

· token만 더 먹는 경우 많음

반면 Markdown은

계층이 깔끔하고 구조가 명확해서

요약, Q&A, RAG, 지식베이스, Agent workflow에 훨씬 잘 맞음.

· 지원 포맷도 넓음.

· PDF

· Word

· PPT

· Excel

· HTML

· CSV

· JSON

· XML

· 이미지

· 오디오

· YouTube 링크

· ZIP

· EPUB

· Outlook 메일

이미지는 OCR, EXIF 추출도 되고

오디오는 메타데이터, 음성 전사까지 지원.

YouTube는 자막도 바로 가져올 수 있음.

즉,

이건 단순 변환기가 아니라

AI 문서 파이프라인의 전처리 인프라에 가까움.

특히 이런 데 잘 맞음:

· 문서 일괄 정리

· RAG 전처리

· 사내 지식베이스 구축

· 로컬 문서 Q&A

· Agent 파일 이해

예전엔 파일을 AI에 그냥 던졌다면,

이제는 MarkItDown으로 먼저 정리해서 넣는 쪽이 훨씬 안정적임.

GitHub:

https://github.com/microsoft/markitdown

#AI #AICaffeine #MarkItDown #Microsoft

21