Microsoft 오픈소스 중에
요즘 진짜 빠르게 치고 올라가는 게 하나 있음.
「MarkItDown」
한 줄로 설명하면
파일을 AI가 읽기 좋은 Markdown으로 바꿔주는 툴임.
이게 왜 중요하냐면,
지금 AI workflow 대부분은
결국 자료를 먼저 모델에 먹여야 하는 구조인데
PDF, Word, PPT, Excel을 그대로 넣으면
생각보다 결과가 불안정함.
· 구조 깨지고
· 추출 누락되고
· token만 더 먹는 경우 많음
반면 Markdown은
계층이 깔끔하고 구조가 명확해서
요약, Q&A, RAG, 지식베이스, Agent workflow에 훨씬 잘 맞음.
· 지원 포맷도 넓음.
· Word
· PPT
· Excel
· HTML
· CSV
· JSON
· XML
· 이미지
· 오디오
· YouTube 링크
· ZIP
· EPUB
· Outlook 메일
이미지는 OCR, EXIF 추출도 되고
오디오는 메타데이터, 음성 전사까지 지원.
YouTube는 자막도 바로 가져올 수 있음.
즉,
이건 단순 변환기가 아니라
AI 문서 파이프라인의 전처리 인프라에 가까움.
특히 이런 데 잘 맞음:
· 문서 일괄 정리
· RAG 전처리
· 사내 지식베이스 구축
· 로컬 문서 Q&A
· Agent 파일 이해
예전엔 파일을 AI에 그냥 던졌다면,
이제는 MarkItDown으로 먼저 정리해서 넣는 쪽이 훨씬 안정적임.
GitHub: