yena shared this post · 3h ago
阿西_出海

微软开源了一个叫 MarkItDown 的项目,在GitHub 上狂揽 15w star数

能把各种文件转成 Markdown 格式,方便喂给大语言模型,不丢信息,文档原本的结构和内容都能完整保留下来。

转换逻辑:

先识别文件格式,再调对应的转换器提取内容,同时保留文档的层级结构,最后输出干净的 Markdown。 https://t.co/rkbeIyLtXt

4