微软开源了一个叫 MarkItDown 的项目,在GitHub 上狂揽 15w star数
能把各种文件转成 Markdown 格式,方便喂给大语言模型,不丢信息,文档原本的结构和内容都能完整保留下来。
转换逻辑:
先识别文件格式,再调对应的转换器提取内容,同时保留文档的层级结构,最后输出干净的 Markdown。 https://t.co/rkbeIyLtXt
微软开源了一个叫 MarkItDown 的项目,在GitHub 上狂揽 15w star数
能把各种文件转成 Markdown 格式,方便喂给大语言模型,不丢信息,文档原本的结构和内容都能完整保留下来。
转换逻辑:
先识别文件格式,再调对应的转换器提取内容,同时保留文档的层级结构,最后输出干净的 Markdown。 https://t.co/rkbeIyLtXt