yena shared this post · 1d ago
GitTrend

中国自媒体数据采集神器!小红书、抖音、B站等多平台爬虫!

想系统采集小红书笔记、抖音/快手视频、B站内容、微博/知乎/贴吧帖子和评论?手动复制太慢,商业工具又贵。

MediaCrawler 这个项目把主流自媒体平台的公开数据采集做到了极致:

• 覆盖平台:小红书、抖音、快手、B站、微博、百度贴吧、知乎

• 核心功能:关键词搜索、指定帖子/视频ID、二级评论、创作者主页爬取

• 技术亮点:基于 Playwright 浏览器自动化,无需 JS 逆向,支持登录态缓存 + IP 代理池,极大降低风控

• 数据导出:CSV、JSON、JSONL、Excel、SQLite、MySQL

• 额外福利:内置词云生成 + WebUI 可视化界面,配置运行更友好

• CDP 模式:直接连接你本地的 Chrome,复用登录态和扩展,体验更稳

项目目前已获 54.4k stars,社区活跃,持续维护。作者还推出了 Pro 版本(支持断点续爬 + AI Agent Skill),开源版已经非常能打。

对内容创作者、数据分析师、AI 训练数据收集者、或者想学习成熟爬虫架构的开发者来说,这都是极其实用的开源工具。

GitHub:https://github.com/NanmiCoder/MediaCrawler

GitHub - NanmiCoder/MediaCrawler: 小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百...

109