GitTrend on x

yena shared this post · 1d ago

中国自媒体数据采集神器！小红书、抖音、B站等多平台爬虫！

想系统采集小红书笔记、抖音/快手视频、B站内容、微博/知乎/贴吧帖子和评论？手动复制太慢，商业工具又贵。

MediaCrawler 这个项目把主流自媒体平台的公开数据采集做到了极致：

• 覆盖平台：小红书、抖音、快手、B站、微博、百度贴吧、知乎

• 核心功能：关键词搜索、指定帖子/视频ID、二级评论、创作者主页爬取

• 技术亮点：基于 Playwright 浏览器自动化，无需 JS 逆向，支持登录态缓存 + IP 代理池，极大降低风控

• 数据导出：CSV、JSON、JSONL、Excel、SQLite、MySQL

• 额外福利：内置词云生成 + WebUI 可视化界面，配置运行更友好

• CDP 模式：直接连接你本地的 Chrome，复用登录态和扩展，体验更稳

项目目前已获 54.4k stars，社区活跃，持续维护。作者还推出了 Pro 版本（支持断点续爬 + AI Agent Skill），开源版已经非常能打。

对内容创作者、数据分析师、AI 训练数据收集者、或者想学习成熟爬虫架构的开发者来说，这都是极其实用的开源工具。