Crawl2AI
Crawl2AI 是一个强大的数据集生成和大模型微调工具。用户可以一键爬取指定域名的链接,并将其转换为大模型友好的 markdown 文件。这些 markdown 文件可以进一步通过 ChatGPT、DeepSeek 和 Gemma 等大型模型转换成训练大型模型所需的数据集。
关键特点
- 高效爬取: 支持深度爬取指定域名的所有链接
- 格式转换: 将链接转换为 markdown 文件
- 文件上传: 支持上传 .md、.txt、.pdf、.docx、.doc 等文件,自动转换为 markdown
- 输出格式多样化: 支持导出 JSONL 和 JSON 格式,以及 Alpaca 和 ShareGPT 格式等自定义格式
- 预览功能: 支持预览转换结果
- 未来功能: 计划支持直接微调大型模型
使用与安装
- 推荐使用 Python 3.10
- 通过创建虚拟环境并安装依赖来开始使用
- 启动后端和前端服务器后,用户可以在浏览器中访问应用程序。
Crawl2AI 是研发数据集和进行模型微调的重要工具,适用于从事人工智能和机器学习的开发者。