LogoAISecKit
icon of crawl2ai

crawl2ai

工具一键爬取链接,转换为大模型友好的markdown文件,用于生成训练数据集。

Introduction

Crawl2AI

Crawl2AI 是一个强大的数据集生成和大模型微调工具。用户可以一键爬取指定域名的链接,并将其转换为大模型友好的 markdown 文件。这些 markdown 文件可以进一步通过 ChatGPT、DeepSeek 和 Gemma 等大型模型转换成训练大型模型所需的数据集。

关键特点
  • 高效爬取: 支持深度爬取指定域名的所有链接
  • 格式转换: 将链接转换为 markdown 文件
  • 文件上传: 支持上传 .md、.txt、.pdf、.docx、.doc 等文件,自动转换为 markdown
  • 输出格式多样化: 支持导出 JSONL 和 JSON 格式,以及 Alpaca 和 ShareGPT 格式等自定义格式
  • 预览功能: 支持预览转换结果
  • 未来功能: 计划支持直接微调大型模型
使用与安装
  • 推荐使用 Python 3.10
  • 通过创建虚拟环境并安装依赖来开始使用
  • 启动后端和前端服务器后,用户可以在浏览器中访问应用程序。

Crawl2AI 是研发数据集和进行模型微调的重要工具,适用于从事人工智能和机器学习的开发者。

Information

  • Publisher
    AISecKit
  • Websitegithub.com
  • Published date2025/04/28

Newsletter

Join the Community

Subscribe to our newsletter for the latest news and updates