当前位置: 首页 > news >正文

easy-dataset的安装

构建高质量的微调数据集是提升模型性能的关键一步。LLaMA-Factory 官方推荐了 Easy Dataset 和 GraphGen 两款工具。其中,Easy Dataset是一款由国内开发者构建的 LLM 数据生成工具,它通过 LLM 生成问答对来构建数据集。相比之下,GraphGen 则结合了 LLM 和知识图谱。在实际应用中,Easy Dataset 的便捷性和良好的社区支持使其成为更优选择。考虑到 Easy Dataset 的本土化优势及其日益活跃的社区生态,我们选择 Easy Dataset 作为数据集构建的工具。本文将对 Easy Dataset 安装进行介绍。

EasyDatasets是什么?-CSDN博客

Easy Dataset 项目地址: https://github.com/ConardLi/easy-dataset

Easy Dataset 文档地址: https://docs.easy-dataset.com

1.安装工具准备

首先,我们需要把pnpm工具安装好。

步骤 1:安装 nvm

  1. 使用 curl 或 wget 下载并安装 nvm 脚本:

    curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.7/install.sh | bash

    或者

    wget -qO- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.7/install.sh | bash

    注意:请访问 nvm GitHub 页面 查看最新的版本号,替换上面的 v0.39.7

  2. 激活 nvm:
    安装脚本会自动将 nvm 的源添加到你的 shell 配置文件(~/.bashrc~/.profile, 或 ~/.zshrc)中。你需要重新打开终端或者运行以下命令来使其立即生效:

    bash

    source ~/.bashrc

步骤 2:安装 Node.js 和 npm

这里,需要使用使用 nvm 来安装node.js和npm,因为,pnpm 需要 Node.js 环境(>=16.14)。

  1. 安装最新的长期支持 (LTS) 版本的 Node.js(它自带 npm):

    bash

    nvm install --lts
  2. 使用刚安装的版本:

    bash

    nvm use --lts
  3. 验证安装:

    bash

    node --version
    npm --version

步骤 3:安装 pnpm

从 Node.js 16.9 开始,官方提供了一个名为 corepack 的工具来管理包管理器。这里,我们使用 Corepack 安装 pnpm(Node.js 16.9+ 官方推荐)

  1. 启用 Corepack

    bash

    corepack enable
  2. 安装并激活最新版本的 pnpm

    bash

    corepack prepare pnpm@latest --activate
  3. 验证安装

    bash

    pnpm --version

    现在你就可以使用 pnpm 命令了。如果你的 Node.js 版本较旧,或者不想使用 corepack,可以直接用 npm 全局安装:

bash

npm install -g pnpm

安装后同样使用 pnpm --version 验证。

2.安装easy-dataset

Easy Dataset 提供了多种部署方式,包括安装包下载、Docker 部署和源码运行。对于非开发者,直接下载安装包即可快速上手。对于开发者,推荐使用源码运行方式,具体步骤如下:

步骤1:克隆仓库

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

或者 点击【easy-dataset.zip】下载。

步骤2:安装依赖

pnpm i

这个过程需要花费一段时间(如:10m 40.9s),如下所示:

步骤3:启动服务

pnpm build
pnpm start

服务启动后,在浏览器中访问 http://localhost:1717 即可进入项目主页。

http://www.xdnf.cn/news/1365085.html

相关文章:

  • 【STM32】G030单片机的独立看门狗
  • 不止效率工具:AI 在文化创作中如何重构 “灵感逻辑”?
  • 《拉康精神分析学中的欲望辩证法:能指的拓扑学与主体的解构性重构》
  • 【科研绘图系列】R语言浮游植物生态数据的统计与可视化
  • [系统架构设计师]专业英语(二十二)
  • 系统架构设计师-计算机系统存储管理-页式、段氏、段页式模拟题
  • 探索量子计算的新前沿
  • 【Linux】timerfd和POSIX定时器(timer_create)
  • ASW3642 pin√pin替代TS3DV642方案,可使用原小板只需简单调整外围|ASW3642 HDMI二切一双向切换器方案
  • prepare_model_for_kbit_training()函数解析(56)
  • 解决getLocation获取当前的地理位置,报错:getLocation:fail auth deny及方法封装
  • 抖音多账号运营新范式:巨推AI如何解锁流量矩阵的商业密码
  • Unity中的特殊文件夹
  • Day60 Java面向对象15 abstract关键字详解
  • 物流架构实践:ZKmall开源商城物流接口对接与状态同步
  • 配置单区域 OSPF
  • 基于SpringBoot的招聘管理系统【2026最新】
  • Redis类型之List
  • 【慕伏白】CTFHub 技能树学习笔记 -- Web 之信息泄露
  • vue3+typescript:为表格生成唯一的Key/No
  • 集群与集群概念
  • 如何在 Jenkins 中安装 Master 和 Slave 节点以优化 CI/CD 流程
  • 【数据可视化-98】2025年上半年地方财政收入Top 20城市可视化分析:Python + Pyecharts打造炫酷暗黑主题大屏
  • 【数据可视化-100】使用 Pyecharts 绘制人口迁徙图:步骤与数据组织形式
  • Linux下的软件编程——网络编程(http)
  • 基于git的场景解决
  • DeepSeek 14B模型本地部署与预训练实现方案
  • 从零开始学习单片机15
  • MySQL常见报错分析及解决方案总结(1)---Can‘t connect to MySQL server on ‘localhost‘(10061)
  • 什么是事件循环(Event Loop)?浏览器和 Node.js 中的事件循环有什么区别?