easy-dataset的安装
构建高质量的微调数据集是提升模型性能的关键一步。LLaMA-Factory 官方推荐了 Easy Dataset 和 GraphGen 两款工具。其中,Easy Dataset是一款由国内开发者构建的 LLM 数据生成工具,它通过 LLM 生成问答对来构建数据集。相比之下,GraphGen 则结合了 LLM 和知识图谱。在实际应用中,Easy Dataset 的便捷性和良好的社区支持使其成为更优选择。考虑到 Easy Dataset 的本土化优势及其日益活跃的社区生态,我们选择 Easy Dataset 作为数据集构建的工具。本文将对 Easy Dataset 安装进行介绍。
EasyDatasets是什么?-CSDN博客
Easy Dataset 项目地址: https://github.com/ConardLi/easy-dataset
Easy Dataset 文档地址: https://docs.easy-dataset.com
1.安装工具准备
首先,我们需要把pnpm工具安装好。
步骤 1:安装 nvm
-
使用
curl
或wget
下载并安装 nvm 脚本:curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.7/install.sh | bash
或者
wget -qO- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.7/install.sh | bash
注意:请访问 nvm GitHub 页面 查看最新的版本号,替换上面的
v0.39.7
。 -
激活 nvm:
安装脚本会自动将 nvm 的源添加到你的 shell 配置文件(~/.bashrc
,~/.profile
, 或~/.zshrc
)中。你需要重新打开终端或者运行以下命令来使其立即生效:bash
source ~/.bashrc
步骤 2:安装 Node.js 和 npm
这里,需要使用使用 nvm 来安装node.js和npm,因为,pnpm 需要 Node.js 环境(>=16.14)。
-
安装最新的长期支持 (LTS) 版本的 Node.js(它自带 npm):
bash
nvm install --lts
-
使用刚安装的版本:
bash
nvm use --lts
-
验证安装:
bash
node --version npm --version
步骤 3:安装 pnpm
从 Node.js 16.9 开始,官方提供了一个名为 corepack
的工具来管理包管理器。这里,我们使用 Corepack 安装 pnpm(Node.js 16.9+ 官方推荐)
-
启用 Corepack:
bash
corepack enable
-
安装并激活最新版本的 pnpm:
bash
corepack prepare pnpm@latest --activate
-
验证安装:
bash
pnpm --version
现在你就可以使用
pnpm
命令了。如果你的 Node.js 版本较旧,或者不想使用corepack
,可以直接用npm
全局安装:
bash
npm install -g pnpm
安装后同样使用 pnpm --version
验证。
2.安装easy-dataset
Easy Dataset 提供了多种部署方式,包括安装包下载、Docker 部署和源码运行。对于非开发者,直接下载安装包即可快速上手。对于开发者,推荐使用源码运行方式,具体步骤如下:
步骤1:克隆仓库
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
或者 点击【easy-dataset.zip】下载。
步骤2:安装依赖
pnpm i
这个过程需要花费一段时间(如:10m 40.9s),如下所示:
步骤3:启动服务
pnpm build
pnpm start
服务启动后,在浏览器中访问 http://localhost:1717 即可进入项目主页。