Speech Databases of Typical Children and Children with SLI 数据集解读
这个数据集是用于研究典型儿童和特定语言障碍(SLI)儿童言语的数据库,组织方式与研究设计相关,以下从数据集背景理解其组织逻辑:
整体框架
数据集分健康儿童言语数据库(H - CH)和SLI儿童病理言语数据库(SLI - CH I、SLI - CH II ),前者作为对照,后两者针对患病儿童不同研究需求。
文件夹层级含义
- Patients下的P8 - P14等:代表不同受试儿童分组,可对应论文里不同数据库(如H - CH、SLI - CH I、SLI - CH II )下的受试对象集合,每个“P + 数字”可能是一批儿童的归类 。
- P12下的01SAMOHL、02SOUHL等子文件夹:结合论文中“对个体儿童多次录音,用于对比治疗过程”,这些子文件夹可能是对单个儿童(或有特定特征儿童)的细化分组,用于记录其不同阶段、不同任务的言语数据,方便追踪观察(比如01 - 07可能对应不同测试场景、治疗阶段的录音分类 )。
文件命名与内容关联
右侧“4mja1a.lbl”“4mja1a.wav”等,“wav”是音频文件,存储儿童言语录音;“lbl”可能是标注文件,记录与音频对应的语音内容、发音标注、病理特征标注等信息(结合论文中对言语分析需标注错误发音、病理特征等,用于后续医学研究、语言学分析 ),文件名里的“4mja1a”等编码,应是对应左侧P12等分组下,具体儿童、具体测试场景的唯一标识,关联起音频与元数据(如属于哪个儿童、哪种测试任务 )。
简单说,就是先按儿童是否患病、患病程度等宏观分组(P8 - P14 ),再对组内儿童按个体/测试场景细分(01SAMOHL等子文件夹 ),最后用成对的音频 + 标注文件,存储和描述具体言语数据,服务于医学(病理分析 )、语言学(言语特征研究 )等研究需求 。 若想更精准,得结合论文里各数据库具体受试信息、测试流程,对应看文件夹编码规则,不过现有信息能解释到这层逻辑啦~
数据集抽取
我现在要做一个语音的 MLP2分类任务。现在我正在进行数据处理阶段。我首先需要导入我的数据,我的数据格式是 WAV 格式的音频。他总共有两个类,一个是健康类,一个是疾病类。他们的数据是呈现某种分布规律的。下面是两个泪里面分别对应的我想要的音频文件的链接,呈现给你,链接以后我会告诉你他有什么样的规律,我希望你能写代码批量的提取出来我想要的这些数据,进行下一步的处理和训练 健康/mnt/data/test1/Speech_Disease_Recognition_Dataset_Benchmark/dataset/SLI_dataset/Healthy/Healthy/H26/01SAMOHL/4PK1A.wav 疾病/mnt/data/test1/Speech_Disease_Recognition_Dataset_Benchmark/dataset/SLI_dataset/Patients/Patients/P8/01SAMOHL/4dp1a.wav 可以看到音频文件以1a.wav或者1A.wav结尾,/mnt/data/test1/Speech_Disease_Recognition_Dataset_Benchmark/dataset/SLI_dataset/Patients/Patients/目录下的每个文件夹代表一个患者 比如说P8 代表一个患者 H26代表一个健康人 现在我需要你帮我写代码。批量的从这两个类里面的每一个样本里面的这些文件夹下面提取出来我想要的这种语音的文件。然后再写入到统一的两个文件夹/mnt/data/test1/Speech_Disease_Recognition_Dataset_Benchmark/dataset/SLI_dataset/preprocess_a_data/healthy /mnt/data/test1/Speech_Disease_Recognition_Dataset_Benchmark/dataset/SLI_dataset/preprocess_a_data/patients 里面,方便我后续的模型训练和评测 根据规律和要求写python代码