模型训练相关的问题
与模型训练相关问题
- 损失函数Cross entropy loss的含义
- 训练数据有脏数据,怎么处理?
- loss一直不收敛,怎么排查?
- 连续值的特征怎么处理后输入到机器学习模型当中
损失函数Cross entropy loss的含义
在深度学习中,可以看作通过概率分布q ( x )(预测概率)表示概率分布p ( x ) (label)
物理意义:可以理解为在相对熵中,一个目标事件已确定(label),求另一个概率分布到目标概率分布的距离
训练数据有脏数据,怎么处理?
判断脏数据的类型,然后对症下药
a) 缺失值:删除、填充、插值。
b) 重复数据:删除。
c) 异常值:删除、修正、保留。
d) 噪声数据:平滑、数据清洗。
e) 类别数据:合并稀有类别、标签一致化。
f) 文本数据:拼写纠正、去除停用词、标准化。
g) 数据标准化/归一化:确保数据具有合适的尺度。
loss一直不收敛,怎么排查?
a) 学习率过大或过小:尝试使用学习率调度器,逐步减少学习率