当前位置: 首页 > java >正文

Datawhale AI夏令营 机器学习2.1

主要优化点:

  1. 设备品牌分桶

    • 将低频设备品牌归类为"Other"

    • 解决长尾分布问题,减少噪声

  2. 重叠用户策略

    test_df['is_new_did'] = test_df['did'].apply( lambda x: user_label_dict[x] if x in user_label_dict else test_df.loc[test_df['did'] == x, 'pred_model'].values[0] )
    • 对于训练集中出现过的用户,直接使用已知标签

    • 充分利用数据特点(测试集93%用户出现在训练集中)

  3. 模型参数优化

    • 减小max_depth(8)和num_leaves(31)防止过拟合

    • 降低learning_rate(0.05)提高稳定性

    • 增加正则化项(lambda_l1lambda_l2)

    • 增加num_boost_round(2000)配合早停

  4. 阈值搜索优化

    thresholds = np.arange(0.1, 0.5, 0.01) # 更精细的阈值搜索
    • 以0.01为步长搜索最佳阈值

    • 更精确地平衡精确率和召回率

分数结果:

http://www.xdnf.cn/news/15434.html

相关文章:

  • python学智能算法(二十)|SVM基础概念-感知机算法及代码
  • Gitlab跑CICD的时候,maven镜像和pom.xml使用的maven版本冲突导致没办法build成功的解决方法
  • mac上的app如何自动分类
  • 图灵在二战期间是如何破译德国军用密码的?
  • 20250715使用荣品RD-RK3588开发板在Android13下接入USB3.0接口的红外相机
  • 第八章,应用题
  • Python 字典 (Dictionary) 详解
  • linux系统------HAProxy 配置
  • Isaac Sim仿真赋能机器人工作流,推动具身智能在机器人领域研究
  • 弗兰肯斯坦式的人工智能与GTM策略的崩溃
  • 【Qt】 设计模式
  • 云蝠智能赋能呼入场景——重构企业电话服务
  • 可下载或通过爬虫获取疾病相关数据的网站及平台,涵盖临床数据、基因关联、药品信息等方向,并附注数据特点与获取方式:(不公开)
  • Process Lasso:提升电脑性能的得力助手
  • (3)从零开发 Chrome 插件:网页图片的批量下载
  • 辨析git reset三种模式以及和git revert的区别:回退到指定版本和撤销指定版本的操作
  • 【Ubuntu22.04】repo安装方法
  • 基于STM32的智能火灾报警系统设计
  • AI|大模型入门(六):GPT→盘古,国内外大模型矩阵速览
  • kotlin布局交互
  • 响应式编程入门教程第三节:ReactiveCommand 与 UI 交互
  • 【PTA数据结构 | C语言版】创建哈夫曼树
  • 医疗数据分析中标准化的作用
  • Java项目:基于SSM框架实现的学生档案管理系统【ssm+B/S架构+源码+数据库+毕业论文+开题报告】
  • 剑指offer62_骰子的点数
  • Vue3入门-指令
  • brupsuite使用中遇到的一些问题(bp启动后浏览器无法连接)/如何导入证书
  • 智能体技术深度解析:从概念到企业级搭建指南
  • 安全参綉25暑假第一次作业
  • Student后台管理系统查询接口