当前位置: 首页 > news >正文

HarvardX TinyML小笔记2(番外3:数据工程)

课程链接:Course | edX

数据工程其实就是做数据集,这东西没有太多技术含量,但是可以说是决定ML成败的关键一环。毕竟有80%的时间耗费都是在高质量的数据集上。

数据决定模型上限,算法与工程仅决定逼近上限的程度。

整体步骤大概就是确定需求,收集,提炼,维持。流程倒是不难理解,首先明确需要什么样的数据集,然后用多种方式去收集,之后对数据处理验证,最后保管数据。

收集数据集的时候要注意开源协议,分析能不能使用。

数据来源的四种方式:传感器,众包,产品用户,付费用户。

总之好数据集的创建很麻烦。。。

列了几个可以直接用的数据集,Common Voice,COCO,ImageNet等等。后面有机会再看吧。

简单介绍了一下Google的Speech Commands。

Speech Commands 

https://arxiv.org/pdf/1804.03209.pdf

  • What are Speech Commands?
  • What was People’s motivation behind building Speech Commands?
  • How is Keyword Spotting different from traditional speech recognition models? 
  • What are the important metrics in speech recognition for KWS?

之后介绍了一个Web的语音收集平台,Common Voice,都是白嫖很多自愿者。。。

主页:https://commonvoice.mozilla.org/

然后说了下如何复用已有的数据集。

最后还是老生常谈的数码平权,消除偏见。有一说一,不管实际如何,起码美国的学校对这方面还是很重视的。确实未来AI时代,一些细小的偏见都可能对人类社会带来深远影响。

最后还是说明,如果数据集选的不好,就算在程序中训练的准确率再高,程序可能也有问题。

So just because your Colab says you've got a certain accuracy does not mean that it's actually doing its job well from a TinyML application standpoint.

最后的总结,其实看这一篇就够了:Course | edX

http://www.xdnf.cn/news/1423981.html

相关文章:

  • 技术速递|构建你的第一个 MCP 服务器:如何使用自定义功能扩展 AI 工具
  • Linux之Shell编程(四)函数、数组、正则
  • PostgreSQL备份指南:逻辑与物理备份详解
  • EPLAN如何添加接触器辅助触头 | 解决触点不足问题详解4----使用部件组
  • 三、Gitee平台使用指南
  • 在Lumerical FDTD中,磁偶极子通常用于激发TE模式,而电偶极子用于激发TM模式(文心一言)
  • chrome好用的浏览器插件
  • 51.【.NET8 实战--孢子记账--从单体到微服务--转向微服务】--新增功能--登录注册扩展
  • UE角色取消被Decal影响
  • 在 PHP 应用中处理限流和 API 节流:扩展、防滥用的最佳实践
  • 【数据可视化-102】苏州大学招生计划全解析:数据可视化的五大维度
  • 预告:AI赋能IT服务管理实践 |2025 “数字化时代的IT服务管理“Meetup-深圳站(9月20日)
  • [吾爱出品] PDF文件加密解密工作,附带源码。
  • GitHub CLI (gh) 全面指南:终端中的 GitHub 工作流革命
  • ServBay 是一款集成式、图形化的本地 Web 开发环境工具,专为 macOS 和 Windows 系统设计
  • 什么是最大熵强化学习?
  • Linux笔记---计算机网络概述
  • Python上下文管理器与资源管理
  • WEEX:从某DEX代币暴涨看加密交易选择
  • 【Linux】模拟实现Shell(下)
  • 快递地址归类排序实现(Java Python)
  • 查看服务器设备是否为物理机
  • Linux内核进程管理子系统有什么第三十九回 —— 进程主结构详解(35)
  • 算法练习——169.多数元素
  • 教育项目管理工具新趋势:可视化与自动化如何提升效率?
  • XGBoost学习笔记
  • 故障排查指南:理解与解决 “No route to host“ 错误
  • 【科普向-第七篇】Git全家桶介绍:Git/Gitlab/GitHub/TortoiseGit/Sourcetree
  • std::map::try_emplace完全详解
  • 从 Oracle 到 TiDB,通过ETL工具,高效实现数据拉通