当前位置: 首页 > news >正文

人工智能学习:机器学习相关面试题(一)

1、 机器学习中特征的理解

def: 特征选择和降维

特征选择:原有特征选择出子集 ,不改变原来的特征空间

降维:将原有的特征重组成为包含信息更多的特征, 变了原有的特征空间降维的主要方法

        Principal Component Analysis (主成分分析)

        Singular Value Decomposition (奇异值分解)

特征选择的方法

        Filter 方法 卡方检验、信息增益、相关系数

        Wrapper 方法 其主要思想是:将子集的选择看作是一个搜索寻优问题 ,生成不同的组 ,对组合进行评价 ,再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题 ,这里有很多的优化算法可以解决 ,尤其是一些启发式的优化算法 ,如  GA PSO DE ABC  ,详见“优化算法 ——  人工蜂群算法  (ABC)”,“优化算法  ——  粒子群算法  (PSO)”。

        Embedded 方法 其主要思想是 :在模型既定的情况下学习出对提高模型准确性最好的属性。这句话并不是很好理解 ,其实是讲在确定模型的过程中 ,挑选出那些对模型的训练有重要意义的属性。

        主要方法 :正则化。 岭回归就是在基本线性回归的过程中加入了正则项。

2、机器学习中 ,有哪些特征工程方法?

数据和特征决定了机器学习的上限,  模型和算法只是逼近这个上限

(1)计算每 个特征与相应变量的相关性:  程上常 段有计算 尔逊系数和互信息系数,  尔逊系数只能衡量线性相关性 互信息系数能够很好地度量各种相关性,但是计算相对复杂 些,好在很多toolkit 边都包含了这个 具(如  sklearnMINE 得到相关性之后就可以排序选择特征了;

(2)构建单个特征的模型 ,通过模型的准确性为特征排序 ,借此来选择特征;

(3)通过L1正则项来选择特征: L1正则 法具有稀疏解的特性, 因此天然具备特征选择的特性 ,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有 相关性的特征可能只保留了 个,如果要确定哪个特征重要应再通过L2正则 法交叉检验*;

(4)训练能够对特征打分的预选模型:RandomForestLogistic Regression等都能对模型的特征打分,通过打分获得相关性后再训练最终模型;

(5)通过特征组合后再来选择特征 :如对id户特征最组合来获得较的特征集再来选择特征 ,这种做法在推荐系统和广 告系统中 较常,这也是所谓亿级甚至 十 亿级特征的主要来源 ,原因是 户数据 较稀疏 ,组合特征能够同时兼顾全局模型和个性化模型 ,这个问题有机会可以展开讲。

(6)通过深度学习来进 特征选择: 前这种 段正在随着深度学习的流行而 成为   ,尤其是在计算机视觉领域 ,原因是深度学习具有动学习特征的能 ,这也是深度学unsupervised feature

        learning的原因。从深度学习模型中选择某 神经层的特征后就可以来进 最终模型的训练了。

3、机器学习中的正负样本

        在分类问题中 ,这个问题相对好理解 点,   脸识别中的例,正样本很好理解 ,就是 脸的图 

        负样本的选取就与问题场景相关 ,具体而 言 ,如果你要进 教室中学 脸识别 ,那么负样本就是教室的窗、墙等等 ,也就是  ,不能是与你要研究的问题毫不相关的乱七 糟的场景图,这样的负样本并没有意义。负样本可以根据背景 成,

        有时候不需要寻找额外的负样本。— 般3000-10000的正样本需要5,000,000-100,000,000的负样本来学习,在互 领域 般在 模前将正负 例通过采样的 法调整到3)1-5:1。

4、线性分类器与非线性分类器的区别及优劣

区别:所谓线性分类器即用 — 个超平 将正负样本分离开 ,表达式为   y =wx    。 强调的是平 

        而非 线性的分类界 没有这个限制,可以是曲 ,多个超平的组合等。典型的线性分类器有感知机,LDA逻辑斯特回归, SVM(线性核);

        典型的非 线性分类器有朴素叶斯(有 章说这个本质是线性的,http://dataunion.org/12344.html),kNN,决策树, SVM(  线性核)

优缺点: 1.线性分类器判别简单、易实现、且需要的计算量和存储量 

        为解决比 较复杂的线性不可分样本分类问题 ,提出 线性判别函数。超曲  线性判别函数计算复杂,

        实际应用 上受到较的限制。在线性分类器的基础上, 分段线性分类器可以实现复杂的分类。解决问 较简便的 法是采多个线性分界 将它们分段连接, 分段线性判别划分去逼近分界的超曲 

        如果— 个问题是 线性问题并且它的类边界不能够线性超平 估计得很好 ,那么 线性分类器通常会线性分类器表现得更精准。如果 个问题是线性的 ,那么最好使简单的线性分类器来处理。

5、如何解决过拟合问题

解释过拟合:

        模型在训练集表现好 ,在真实数据表现不好, 即模型的泛化能不够。从另外 方 面 来讲,模型在达到经验损失最的时候 ,模型复杂度较 ,结构险没有达到最优。

解决:

        学习方 法上: 限制机器的学习 ,使机器学习特征时学得不那么彻底, 因此这样就可以降低机器学到局部特征和错误特征的  ,使得识别正确率得到优化.

        数据上 :要防 过拟合 ,做好特征的选取。训练数据的选取也是很关键的, 良好的训练数据本身的局部特征应尽可能少, 噪声也尽可能.

6、L1L2正则的区别,如何选择L1L2正则

L0正则化的值是模型参数中 零参数的个数。

        也就是如果我们使用 L0范数 ,即希望w的 部分元素都是0.  w是稀疏的)所以可以ML中做稀疏编码,特征选择。通过最 化L0范数 ,来寻找最少最优的稀疏特征项。但不幸的是, L0范数的最优化问题是 NP hard问题,  且理论上有证明, L1范数是L0范数的最优凸近似 因此通常使L1范数来代替。

L1正则化表示各个参数绝对值之和。

        L1范数的解通常是稀疏性的 ,倾向于选择数较少的   的值或者数较多的insignificant值。

        L2正则化标识各个参数的平的和的开 值。

        L2范数越小 ,可以使得w的每个元素都很,接近于0 ,但L1范数不同的是他不会让它等于0 是接近于0.

http://www.xdnf.cn/news/1409419.html

相关文章:

  • 进程状态 —— Linux内核(Kernel)
  • 【动态规划】回文串问题
  • Wend看源码-marker(RAG工程-PDF文件解析)
  • R notes[2]
  • 鸿蒙Next文本组件全解析:输入框、富文本与属性字符串开发指南
  • Caffeine TimerWheel时间轮 深度解析:O(1)复杂度增删和触发时间事件
  • 李宏毅NLP-13-Vocoder
  • html添加水印
  • 2025年- H103-Lc211--3090. 每个字符最多出现两次的最长子字符串(双指针)--Java版
  • leetcode 268 丢失的数字
  • AG32 Nano开发板的烧录与调试工具(二)
  • 【开题答辩全过程】以 基于vue+springboot的校园疫情管理系统的设计与实现为例,包含答辩的问题和答案
  • 异步编程与面向对象知识总结
  • 家庭全光组网高温故障深度分析与散热重构全记录
  • 【图论】Graph.jl 核心函数
  • 一种使用 Java / Kotlin 编写检测BT种子的磁力链接是否有可用 peers 的程序
  • 扩展:如何设计与实现一个微服务架构下的跨服务异常处理适配器?
  • linux修改权限命令chmod
  • sunset: twilight靶场
  • 利用ms-swift微调和百炼平台微调大模型
  • FTP - 学习/实践
  • 【学习笔记】LLM Interview(Agent相关)
  • (附源码)基于Vue的教师档案管理系统的设计与实现
  • 安装Android Studio
  • centos 7 安装docker、docker-compose教程
  • SketchUp Pro 2024 Mac 3D建模 草图设计大师
  • Redis八股小记
  • 【了解下TJ、TC、TB、TT、TA、qJA、qJC、qJB、YJB、YJT】
  • Asible——将文件部署到受管主机和管理复杂的Play和Playbook
  • [linux仓库]解剖Linux内核:文件描述符(fd)的‘前世今生’与内核数据结构探秘