inlier_outlier
inlier & outlier
在数据分析和机器学习中,inlier(内点)和 outlier(离群点)是用来描述数据分布中是否“符合主流规律”的术语,以下是详细解释:
✅ 一、Inlier(内点)
- 定义:指那些符合数据整体趋势或模式的数据点。
- 特点:
与大部分数据处于相似范围或结构中。
在模型训练中通常被当作“正常数据”。
例如:在直线拟合中,靠近这条直线的数据点就是 inliers。
❌ 二、Outlier(离群点)
- 定义:指那些明显偏离其他数据点的点,通常被认为是异常值或“噪声”。
- 特点:
与主流数据差异显著(如数值过大/过小、方向异常等)。
可能是数据错误、异常行为、设备故障、也可能是潜在的重要信号。
在模型拟合中常常会被忽略或单独处理(例如异常检测、鲁棒回归)。
在图像识别、金融欺诈检测、网络安全中尤为重要。
📌 举例说明
假设我们拟合一个二维平面上的直线模型:
- 数据点大多聚集在直线附近 ⇒ 这些是 inliers。
- 某个点远离直线,偏差很大 ⇒ 是 outlier。
💡 延伸:如何识别 Outliers?
常用方法包括:
- 统计方法:
- z-score(标准差距离)
- IQR(四分位间距)
- 机器学习方法:
- Isolation Forest
- One-Class SVM
- DBSCAN(密度聚类算法)
- 鲁棒拟合模型:
- RANSAC(随机采样一致性算法):通过只使用 inliers 来拟合模型,同时识别并排除 outliers。