当前位置: 首页 > ops >正文

【第一章:人工智能基础】01.Python基础及常用工具包-(3)常用数据科学工具包

第一章 人工智能基础

第一部分:Python基础及常用工具包

第三节:常用数据科学工具包

内容:NumPy、Pandas基础操作与数据处理


一、NumPy:高性能数值计算库

1. NumPy 简介

NumPy(Numerical Python)是 Python 中用于科学计算的核心库,主要提供多维数组对象(ndarray)及对其进行快速操作的工具。

2. 创建数组
import numpy as npa = np.array([1, 2, 3])
b = np.zeros((2, 3))        # 创建全零数组
c = np.ones((2, 2))         # 创建全一数组
d = np.arange(0, 10, 2)     # 创建等差数组 [0 2 4 6 8]
e = np.linspace(0, 1, 5)    # 创建等间距数组 [0. 0.25 0.5 0.75 1.]
3. 常用属性与方法
属性/方法功能
a.shape数组形状
a.dtype数据类型
a.reshape((m, n))改变形状
np.mean(a) / np.sum(a)均值 / 求和
np.dot(a, b)矩阵乘法
a.T转置
a = np.array([[1, 2], [3, 4]])
print(a.shape)     # 输出 (2, 2)
print(a.T)         # 输出转置矩阵
4. 逻辑操作与筛选
a = np.array([1, 2, 3, 4, 5])
print(a[a > 3])  # 输出大于 3 的元素 [4 5]

二、Pandas:强大的数据处理库

1. Pandas 简介

Pandas 是一个用于数据分析的工具,提供了两种核心数据结构:

  • Series:一维带标签的数组

  • DataFrame:二维带标签的表格数据结构(类似 Excel 表)

2. 创建 Series 和 DataFrame
import pandas as pd# 创建 Series
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])# 创建 DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie'],'age': [25, 30, 35]
}
df = pd.DataFrame(data)
3. DataFrame 常用操作
操作示例说明
查看头部df.head()显示前五行
查看数据类型df.dtypes各列类型
选择列df['age']获取单列数据
条件筛选df[df['age'] > 28]年龄大于28的行
描述统计df.describe()平均数、标准差、最大值等
排序df.sort_values('age')按 age 升序排序
print(df.head())
print(df[df['age'] > 28])
4. 缺失值处理与数据清洗
df = pd.DataFrame({'A': [1, 2, None],'B': [4, None, 6]
})print(df.isnull())        # 检测缺失值
print(df.dropna())        # 删除缺失值行
print(df.fillna(0))       # 用0填充缺失值

三、NumPy 与 Pandas 的配合使用

NumPy 和 Pandas 可无缝结合:

import numpy as np
import pandas as pddata = np.random.rand(3, 4)
df = pd.DataFrame(data, columns=['A', 'B', 'C', 'D'])
print(df)

四、小结

  • NumPy 提供了高效的矩阵/向量计算能力,是 AI 编程的底层基础;

  • Pandas 提供了方便的数据读取、清洗、分析接口,是数据科学工作流的关键工具;

  • 熟练掌握这两个工具包,有助于处理大多数人工智能项目中的数据预处理与特征工程任务。

http://www.xdnf.cn/news/13075.html

相关文章:

  • 性能测试分析
  • 深度剖析Diffusion与Transformer在图像生成中的计算逻辑与融合之道
  • 火山引擎云服务器使用感怎么样
  • HarmonyOS运动开发:打造你的专属运动节拍器
  • python打卡day49
  • 大数据学习(135)-Linux系统性指令
  • Windows 环境下,使用 ESP32 JTAG 接口进行固件下载
  • 浅谈互联网主流通信协议
  • 【Web 进阶篇】优雅的接口设计:统一响应、全局异常处理与参数校验
  • 【堆垛策略】设计方法
  • SAP软件年结科目余额结转详解
  • ShuffleNet 改进:与通道注意力机制(CAM)的结合实现
  • 如何用Coze+Fetch快速构建结构化文档
  • deepbayes lecture2:变分推断
  • 【实证分析】上市公司企业风险承担水平数据集(2000-2022年)
  • Houdini POP入门学习06 - 物理属性2
  • 十二、MySQL 8 新特性底层原理
  • 角色塑造江湖秘籍
  • 火绒弹窗拦截6.0.6.1\5.0.77.1绿色独立版_WinAll
  • 【samba】umount:**** target is busy. ubuntu24.04 卸载挂载点
  • 土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测;从基础到高级,涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等
  • 现有的 Redis 分布式锁库(如 Redisson)提供了哪些便利?
  • JS红宝书笔记 10.11-10.16 函数
  • Linux云原生安全:零信任架构与机密计算
  • Jinja2核心API详解
  • 轻量安全的密码管理工具Vaultwarden
  • 学习记录之nestjs---基本认识
  • 【2D与3D SLAM中的扫描匹配算法全面解析】
  • 项目部署到Linux上时遇到的错误(Redis,MySQL,无法正确连接,地址占用问题)
  • Excel表格数据导入数据库