Day 24 训练
Day 24 训练
- DAY 24:深入探索元组与 OS 模块
- 一、元组的特性与应用
- 1. 元组的创建
- 2. 元组的常见用法
- 3. 元组在机器学习中的应用
- 二、可迭代对象
- 三、OS 模块的使用
- 1. 获取当前工作目录
- 2. 获取当前目录下的文件列表
- 3. 拼接文件路径
- 4. 环境变量
- 5. 遍历目录树
DAY 24:深入探索元组与 OS 模块
在 Python 编程中,元组和 OS 模块是两个非常重要的概念。元组作为一种不可变的数据结构,广泛应用于各种场景,尤其是在深度学习中。而 OS 模块则为文件和目录操作提供了强大的工具。今天,我们将深入探讨这两个主题,了解它们的特性和使用方法。
一、元组的特性与应用
元组是一种有序且不可变的数据结构,与列表类似,但它不能被修改。这种特性使得元组在需要固定数据结构的场景中非常有用,例如在深度学习中,模型的参数和形状一旦定义,就不应该被随意修改。许多流行的深度学习框架(如 TensorFlow、PyTorch 和 NumPy)都在其 API 中广泛使用元组来表示形状和配置。
1. 元组的创建
元组的创建非常简单,可以通过圆括号 ()
或直接用逗号分隔元素来创建。以下是一些示例:
my_tuple1 = (1, 2, 3)
my_tuple2 = ('a', 'b', 'c')
my_tuple3 = (1, 'hello', 3.14, [4, 5]) # 可以包含不同类型的元素# 省略括号
my_tuple4 = 10, 20, 'thirty' # 逗号是关键
print(my_tuple4) # 输出: (10, 20, 'thirty')
print(type(my_tuple4)) # 输出: <class 'tuple'># 创建空元组
empty_tuple = ()
empty_tuple2 = tuple()
print(empty_tuple) # 输出: ()
print(empty_tuple2) # 输出: ()
2. 元组的常见用法
元组支持索引和切片操作,可以通过索引访问特定元素,也可以通过切片获取子元组。此外,还可以使用 len()
函数获取元组的长度。以下是一些示例:
# 元组的索引
my_tuple = ('P', 'y', 't', 'h', 'o', 'n')
print(my_tuple[0]) # 输出: P
print(my_tuple[2]) # 输出: t
print(my_tuple[-1]) # 输出: n# 元组的切片
my_tuple = (0, 1, 2, 3, 4, 5)
print(my_tuple[1:4]) # 输出: (1, 2, 3)
print(my_tuple[:3]) # 输出: (0, 1, 2)
print(my_tuple[3:]) # 输出: (3, 4, 5)
print(my_tuple[::2]) # 输出: (0, 2, 4)# 元组的长度获取
my_tuple = (1, 2, 3)
print(len(my_tuple)) # 输出: 3
3. 元组在机器学习中的应用
在机器学习中,元组常用于定义数据处理流程。例如,在 sklearn.pipeline.Pipeline
中,每个步骤被定义为一个元组,包含步骤的名称和处理对象。以下是一个简单的例子:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score# 1. 加载数据
iris = load_iris()
X = iris.data
y = iris.target# 2. 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 3. 构建管道
pipeline = Pipeline([('scaler', StandardScaler()), # 标准化数据('logreg', LogisticRegression()) # 逻辑回归分类器
])# 4. 训练模型
pipeline.fit(X_train, y_train)# 5. 预测
y_pred = pipeline.predict(X_test)# 6. 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f"模型在测试集上的准确率: {accuracy:.2f}") # 输出: 模型在测试集上的准确率: 1.00
二、可迭代对象
可迭代对象是 Python 中一个非常核心的概念,它指的是那些能够一次返回其成员的对象,可以在循环中遍历它们。常见的可迭代对象包括列表、元组、字符串、集合、字典和生成器等。以下是一些示例:
# 列表
print("迭代列表:")
my_list = [1, 2, 3, 4, 5]
for item in my_list:print(item)# 元组
print("迭代元组:")
my_tuple = ('a', 'b', 'c')
for item in my_tuple:print(item)# 字符串
print("迭代字符串:")
my_string = "hello"
for char in my_string:print(char)# range
print("迭代 range:")
for number in range(5):print(number)# 集合
print("迭代集合:")
my_set = {3, 1, 4, 1, 5, 9}
for item in my_set:print(item)# 字典
print("迭代字典 (默认迭代键):")
my_dict = {'name': 'Alice', 'age': 30, 'city': 'Singapore'}
for key in my_dict:print(key)print("迭代字典的值:")
for value in my_dict.values():print(value)print("迭代字典的键值对:")
for key, value in my_dict.items():print(f"Key: {key}, Value: {value}")
三、OS 模块的使用
随着深度学习项目的复杂度增加,文件和目录的管理变得尤为重要。Python 的 os
模块提供了丰富的功能,用于操作文件路径、目录和环境变量等。以下是一些常见的用法:
1. 获取当前工作目录
import osprint(os.getcwd()) # 输出当前工作目录的绝对路径
2. 获取当前目录下的文件列表
print(os.listdir()) # 输出当前工作目录下的文件列表
3. 拼接文件路径
path_a = r'C:\Users\YourUsername\Documents'
path_b = 'MyProjectData'
file = 'results.csv'file_path = os.path.join(path_a, path_b, file)
print(file_path) # 输出: C:\Users\YourUsername\Documents\MyProjectData\results.csv
4. 环境变量
os.environ
是一个字典,包含了当前环境的所有变量。可以通过它获取或设置环境变量:
print(os.environ) # 输出所有环境变量# 打印特定环境变量
print(os.environ['PATH'])# 遍历环境变量
for variable_name, value in os.environ.items():print(f"{variable_name}={value}")
5. 遍历目录树
os.walk()
是一个非常强大的函数,用于遍历目录树。它会为每个目录生成一个包含三个元素的元组 (dirpath, dirnames, filenames)
,分别表示当前目录路径、子目录列表和文件列表。以下是一个示例:
start_directory = os.getcwd() # 当前工作目录print(f"--- 开始遍历目录: {start_directory} ---")for dirpath, dirnames, filenames in os.walk(start_directory):print(f" 当前访问目录 (dirpath): {dirpath}")print(f" 子目录列表 (dirnames): {dirnames}")print(f" 文件列表 (filenames): {filenames}")
假设目录结构如下:
my_project/
├── data/
│ ├── processed/
│ └── raw/
│ └── data1.csv
├── src/
│ ├── models/
│ │ └── model_a.py
│ └── utils.py
├── main.py
└── README.md`os.walk()` 的输出将是:--- 开始遍历目录: my_project ---当前访问目录 (dirpath): my_project子目录列表 (dirnames): ['data', 'src']文件列表 (filenames): ['main.py', 'README.md']当前访问目录 (dirpath): my_project/data子目录列表 (dirnames): ['processed', 'raw']文件列表 (filenames): []当前访问目录 (dirpath): my_project/data/processed子目录列表 (dirnames): []文件列表 (filenames): []当前访问目录 (dirpath): my_project/data/raw子目录列表 (dirnames): []文件列表 (filenames): ['data1.csv']当前访问目录 (dirpath)
@浙大疏锦行