04动手学深度学习(下)
数据预处理
创建一个人工数据集,并存储在csv(逗号分隔)文件
import osos.makedirs(os.path.join('..','data'),exist_ok=True)
data_file=os.path.join('..','data','house_tiny.csv')
with open(data_file,'w') as f:f.write('NumRooms,Alley,Price\n') #列名f.write('NA,Pave,127500\n') #每行表示一个数据样本f.write('2,NA,106000\n')f.write('4,NA,178100\n')f.write('NA,NA,140000\n')
import pandas as pddata=pd.read_csv(data_file)
print(data)
NumRooms Alley Price
0 NaN Pave 127500
1 2.0 NaN 106000
2 4.0 NaN 178100
3 NaN NaN 140000
为处理缺失值,典型方法包含插值和删除,这里采用插值的方法
inputs,outputs=data.iloc[:,0:2],data.iloc[:,2] #其中使用iloc即index location进行元素定位
inputs=inputs.fillna(inputs.mean(numeric_only=True)) #将缺失值填充为原先值的均值
print(inputs)
NumRooms Alley
0 3.0 Pave
1 2.0 NaN
2 4.0 NaN
3 3.0 NaN
inputs=pd.get_dummies(inputs,dummy_na=True).astype(int)
print(inputs)
NumRooms Alley_Pave Alley_nan
0 3 1 0
1 2 0 1
2 4 0 1
3 3 0 1
import torchX,y=torch.tensor(inputs.values),torch.tensor(outputs.values)
X,y
(tensor([[3, 1, 0],[2, 0, 1],[4, 0, 1],[3, 0, 1]]),tensor([127500, 106000, 178100, 140000]))
转换为NumPy张量
a=torch.tensor([3.5])
a,a.item(),float(a),int(a)
(tensor([3.5000]), 3.5, 3.5, 3)