当前位置: 首页 > news >正文

机器学习第二篇 多变量线性回归

数据集:世界幸福指数数据集中的变量有幸福指数排名、国家/地区、幸福指数得分、人均国内生产总值、健康预期寿命、自由权、社会支持、慷慨程度、清廉指数。我们选择GDP per Capita和Freedom,来预测幸福指数得分。

文件一:linear,在上一篇博客里。

文件二:multivariate_linear_regression.py

import numpy as np
"""用于科学计算的一个库,提供了多维数组对象以及操作函数"""
import pandas as pd
"""一个用于数据导入、导出、清洗和分析的库,本文中导入csv格式数据等等"""
import matplotlib.pyplot as plt
"""pyplot提供了绘图接口"""
import matplotlib
"""一个强大的绘图库"""
import plotly
"""网页交互数据可视化工具,可以直接从https://plotly.com/python/官网copy代码进行修改"""
import plotly.graph_objs as goplotly.offline.init_notebook_mode()
# 设置matplotlib正常显示中文和负号
matplotlib.rcParams['font.family'] = 'SimHei'  # 指定默认字体为黑体
matplotlib.rcParams['axes.unicode_minus'] = False  # 正确显示负号from prepare_for_training import LinearRegressiondata = pd.read_csv("D:/machine_learning/archive/2017.csv")
train_data = data.sample(frac = 0.8)
"""从数据集中随机抽取80%的数据进行训练"""
test_data = data.drop(train_data.index)
"""从数据集中移除训练集得到测试机"""input_param_name_1 = 'Economy..GDP.per.Capita.'
input_param_name_2 = 'Freedom'
output_param_name = 'Happiness.Score'x_train = train_data[[input_param_name_1,input_param_name_2]].values
y_train = train_data[[output_param_name]].valuesx_test = test_data[[input_param_name_1,input_param_name_2]].values
y_test = test_data[[output_param_name]].valuesplot_training_trace = go.Scatter3d(x = x_train[:,0].flatten(),y = x_train[:,1].flatten(),z = y_train.flatten(),name = 'Training Set',mode = 'markers',marker = {'size':10,'opacity':1,'line':{'color':'rgb(255,255,255)','width':1},}
)plot_test_trace = go.Scatter3d(x = x_test[:,0].flatten(),y = x_test[:,1].flatten(),z = y_test.flatten(),name = 'Test Set',mode = 'markers',marker = {'size':10,'opacity':1,'line':{'color':'rgb(255,255,255)','width':1},}
)plot_layout = go.Layout(title = 'Data Sets',scene = {'xaxis':{'title':input_param_name_1},'yaxis':{'title':input_param_name_2},'zaxis':{'title':output_param_name}},margin = {'l':0,'r':0,'b':0,'t':0}
)
plot_data = [plot_training_trace,plot_test_trace]
plot_figure = go.Figure(data = plot_data,layout=plot_layout)
plotly.offline.plot(plot_figure)
"""plt.scatter(x_train,y_train,label ='Train data')
plt.scatter(x_test,y_test,label ='Test data')
plt.xlabel(input_param_name_1)
plt.ylabel(output_param_name)
plt.title('Happy')
plt.legend()
plt.show()""""""训练次数,学习率"""
num_iterations = 500
learning_rate = 0.01
polynomial_degree = 0
sinusoid_degree = 0linear_regression = LinearRegression(x_train,y_train,polynomial_degree,sinusoid_degree)
(theta,cost_history) = linear_regression.train(learning_rate,num_iterations)
print('开始时的损失',cost_history[0])
print('训练后的损失',cost_history[-1])plt.plot(range(num_iterations),cost_history)
plt.xlabel('Iter')
plt.ylabel('cost')
plt.title('gradient descent progress')
plt.show()predictions_num = 10x_min = x_train[:,0].min()
x_max = x_train[:,0].max()y_min = x_train[:,1].min()
y_max = x_train[:,1].max()x_axis = np.linspace(x_min,x_max,predictions_num)
y_axis = np.linspace(y_min,y_max,predictions_num)x_predictions = np.zeros((predictions_num * predictions_num,1))
y_predictions = np.zeros((predictions_num * predictions_num,1))x_y_index = 0
for x_index,x_value in enumerate(x_axis):for y_index,y_value in enumerate(y_axis):x_predictions[x_y_index] = x_valuey_predictions[x_y_index] = y_valuex_y_index += 1z_predictions = linear_regression.predict(np.hstack((x_predictions,y_predictions)))plot_predictions_trace = go.Scatter3d(x = x_predictions.flatten(),y = y_predictions.flatten(),z = z_predictions.flatten(),name = 'Prediction Plane',mode = 'markers',marker = {'size':1,},opacity=0.8,surfaceaxis=2,
)plot_data = [plot_training_trace,plot_test_trace,plot_predictions_trace]
plot_figure = go.Figure(data = plot_data,layout=plot_layout)
plotly.offline.plot(plot_figure)效果:

损失值较单变量而言,由降低约0.1.

http://www.xdnf.cn/news/85087.html

相关文章:

  • CF912E
  • PR网表出现assign该如何解决
  • 三网通电玩城平台系统结构与源码工程详解(一):系统概述与前端搭建
  • 第四届商师校赛 web 1
  • 【Git】Git的远程分支已删除,为何本地还能显示?
  • VSCode 用于JAVA开发的环境配置,JDK为1.8版本时的配置
  • 交易所开发:构建高效数字交易枢纽
  • Spring 事务实现原理,Spring 的 ACID是如何实现的?如果让你用 JDBC 实现事务怎么实现?
  • React.cloneElement的用法详解
  • go 编译的 windows 进程(exe)以管理员权限启动(UAC)
  • Spark-Streaming简介及核心编程
  • 详解Windows(六)——文件系统
  • 电脑安装adb并且连接华为手机mate60pro后查看设备
  • 服务器操作系统时间同步失败的原因及修复
  • Windows:异常安全的内核对象
  • 如何使用压缩文件便捷地管理远程工作文件?
  • 子网划分的学习
  • 深入探索RAG:用LlamaIndex为大语言模型扩展知识,实现智能检索增强生成
  • Linux:线程基础(虚拟地址,分页)
  • 实现鼠标拖拽图片效果
  • 驱动开发硬核特训 · Day 17:深入掌握中断机制与驱动开发中的应用实战
  • 或者某些 M 理论、Loop Quantum Gravity 的空背景设想
  • 【Java面试笔记:基础】8.对比Vector、ArrayList、LinkedList有何区别?
  • L2-1、打造稳定可控的 AI 输出 —— Prompt 模板与格式控制
  • 局域网内,将linux(Ubuntu)的硬盘映射成Windows上,像本地磁盘一样使用
  • Lua 第8部分 补充知识
  • ProxySQL 读写分离规则配置指南
  • exception:com.alibaba.nacos.api.exception.NacosException: user not found! 解决方法
  • 解决Python与Java交互乱码问题:从编码角度优化数据流
  • 云原生 - Service Mesh