当前位置: 首页 > ops >正文

Spark MLlib网页长青

一、实验目的

1.掌握Spark SQL中用户自定义函数的编写。

2. 掌握特征工程的OneHotEncoder、VectorAssembler。

3. 熟悉决策树算法原理,能够使用Spark MLlib库编写程序

4. 掌握二分类问题评估方法

5. 能够使用TrainValidation和crossValidation交叉验证找出最佳模型。

6. 掌握随机森林的算法原理。

7. 掌握使用Spark MLlib解决实际问题。

二、实验要求

Stumble Upon是一个个性化的搜索引擎,会按用户的兴趣和网页评分等记录推荐用户感兴趣的网页,有些网页是暂时性的,比如新闻,这些文章可能只是在某一段时间会对读者有意义,而有些则是长青的,读者会对这些文章有长久兴趣。

本次实训目标就是使用决策树二元分类分析StumbleUpon数据集,预测网页是暂时性的(ephemeral)或是长青的(evergreen),并调校参数找出最佳参数组合,提高预测准确度。数据集共有7395行,27列。

url

string

Url of the webpage to be classified

urlid

integer

StumbleUpon's unique identifier for each url

boilerplate

json

Boilerplate text

alchemy_category

string

Alchemy category (per the publicly available Alchemy API found at www.alchemyapi.com)

alchemy_category_score

double

Alchemy category score (per the publicly available Alchemy API found at www.alchemyapi.com)

avglinksize

double

Average number of words in each link

commonLinkRatio_1

double

# of links sharing at least 1 word with 1 other links / # of links

commonLinkRatio_2

double

# of links sharing at least 1 word with 2 other links / # of links

commonLinkRatio_3

double

# of links sharing at least 1 word with 3 other links / # of links

commonLinkRatio_4

double

http://www.xdnf.cn/news/5118.html

相关文章:

  • Python-函数
  • Git Github Tutorial
  • STL-list
  • 【生存技能】ubuntu 24.04 如何pip install
  • OSCP - Proving Grounds - EvilBox-One
  • 软考中级数据库备考-上午篇
  • 使用FastAPI和React以及MongoDB构建全栈Web应用01 概述
  • 养生:开启健康生活的密钥
  • 使用定时器监视当前PID 如果当前程序关闭 UI_Core.exe 也随之自动关闭实现方法
  • 用纯HTML和CSS仿写知乎登录页面
  • Python中的事件循环是什么?事件是怎么个事件?循环是怎么个循环
  • ABB电机控制和保护单元与Profibus DP主站转Modbus TCP网关快速通讯案例
  • 【Pandas】pandas DataFrame corr
  • 计算机网络 4-2-2 网络层(IPv4)
  • 【Langchain】根据LCEL规范实现Runable interface
  • Vite Proxy配置详解:从入门到实战应用
  • 互联网大厂Java求职面试:AI集成场景下的技术挑战与架构设计
  • C++ 关联式容器:map,multimap,set,multiset
  • https,http1,http2,http3的一些知识
  • Spring Cloud: Nacos
  • 扫雷革命:矩阵拓扑与安全扩散的数学之美
  • SpringCloud之Gateway基础认识-服务网关
  • 【C语言练习】032. 编写带参数的函数
  • 【小记】excel vlookup一对多匹配
  • Android 13 使能user版本进recovery
  • 激活函数(sigmoid、Tanh、ReLu、softmax、softmin、LogSoftma)公式,作用,使用场景和python代码(包含示例)详解
  • 游戏引擎学习第268天:合并调试链表与分组
  • STM32中断
  • 数据集-目标检测系列- 烟雾 检测数据集 smoke >> DataBall
  • 逐步理解Qt信号与槽机制