当前位置：首页 > ds >正文

如何在Idea中编写Spark程序并运行

ds 2025/7/3 14:19:04

启动条件

下载好关于所需要的空间，配置好相应的环境，例如Scala，jdk

设置maven依赖项。修改pom.xml文件，添加如下：

<maven.compiler.source>8</maven.compiler.source>

<maven.compiler.target>8</maven.compiler.target>

<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

</properties>

<groupId>org.scala-lang</groupId>

<artifactId>scala-library</artifactId>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-core_2.12</artifactId>

</dependency>

</dependencies>

</project>

编写代码如下

它的功能是wordcount的功能：从指定的文件夹中去读取文件，并做词频统计。

import org.apache.spark.{SparkConf, SparkContext}

object WordCount{

def main(args: Array[String]): Unit = {

// 配置 Spark 应用程序

val conf = new SparkConf().setAppName("WordCount").setMaster("local[*]")

// 创建 SparkContext 对象

val sc = new SparkContext(conf)

// 读取目录下的所有文本文件

val textFiles = sc.wholeTextFiles("input")

// 提取文本内容并执行 WordCount 操作

val counts = textFiles.flatMap { case (_, content) => content.split("\\s+") }.map(word => (word, 1)).reduceByKey(_ + _)

// 将所有分区的数据合并成一个分区

val singlePartitionCounts = counts.coalesce(1)

// 保存结果到文件

singlePartitionCounts.saveAsTextFile("output")

// 停止 SparkContext

sc.stop()

}

最后准备待统计的词频文件。在项目根目录下建立文件夹input，并创建两个文本文件：word1.txt, word2.txt并运行就可以了

查看全文

http://www.xdnf.cn/news/4534.html

【Bug经验分享】SourceTree用户设置必须被修复/SSH 主机密钥未缓存（踩坑）

Windows_PyCharm Python语言开发环境构建

常见dp问题的状态表示

MCPHub：一站式MCP服务器聚合平台

CI/CD与DevOps流程流程简述（给小白运维提供思路）

Spring AI（1）—— 基本使用

QT中connect高级链接——指针、lambda、宏

基于Qt的app开发第六天

如何理解k8s中的controller

缓存菜品-01.问题分析和实现思路

Carlink 技术：搭建汽车与手机的智能桥梁

GPAW安装流程——Ubuntu 系统（Python 3.8.10）

AI视觉质检的落地困境与突破路径

工业现场ModbusTCP转EtherNETIP网关引领生物现场领新浪潮

gcloud 查看gke集群节点组是否开启了自动伸缩？

CAN报文逆向工程

node.js 实战——餐厅静态主页编写（express+node+ejs+bootstrap）

LangChain4j简介

Android开发-文本显示

【2019 CWE/SANS 25 大编程错误清单】12越界写入

dubbo-token验证

路由器WAN口和LAN口

大数据技术全景解析：Spark、Hadoop、Hive与SQL的协作与实战

UE5 Audio2Face导出USD表情与ARKIT表情重定向

嵌入式MCU语音识别算法及实现方案

雨云游戏云MCSM面板服使用教程我的世界Forge服务端开服教程

树上背包学习笔记

小游戏（2）扫雷游戏

enum4linux：渗透测试中的Windows信息收割机！全参数详细教程！Kali Linux教程！

探索开源大模型体系：当今AI的引领者

相关文章：