当前位置: 首页 > ds >正文

如何在Idea中编写Spark程序并运行

启动条件

下载好关于所需要的空间,配置好相应的环境,例如Scala,jdk

设置maven依赖项。修改pom.xml文件,添加如下:

    <properties>

        <maven.compiler.source>8</maven.compiler.source>

        <maven.compiler.target>8</maven.compiler.target>

        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

    </properties>

    <!--    声明并引入共有的依赖-->

    <dependencies>

        <!--   scala-library-->

        <dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-library</artifactId>

            <version>2.12.15</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.12</artifactId>

            <version>3.2.2</version>

        </dependency>

    </dependencies>

</project>

编写代码如下

它的功能是wordcount的功能:从指定的文件夹中去读取文件,并做词频统计。

import org.apache.spark.{SparkConf, SparkContext}

object WordCount{

  def main(args: Array[String]): Unit = {

    // 配置 Spark 应用程序

    val conf = new SparkConf().setAppName("WordCount").setMaster("local[*]")

    // 创建 SparkContext 对象

    val sc = new SparkContext(conf)

    // 读取目录下的所有文本文件

    val textFiles = sc.wholeTextFiles("input")

    // 提取文本内容并执行 WordCount 操作

    val counts = textFiles.flatMap { case (_, content) => content.split("\\s+") }.map(word => (word, 1)).reduceByKey(_ + _)

    // 将所有分区的数据合并成一个分区

    val singlePartitionCounts = counts.coalesce(1)

    // 保存结果到文件

    singlePartitionCounts.saveAsTextFile("output")

    // 停止 SparkContext

    sc.stop()

  }

}

最后准备待统计的词频文件。在项目根目录下建立文件夹input,并创建两个文本文件:word1.txt, word2.txt并运行就可以了

http://www.xdnf.cn/news/4534.html

相关文章:

  • 【Bug经验分享】SourceTree用户设置必须被修复/SSH 主机密钥未缓存(踩坑)
  • Windows_PyCharm Python语言开发环境构建
  • 常见dp问题的状态表示
  • MCPHub:一站式MCP服务器聚合平台
  • CI/CD与DevOps流程流程简述(给小白运维提供思路)
  • Spring AI(1)—— 基本使用
  • QT中connect高级链接——指针、lambda、宏
  • 基于Qt的app开发第六天
  • 如何理解k8s中的controller
  • 缓存菜品-01.问题分析和实现思路
  • Carlink 技术:搭建汽车与手机的智能桥梁
  • GPAW安装流程——Ubuntu 系统(Python 3.8.10)
  • AI视觉质检的落地困境与突破路径
  • 工业现场ModbusTCP转EtherNETIP网关引领生物现场领新浪潮
  • gcloud 查看gke集群节点组是否开启了自动伸缩?
  • CAN报文逆向工程
  • node.js 实战——餐厅静态主页编写(express+node+ejs+bootstrap)
  • LangChain4j简介
  • Android开发-文本显示
  • 【2019 CWE/SANS 25 大编程错误清单】12越界写入
  • dubbo-token验证
  • 路由器WAN口和LAN口
  • 大数据技术全景解析:Spark、Hadoop、Hive与SQL的协作与实战
  • UE5 Audio2Face导出USD表情与ARKIT表情重定向
  • 嵌入式MCU语音识别算法及实现方案
  • 雨云游戏云MCSM面板服使用教程我的世界Forge服务端开服教程
  • 树上背包学习笔记
  • 小游戏(2)扫雷游戏
  • enum4linux:渗透测试中的Windows信息收割机!全参数详细教程!Kali Linux教程!
  • 探索开源大模型体系:当今AI的引领者