当前位置: 首页 > web >正文

解决Spark4.0.0依赖问题

Apache Spark 4.0.0 冲突解决指南

1. 问题背景

在尝试运行一个基于 Apache Spark 4.0.0 的 Java 应用程序。根据 Spark 4.0.0 的发布说明,该版本默认支持 Scala 2.13 和 JDK 17。在初始设置和运行过程中,遇到了以下主要问题:

  • 依赖冲突 (POM 问题):Maven 项目的 pom.xml 配置不当,导致依赖解析失败。
  • Java 版本不兼容:尽管 pom.xml 中指定了 JDK 17,但系统默认的 Java 版本 (JDK 21/23) 导致运行时错误,包括 java.lang.UnsupportedOperationException: getSubject is supported only if a security manager is allowed
  • Servlet API 兼容性问题:运行应用程序时出现 java.lang.NoClassDefFoundError: jakarta/servlet/SingleThreadModel 错误。这是由于 Spark 4.0.0 内部使用了在较新 Servlet API 版本中已弃用或移除的类。

2. 解决方案

为解决上述问题,我们采取了一系列配置和调整措施。

2.1 pom.xml 配置调整

针对依赖和 Java 版本兼容性问题,对 pom.xml 进行了以下关键修改:

  • 指定 Java 版本: 确保 Maven 项目使用 JDK 17 进行编译和运行。

    <!-- ... existing code ... -->
    <properties><java.version>17</java.version><maven.compiler.source>${java.version}</maven.compiler.source><maven.compiler.target>${java.version}</maven.compiler.target><spark.version>4.0.0</spark.version><scala.compat.version>2.13</scala.compat.version>
    </properties>
    <!-- ... existing code ... -->
    
  • 添加 Spark Core 和 Spark SQL 依赖: 确保 Spark 核心库和 SQL 模块正确引入,并设置为 provided 范围,避免与应用程序的其他依赖冲突。

    <!-- ... existing code ... -->
    <dependencies><!-- ... existing dependencies ... --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_${scala.compat.version}</artifactId><version>${spark.version}</version><scope>provided</scope><exclusions><exclusion><groupId>jakarta.servlet</groupId><artifactId>jakarta.servlet-api</artifactId></exclusion><exclusion><groupId>org.eclipse.jetty</groupId><artifactId>*</artifactId></exclusion></exclusions></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_${scala.compat.version}</artifactId><version>${spark.version}</version><scope>provided</scope></dependency><!-- ... existing dependencies ... -->
    </dependencies>
    <!-- ... existing code ... -->
    
  • 解决 Servlet API 兼容性问题: 为了解决 jakarta.servlet.SingleThreadModel 错误(Spark 4.0.0 内部仍在使用),我们显式排除了 spark-core 中的 jakarta.servlet-apiorg.eclipse.jetty 依赖,并手动引入了包含该类的较旧版本的 Servlet API (5.0.0)。

    <!-- ... existing code ... -->
    <dependency><groupId>jakarta.servlet</groupId><artifactId>jakarta.servlet-api</artifactId><version>5.0.0</version><scope>compile</scope> <!-- Or runtime, depending on specific need -->
    </dependency>
    <!-- ... existing code ... -->
    

    注意: 这个问题在 Apache Spark Jira (SPARK-51434) 中有记录,并计划在 Spark 4.1.0 中修复。手动引入旧版本 Servlet API 是一个临时性的解决方案。

  • 添加测试依赖: 解决 SparkDemoApplicationTests.java 中的编译错误,引入 Spring Boot 测试依赖。

    <!-- ... existing code ... -->
    <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><version>3.5.0</version> <!-- Use an appropriate version --><scope>test</scope>
    </dependency>
    <!-- ... existing code ... -->
    
  • Maven Compiler Plugin 配置: 显式配置 Maven 编译器插件使用 JDK 17。

    <!-- ... existing code ... -->
    <build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-compiler-plugin</artifactId><version>3.11.0</version> <!-- Use an appropriate version --><configuration><source>${java.version}</source><target>${java.version}</target></configuration></plugin><!-- ... existing plugins ... --></plugins>
    </build>
    <!-- ... existing code ... -->
    
  • Maven Exec Plugin 配置: 配置 exec-maven-plugin 以便直接运行主类,并添加 --add-opens 参数以解决 Java 模块化系统相关的运行时访问限制。

    <!-- ... existing code ... -->
    <plugin><groupId>org.codehaus.mojo</groupId><artifactId>exec-maven-plugin</artifactId><version>3.1.0</version> <!-- Use an appropriate version --><configuration><mainClass>Spark_RDD.RDDCreateExample</mainClass><executable>java</executable><arguments><argument>--add-opens</argument><argument>java.base/java.nio=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.nio.channels=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.lang=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.util=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.util.concurrent=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.util.concurrent.atomic=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/jdk.internal.misc=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/sun.nio.ch=ALL-UNNAMED</argument><!-- Optional: For security manager if needed --><!-- <argument>-Djava.security.manager=allow</argument> --></arguments></configuration>
    </plugin>
    <!-- ... existing code ... -->
    
2.2 Java 环境配置

确保系统环境中的 Java 版本与项目要求一致是至关重要的。

  • 设置 JAVA_HOME 环境变量:
    通过在 shell 配置文件(如 ~/.zshrc~/.bashrc)中设置 JAVA_HOME 变量,并将其指向 JDK 17 的安装路径,可以确保 Maven 和其他工具使用正确的 Java 版本。

    export JAVA_HOME="/Library/Java/JavaVirtualMachines/openjdk-17.jdk/Contents/Home"
    export PATH="$JAVA_HOME/bin:$PATH"
    

    修改后,请务必执行 source ~/.zshrc (或 ~/.bashrc) 使更改生效。

  • 验证 Java 和 Maven 版本:
    在终端中运行以下命令,验证 Java 版本和 Maven 使用的 Java 版本是否正确:

    java -version
    mvn --version
    

    确保 java -version 显示的是 17.x.x,并且 mvn --version 输出中 “Java version” 字段也指向 JDK 17。

2.3 Spark UI 禁用 (可选但推荐)

为了规避潜在的 Jetty 或 Servlet API 相关的运行时问题,可以通过 Spark 配置禁用 Spark UI,尤其是在只需要执行批处理任务时。在 RDDCreateExample.java 中添加以下配置:

// ... existing code ...
SparkConf conf = new SparkConf().setAppName("RDD Create").setMaster("local[*]").set("spark.ui.enabled", "false"); // Disable Spark UI
JavaSparkContext sc = new JavaSparkContext(conf);
// ... existing code ...
2.4 Maven Toolchains 尝试与经验

在解决 Java 版本问题时,我们曾尝试使用 Maven Toolchains 来管理不同 JDK 版本。尽管配置了 ~/.m2/toolchains.xml,但遇到了 Cannot find matching toolchain definitionsToolchain JDK[...] is missing required property: vendor 等错误。

经验总结:虽然 Maven Toolchains 是一个强大的工具,但在某些复杂的 Java 环境(特别是 macOS 上 OpenJDK 的安装路径和供应商识别)中,配置可能会比较棘手。在这种情况下,直接通过设置 JAVA_HOME 环境变量来管理 Java 版本,通常是更直接和有效的解决方案,特别是对于单一项目或开发环境。清理 Maven 本地仓库 (rm -rf ~/.m2/repository/*) 有助于清除旧的或损坏的依赖,但在 Toolchains 配置问题中,它并未直接解决根本问题。

3. 最终结果

经过上述一系列的配置和调整,应用程序最终成功运行。日志中显示 Spark 应用程序使用了 Java version 17.0.15,并且应用程序逻辑正确执行,输出了预期的结果。

成功运行的关键点:

  • pom.xml 中严格指定了 JDK 17。
  • 解决了 Spark 4.0.0 与 jakarta.servlet.SingleThreadModel 之间的兼容性问题,通过手动排除和引入特定版本的 Servlet API。
  • 通过设置 JAVA_HOME 确保了整个构建和运行环境都使用了正确的 Java 版本。

http://www.xdnf.cn/news/14189.html

相关文章:

  • http的缓存问题
  • pytorch 实战二 CNN手写数字识别
  • Spring MVC 中日期格式转换的两种实用方法
  • Hive 性能优化:从表设计到查询执行的全链路优化
  • rust的main.rs和lib.rs该怎么写
  • 【项目实训#07】HarmonyOS API知识图谱构建与系统知识图谱后端实现
  • 【Qt】QStateMachine状态机-对状态机分组、历史状态,实现复杂状态机
  • 玩转Docker | 使用Docker部署Blinko个人笔记工具
  • 如何在FastAPI中构建一个既安全又灵活的多层级权限系统?
  • 刚学到一个使用共享软件而禁用弹窗的工具:微软电脑管家
  • 如何给Hexo-butterfly主题博客在复制时添加版权声明
  • 【图片转 3D 模型】北大·字节跳动·CMU携手——单图15 秒生成结构化3D模型!
  • 创客匠人视角:从外卖大战看创始人IP的差异化定位逻辑
  • veyon(电子教室管理) v4.9.6.1 官方版
  • n8n 从 Docker 到 Node.js 本地环境迁移指南
  • Linux Docker的环境配置与简单使用
  • 《高并发系统性能优化三板斧:缓存 + 异步 + 限流》
  • Spring Boot 自动配置原理深度解析与自定义 Starter 实战
  • 【Unity】MiniGame编辑器小游戏(一)俄罗斯方块【Tetris】
  • [学习] 牛顿迭代法:从数学原理到实战
  • Nginx、CDN、 DNS的关系解析
  • ​​信息系统项目管理师-信息系统工程 知识点总结与例题分析​​
  • 单项链表的操作及其实现
  • 重定向与缓冲区:C语言IO的奥秘(模拟封装glibc)
  • 工业PID算法在温控器的应用与参数说明
  • 《单调队列》题集
  • list is not in GROUPBY clause and contains nonaggregated column ‘*.*‘
  • Windows10电脑开始菜单快速查找应用程序
  • I/O模式之epoll,本文会讲到epoll的相关接口以及底层,还会涉及水平和边缘工作模式,以及通过epoll相关接口实现一个水平工作模式服务端
  • 【DRL】强化学习中的概念和术语