当前位置: 首页 > backend >正文

携程-酒旅-数据研发面经【附答案】

来源:2025年4月面试辅导同学全程分享【已拿23Koffer】

推荐阅读文章列表

2025最新大数据开发面试笔记V6.0——试读

我的大数据学习之路

面试聊数仓第一季

1.八股文

1)MapReduce如何实现两表的JOIN

参考面试笔记V6.0 Hive篇第7题,部分答案如下:

  • JOIN分为common join和map join,common join就是join发生在reduce端,map join就是join发生在map端

2)Hive的存储格式有哪些

参考面试笔记V6.0 Hive篇第14题

3)HQL解析的原理是什么

参考面试笔记V6.0 Hive篇第1题

4)Hive导入数据有几种方式

参考面试笔记V6.0 Hive篇第16题(补充),答案如下:

  • 本地文件导入到Hive表:load data local inpath xxx overwrite into table xxx
  • HDFS文件导入到Hive表:load data inpath xxx overwrite into table xxx
  • 一张Hive表导入到另一张Hive表:insert overwrite table xxx2 select * from xxx1
  • 创建Hive表时从另外一张Hive表导入:create table xxx2 as select * from xxx1

5)Spark SQL的Join有几种方式

参考面试笔记V6.0 Spark篇第20题

6)Spark代码发生数据倾斜,你是如何定位到哪段代码问题的

参考面试笔记V6.0 调优技巧篇,部分答案如下:

7)Spark任务慢,如何通过调整参数来提升时效

参考面试笔记V6.0 Spark篇第4题和第27题

8)ER模型和维度建模的优缺点

参考面试笔记V6.0 数仓理论篇第5题,部分答案如下:

  • ER模型冗余更少,但在大规模数据跨表分析中,会造成多表关联,大大地降低计算效率

2.项目

1)项目中的难点是什么?
2)数仓中的数据是如何流转的?
3)项目中的数据血缘是如何管理的?【Atlas开源工具 或者 ParseDriver解析工具】
后续分享我是如何通过ParseDriver来构建数据血缘的

3.刷题

SQL题:给定一个打卡表(部门id,用户id,打卡时间),求每个部门打卡频次前10的员工

select dept_id, uid
from (select dept_id,uid,row_number() over(partition by dept_id order by cnt desc) rkfrom (selectdept_id,uid,count(distinct dt) as cntfrom t1group by dept_id, uid) t
) t
where rk <= 10
http://www.xdnf.cn/news/1269.html

相关文章:

  • 【Spring】单例作用域下多次访问同一个接口
  • Discuz!+DeepSeek:传统论坛的智能化蜕变之路
  • 【C++】新手入门指南(下)
  • 《Linux TCP通信深度解析:实现高可靠工业数据传输客户端》
  • 使用Python设置excel单元格的字体(font值)
  • 笔记本电脑研发笔记:BIOS,Driver,Preloader详记
  • Win10一体机(MES电脑设置上电自动开机)
  • 《Android系统应用部署暗礁:OAT文件缺失引发的连锁崩溃与防御体系构建》
  • Mediatek Android13 设置Launcher
  • 基于ssm的疫情防控志愿者管理系统(源码+文档)
  • SpringBoot_为何需要SpringBoot?
  • AlmaLinux 9.5 调整home和根分区大小
  • 机器学习基础 - 分类模型之决策树
  • 深度学习--卷积神经网络数据增强
  • TP(张量并行)和EP(专家并行)的区别
  • C++学习之游戏服务器开发十二nginx和http
  • 从信息泄露到内网控制
  • STM32外部中断与外设中断区别
  • 数据结构——队列
  • 华为交换机命令笔记
  • 【springsecurity oauth2授权中心】将硬编码的参数提出来放到 application.yml 里 P3
  • C++23 中 static_assert 和 if constexpr 的窄化布尔转换
  • Agent智能体ReAct机制深度解读:推理与行动的完美闭环
  • 实战华为1:1方式1 to 2 VLAN映射
  • hbuilderx云打包生成的ipa文件如何上架
  • 发送百度地图的定位
  • 7.6 GitHub Sentinel后端API实战:FastAPI高效集成与性能优化全解析
  • OpenCV中的透视变换方法详解
  • 【AI模型学习】Swin Transformer——优雅的模型
  • 【含文档+PPT+源码】基于微信小程序的健康饮食食谱推荐平台的设计与实现