当前位置: 首页 > news >正文

基于阿里云DataWorks的物流履约时效离线分析

基于阿里云DataWorks的物流履约时效离线分析2.

  • 数仓模型构建

      ORC和Parquet区别:

      压缩率与查询性能    压缩率

          ORC通常压缩率更高,文件体积更小,适合存储成本敏感的场景。

          Parquet因支持更灵活的嵌套结构,压缩率略低,但压缩算法选择更多(如Snappy、Gzip)

        查询性能

          ORC在Hive中表现更优,尤其全表扫描和聚合查询,因索引和统计信息更完善

          Parquet在Spark、Presto等框架中性能更佳,且对嵌套数据查询效率更高。

      功能与兼容性    高级功能

          ORC支持ACID事务、行级更新和删除,适合需要事务保障的场景(如Hive 3.0+)

          Parquet不支持事务,但支持动态分区写入和模式演化(Schema Evolution)

        生态兼容性

          Parquet兼容性更广,支持Hadoop、Spark、Presto、Impala等主流引擎

          ORC主要在Hive和Impala中优化较好,其他框架(如低版本Spark)支持有限。

    • 业务需求拆解:根据维度建模理论,拆解业务需求,我主要负责的是履约时效和客户运营这两个场景的开发

    • 设计分层存储策略:ODS层是从业务数据库读取的原始数据,不做处理,dwd层通过多个ods关联和清洗,形成可复用的明细层,dws层按照天维度聚合指标,如物流履约时长,客户进线次数,adm层面向特定主题开发

  • ETL链路开发

    • 构建TB级数据Pipeline

    • 设计任务容错机制:根据任务的优先级和重要程度,设置不同的容错机制,以保障数据产出的及时性,准确性

  • 高性能存储与计算优化

    • 实施存储治理

      • 小文件合并:hive为每个小文件开启一个map任务,如果存在大量小文件,会占用大量的map初始化时间

        • https://blog.csdn.net/m0_49190756/article/details/145814037?spm=1001.2014.3001.5501

    • 任务计算优化

      • https://blog.csdn.net/m0_49190756/article/details/125042668?spm=1001.2014.3001.5501

http://www.xdnf.cn/news/353737.html

相关文章:

  • STM32定时器5触发定时器4启动
  • 【软件测试】软件缺陷(Bug)的详细描述
  • 使用 NV‑Ingest、Unstructured 和 Elasticsearch 处理非结构化数据
  • 利用GPT实现油猴脚本—网页滚动(优化版)
  • 豆包:基于多模态交互的智能心理咨询机器人系统设计与效果评估——情感计算框架下的对话机制创新
  • Spark,在shell中运行RDD程序
  • 【SQL系列】多表关联更新
  • 手持气象仪:能够实时测量多种气象参数,保数据采集的准确性与实时性
  • 掌握Multi-Agent实践(三):ReAct Agent集成Bing和Google搜索功能,采用推理与执行交替策略,增强处理复杂任务能力
  • Spring Boot 框架概述
  • 【计算机视觉】Car-Plate-Detection-OpenCV-TesseractOCR:车牌检测与识别
  • 【css】css统一设置变量
  • 更新 / 安装 Nvidia Driver 驱动 - Ubuntu - 2
  • 数据类型详解(布尔值、整型、浮点型、字符串等)-《Go语言实战指南》
  • istio in action之Gateway流量入口与安全
  • 分析NVIDIA的股价和业绩暴涨的原因
  • Zabbix监控 RabbitMQ 指定消息队列名称(pull_alarms )的消费者
  • 富乐德传感技术盘古信息 | 锚定“未来工厂”新坐标,开启传感器制造行业数字化转型新征程
  • IC解析之TPS92682-Q1(汽车LED灯控制IC)
  • 【C/C++】C语⾔内存函数
  • [Errno 122] Disk quota exceeded
  • Linux59 SSH配置前瞻 JumpServer双网卡ping通
  • 金仓数据库永久增量备份技术原理与操作
  • 电商平台如何做好DDoS 攻防战?
  • 物流基础知识-术语 | 医药物流(1)
  • OpenHarmony平台驱动开发(十),MMC
  • k8s监控方案实践(二):集成Alertmanager告警与钉钉Webhook通知
  • C23 与 MISRA C:2025:嵌入式 C 语言的进化之路
  • 4.3【LLaMA-Factory实战】教育大模型:个性化学习路径生成系统全解析
  • 微服务中 本地启动 springboot 无法找到nacos配置 启动报错