当前位置：首页 > ds >正文

Hadoop入门

ds 2025/8/18 9:57:41

Hadoop简介

Hadoop是什么：
- Hadoop是Apache基金会开发的一套开源软件平台。
- 它的功能是利用服务器集群对海量数据进行分布式处理。
- 核心组件包括HDFS、MapReduce、YARN和Hadoop基础功能库。
Hadoop生态系统：
- 广义上的Hadoop指的是一个更广泛的概念，即Hadoop生态圈。
- Hadoop是云计算PaaS层的解决方案之一，广泛应用于数据服务基础平台建设、用户画像、网站点击流日志数据挖掘等。

HDFS（分布式文件存储系统）

HDFS是Hadoop的核心组件之一，用于存储海量数据。
它将文件分割成多个块（block），并将这些块存储在不同的节点上。
HDFS设计用于高吞吐量的访问模式，适合大规模数据集的存储。

MapReduce（分布式计算框架）

MapReduce是一种分布式计算框架，采用“分而治之”的思想。
它将复杂的计算任务分解成多个小任务，这些小任务可以在不同的服务器上并行执行。
最终汇总每个小任务的结果，完成整个计算任务。

YARN（资源管理和调度器）

YARN负责集群资源的管理和任务调度。
它使得多个应用程序可以共享同一个集群资源。

Hive与传统数据库的比较

查询语言：Hive使用HQL（Hive Query Language），而传统数据库使用SQL。
数据存储：Hive使用HDFS，而传统数据库通常使用本地文件系统或原始设备。
执行引擎：Hive使用MapReduce，而传统数据库使用Executor。
执行延迟：Hive的执行延迟较高，而传统数据库的执行延迟较低。
处理数据规模：Hive适合处理大规模数据，而传统数据库适合处理小规模数据。
索引：Hive在0.8版本后支持位图索引，而传统数据库有更复杂的索引。

Hive的数据定义与操作

创建数据库：

CREATE DATABASE [IF NOT EXISTS] database_name
[COMMENT database_comment]
[LOCATION hdfs_path]
[WITH DBPROPERTIES (property_name=property_value,...)];

示例：

create database if not exists kaikeba;

查看数据库信息：
```
desc database extended database_name;
```

删除数据库：

drop database if exists kaikeba;
drop database if exists kaikeba cascade; -- 强制删除数据库

数据的导入和导出

从本地导入到表中：

load data local inpath '本地路径' overwrite into table table_name [partition(partcol1=val1,...)];

从HDFS导入到表中：

load data inpath 'HDFS路径' into table table_name [partition(partcol1=val1,...)];

将Hive表中的数据导出到本地：

insert overwrite local directory '本地路径' select * from table_name;

将Hive表中的数据导出到HDFS：

insert overwrite directory 'HDFS路径' select * from table_name;

关闭Hive和Hadoop

关闭Hive：
```
quit;
```
关闭Hadoop：
```
stop-all.sh
```

查看全文

http://www.xdnf.cn/news/18227.html

前端基础知识版本控制系列 - 05（ Git 中 HEAD、工作树和索引之间的区别）

图论水题4

写作路上的迷茫与突破

java_spring boot 中使用 log4j2 及自定义layout设置示例

NestJS 手动集成TypeORM

关于第一次接触Linux TCP/IP网络相关项目

Docker入门：容器化技术的第一堂课

python---装饰器

在线编程题目之小试牛刀

[每周一更]-(第155期)：Go 1.25 发布：新特性、技术思考与 Go vs Rust 竞争格局分析

回溯剪枝的 “减法艺术”：化解超时危机的 “救命稻草”(一)

机器学习算法篇(十三)------词向量转化的算法思想详解与基于词向量转换的文本数据处理的好评差评分类实战(NPL基础实战)

微服务之间的调用需要走网关么？

Linux Shell定时检查日期执行Python脚本

Python数据类型转换详解：从基础到实践

uniappx 安卓端本地打包的一些总结

【typenum】 16 非零标记及改进建议

【Linux系统】动静态库的制作

java之 junit4单元测试Mockito的使用

Pycharm Debug详解

深度学习之优化器

数据与模型融合波士顿房价回归建模预测

数据结构（排序篇）——七大排序算法奇幻之旅：从扑克牌到百亿数据的魔法整理术

LeetCode 1323: 6和9组成的最大数字

内网后渗透攻击--隐藏通信隧道技术（应用层隧道技术）

一键管理 StarRocks：简化集群的启动、停止与状态查看

JAVA后端开发——Token自动续期机制的必要性

库制作与原理(下)

RabbitMQ面试精讲 Day 24：消费者限流与批量处理

Linux中iSCSI存储配置与管理指南

Hadoop简介

HDFS（分布式文件存储系统）

MapReduce（分布式计算框架）

YARN（资源管理和调度器）

Hive与传统数据库的比较

Hive的数据定义与操作

数据的导入和导出

关闭Hive和Hadoop

相关文章：