当前位置：首页 > news >正文

大数据（非结构化数据，Spark，MongoDB）

news 2025/9/8 5:58:47

大数据（Big Data）指的是在规模（Volume）、速度（Velocity）、多样性（Variety）上超出传统数据处理软件（如关系型数据库）处理能力的巨量数据集合。为了更全面地定义，后来又增加了价值密度低（Value）和真实性（Veracity）两个特征，合称为大数据的 5V 特性。

简单来说，大数据不是关于“数据有多大”，而是关于“如何处理巨大的、复杂的数据集并从中提取价值”的一整套技术、方法和思维模式。

下图清晰地展示了大数据技术的典型分层架构，从下到上，体现了数据处理的完整生命周期：

这一层代表了数据的来源，即“海量数据从何而来”。图示中通常会列出多种数据源：

这一层解决“如何把海量数据可靠地收集和存储起来”的问题。

数据采集/集成：使用特定工具将不同来源的数据“搬”到存储系统中。
- Sqoop：用于在HDFS和传统数据库间传输数据。
- Flume：一个高可用的分布式日志采集系统。
- Kafka：一种高吞吐量的分布式消息队列，既能采集数据，也能作为实时数据流的缓冲。
数据存储：核心是分布式文件系统和分布式数据库，它们能将数据分散存储到成千上万台普通服务器上，实现 scale-out（横向扩展）。
- HDFS (Hadoop Distributed File System)：Hadoop的分布式文件系统，是大量其他大数据技术的基础存储。
- NoSQL 数据库：如 HBase（基于HDFS的列式数据库）、Cassandra、MongoDB等，用于处理非结构化和半结构化数据，提供高并发读写能力。
- 云存储：如AWS S3, Azure Blob Storage等，也成为主流的大数据存储方案。

这是大数据的核心，解决“如何从海量数据中计算和分析出有价值的信息”的问题。主要分为三种模式：

批处理 (Batch Processing)：对静态的、海量的数据进行处理，通常耗时较长。
- Hadoop MapReduce：最早的分布式批处理模型，将计算任务拆分(Map)再汇总(Reduce)，但速度较慢。
- Spark：现代大数据处理的绝对主力。它使用内存计算，速度比MapReduce快多个数量级。其核心抽象是RDD（弹性分布式数据集）。
流处理 (Stream Processing)：对连续产生的、高速的数据流进行实时或近实时处理。
- Spark Streaming：将流数据切成小批（micro-batches）进行处理。
- Flink：真正的逐事件处理引擎，延迟极低，在实时处理领域势头强劲。
- Storm：早期的流处理框架。
数据挖掘与机器学习 (Data Mining & Machine Learning)
- 这不是一个独立的系统，而是建立在批处理和流处理之上的高级分析能力。
- MLlib：Spark的机器学习库。
- TensorFlow, PyTorch：深度学习框架，也常与大数据平台集成处理海量数据。

这一层解决“如何将分析结果呈现给最终用户（决策者、业务人员、客户）”的问题。

数据查询与服务：
- Hive：可以将结构化的数据文件映射为一张数据库表，并提供类SQL（HiveQL）查询功能，降低使用门槛。
- Spark SQL：允许在Spark中使用SQL来查询数据。
- 数据API：将分析结果以API接口的形式提供服务，供其他应用程序调用。
数据可视化与BI工具：
- Tableau, FineBI, Power BIv：等工具可以轻松地连接数据处理平台，将结果转化为直观的图表、仪表盘(Dashboard) 和报表。
- Grafana：常用于监控指标的实时可视化。