SCAU大数据技术原理雨课堂测验2
HBase中需要根据某些因素来确定一个单元格,这些因素可以视为一个“四维坐标”,下面哪个不属于“四维坐标”?
A. 行键
B. 列族
C. 列限定符
D. 单元格
正确答案: D 四维坐标:行键,列族,列限定符,时间戳
HBASE的时间戳用____位数据表示
A. 8
B. 16
C. 32
D. 64
正确答案: D 64位整数表示
关于Hbase的描述,错误的是___
A. Hbase是一个列式数据库
B. Hbase集群使用时不需要用到Zookeeper
C. Hbase集群包括Master主服务器和若干个Region服务器
D. Hbase的主服务器负责管理和维护Hbase表的分区信息
正确答案: B
Hbase使用时需要用到Zookeeper;
既可以使用Hbase自带的单个ZK;
也可以使用外部的ZK集群;
Hbase中,创建一个表名t1,列族名f1且版本号为5的正确命令是___
关于Hbase命令的描述,错误的是____
A. list命令列出所有表的信息
B. delete命令表示删除表
C. count命令统计表的行数,同一个行键的多个列族数据只计数一次。
D. get命令返回某单元格的单个数据时,其版本为最新(后)输入的数据
正确答案: B drop命令表示删除表,删除表之前,需要使其无效disable
NoSQL的数据库的特点总结中,不包括____
A. 严格支持事务的ACID四性
B. 灵活的数据模型
C. 与云计算紧密融合
D. 灵活的可扩展性
正确答案: A 严格支持事务的ACID四性,是传统的关系型数据库的特点,不是NoSQL数据库必须支持的特性
不属于NoSQL四大类型数据库的产品是____
A. 键值数据库Redis
B. 文档数据库MongoDB
C. 列族数据库Hbase
D. 关系数据库MySQL
正确答案: D MySQL是关系型数据库,不属于NoSQL数据库
关于NoSQL数据库的说法中,错误的是____
A. NoSQL有行业标准,不同的NoSQL数据库有相同的查询语言
B. NoSQL的三大基石包括:CAP,BASE和最终一致性
C. CAP理论说明,可以同时满足一致性、可用性和分组容忍性
D. 大数据时代,数据库架构分成三个阵营:OldSQL、NoSQL、NewSQL
正确答案: A NoSQL“没有”行业标准,不同的NoSQL数据库有“不同”的查询语言
Hive数据仓库的说法中,错误的是____
A. Hive分析的数据集位于HDFS中
B. Hive的元数据信息保存在HDFS中
C. Hive的查询语言HQL与SQL类似
D. Hive的计算引擎默认是MapReduce
正确答案: B 元数据保存在关系型数据库中
关于Hive表的描述,错误的是____
A. hive的表对应集群HDFS上的某个目录
B. hive的表可分为:内部表、外部表、分区表
C. 创建一个外部表时,要指定关键词external,并说明表的存储路径
D. 在hive中不可以创建数据库
正确答案: D 在hive中,可以创建数据库
Hive CLI下查看表和视图的命令是:
A. show tables
B. show tables;
C. list tables
D. list tables;
正确答案: B show tables; 注意命令以分号结尾
Hive中已有内部表usr,查看表结构的正确命令是____
A. desc usr;
B. desc table usr;
C. show table usr;
D. show usr;
正确答案: A desc usr; 或 describe usr;
Hive中,关于命令:load data local inpath ‘/usr/localdata’ overwrite into table usr
说法错误的是____
A. 上传文件内容并将其添加到表中
B. 上传文件内容到表中,覆盖原有内容
C. local表示本地路径
D. 该命令语法正确
正确答案: A 该命令表示覆盖式写入数据,如果没有overwrite则表示添加数据。
关于Hive的描述中,错误的是____
A. HQL语句可以转换为MapReduce作业,但不是所有的语句都需要转换
B. 复杂的HQL语句,可以转换为多个MR作业执行查询
C. 与Hive类似的产品包括Impala
D. Hive的计算引擎只能是MapReduce
正确答案: D Hive的计算引擎可以更换为spark
关于Spark特点的描述,错误的是___
A. 运行速度快
B. 多种语言支持,包括scala,java,python,R等
C. 通用性,包括SQL查询、流式计算、机器学习、图计算等。
D. Spark可以完全替代Hadoop
正确答案: D
Spark并不能完全替代Hadoop,其主要用于替代Hadoop中的MapReduce模型。
不同的产品有不同的应用场景。
关于Spark RDD的描述,错误的是____
A. RDD是一个分布式对象集合,本质上是一个只读的分区记录集合
B. RDD的操作分为两大类,转换和行动
C. RDD采用了惰性调用,在RDD的执行过程中,真正的计算发生在”行动“操作
D. RDD的每次操作,都需要保存到磁盘而不是内存中
正确答案: D RDD的中间结果持久化到内存。数据在内存中的多个RDD操作之间进行传递,不需要”落地“到磁盘上。
关于Spark RDD的窄依赖和宽依赖,错误的是:
A. 窄依赖表现为一个父RDD的分区对应于一个子RDD的分区,或多个父RDD的分区对应于一个子RDD的分区
B. 宽依赖表现为一个父RDD的分区对应一个子RDD的多个分区
C. 二者的主要区别是是否包含shuffle操作,其中窄依赖包含shuffle,宽依赖不包含shuffle
D. Spark根据DAG中RDD的依赖关系,把一个作业分成多个阶段
正确答案: C
其中窄依赖不包含shuffle;
宽依赖包含shuffle
Spark RDD的基本操作中,不属于转换类型的是
A. map
B. reduce
C. flatMap
D. filter
正确答案: B
转换类型:map、filter、flatMap、groupByKey、reduceByKey
动作类型:count、collect、first、take、reduce、foreach
NoSQL数据库的理论基础“CAP”其中的“C”,与关系数据库的理论基础"ACID"中的“C”含义相同(×)
CAP理论中的C,表示任何一个读操作总是能够读到之前完成的写操作的结果,即分布式环境下,各个节点的数据是一致的。
ACID理论中的C,数据库总是从一个一致性的状态转换到另外一个一致性的状态。
在Spark分布式部署模式中,由Spark使用自带的资源调度管理服务,称为Spark on YARN(×)