Greenplum数据库维护篇之常用操作指导
一、前言
Greenplum作为一个面向数据仓库应用的开源MPP关系型(OLAP)数据库,具备强大的数据处理能力和出色的并行计算,性能在TB级别数据量的表现非常优秀,是大数据时代下多云大数据分析、BI、AI分析的主流DBMS工具,虽然也曝出“闭源”的风波(GreenPlum的GitHub库2021年1月6日后已停止更新,2023 年Broadcom 完成对 VMware 的收购后已限制了代码访问权限,目前只读),但依然有很多企业还在使用,转型和转向信创(华为的GaussDB(DWS)、阿里云ADB-PG、酷克数据的CloudberryDB、腾讯云的CynosDB for PostgreSQL、人大金仓的KingbaseES等)还需要时间。尽管如此,不妨碍我们继续在中小环境时序使用它,我们知道它基于流行的PostgreSQL开发,那它维护基本就可参照postgreSQL的方式进行,但两者又有什么异同呢?本文将记录Greenplum 6.x 版本中日常维护中的一些操作,用以指导后期及相关同学维护参照参考。
关联资源:Greenplum高并发数据库概览、GreenPlum分布式数据库存储及查询处理、greenplum_exporter、Greenplum数据库”6.0文档、tanzu-greenplum、/gpdbdoc、Greenplum 实时数据仓库实践、Greenplum数据库的最佳实践、
二、数据库访问
2.1、DBveaver 访问gpdb
1)联网的情况下如下:
2)离线状态下:
或
三、数据库增删改查
四、数据库应用
五、监控和性能优化
5.1、监控
1) Greenplum 集成 Prometheus 的监控数据采集器
export GPDB_DATA_SOURCE_URL=postgres://gpadmin:password@10.172.10.2:5432/postgres?sslmode=disable
su - gpadmin
./greenplum_exporter --web.listen-address="0.0.0.0:9297" --web.telemetry-path="/metrics" --log.level=error
#验证
curl http://127.0.0.1:9297/metrics
六、sql语句使用
七、概念回顾
1)技术架构
2)Coodinator/Segment架构
客户端只会连接到Coodinator上并执行相关查询操作,Standby节点为Coordinator提供高可用支持,Mirror为primary的备,数据默认使用hash分布,另一种是随机(randomly)分布;Hash分布策略可选一个或者多个列作为分布键(distribution key,简称DK)。分布键做hash算法来确认数据存放到对应的segment上。相同分布键值会hash到相同的segment上。表上最好有唯一键或者主键,这样能保证数据均衡分不到各个segment上,如果没有主键或者唯一键,默认选择第一列作为分布键。
3)数据仓库设计规范参考