当前位置：首页 > ops >正文

ElasticSearch不同环境同步索引数据

ops 2025/8/16 7:45:54

目的：在生产环境把一个索引的数据同步到测试环境中

1、在生产环境导出json数据

curl -u "adims_user:xkR%cHwR5I9g"   -X GET "http://172.18.251.132:9200/unify_info_mb_sp_aggregatetb_0004/_search?scroll=1m"   -H 'Content-Type: application/json'   -d'{"size": 100000,"query": {"bool": {"must": [{ "term": { "categoryId": 30 }},{ "term": { "factoryType": "煤炭电厂" }},{ "term": { "isDelete": 0 }},{ "term": { "countryName": "中国" }}]}}}'   > initial_batch.json

2、利用python把导出的json数据转成bulk数据

python脚本convert_to_bulk_simple.py

import json
import sysdef convert_search_to_bulk(input_file, output_file, target_index):"""将ES查询结果转换为bulk格式"""with open(input_file, 'r', encoding='utf-8') as f:data = json.load(f)if 'hits' not in data or 'hits' not in data['hits']:print("错误: 不是有效的ES查询结果格式")return Falsehits = data['hits']['hits']print(f"找到 {len(hits)} 个文档")with open(output_file, 'w', encoding='utf-8') as f:for hit in hits:# action行action = {"index": {"_index": target_index, "_id": hit.get('_id')}}f.write(json.dumps(action) + '\n')# document行f.write(json.dumps(hit.get('_source', {})) + '\n')# 确保以换行符结尾f.write('\n')print(f"转换完成: {output_file}")return Trueif __name__ == "__main__":if len(sys.argv) != 4:print("使用方法: python convert_to_bulk_simple.py input.json output.json target_index")sys.exit(1)convert_search_to_bulk(sys.argv[1], sys.argv[2], sys.argv[3])

执行转换命令：

python convert_to_bulk_simple.py initial_batch2.json bulk_data.json unify_info_mb_sp_aggregatetb_0004

3、把转换的数据导入到测试环境

curl -u "adims_user:j0SMMmI+Rwfv"   -X POST "http://192.168.168.243:9200/_bulk"   -H "Content-Type: application/json"   --data-binary @bulk_data.json

4、导入前后查询数据量大小，验证是否导入成功

curl -u "adims_user:j0SMMmI+Rwfv"   -X GET "http://192.168.168.243:9200/unify_info_mb_sp_aggregatetb_0004/_count"

查看全文

http://www.xdnf.cn/news/17780.html

Spring Ai 如何配置以及如何搭建

Jmeter自定义脚本

零基础学会制作基于STM32单片机智能加湿系统/加湿监测/蓝牙系统/监测水量

探索无人机图传技术：创新视野与无限可能

在 macOS 上顺利安装 lapsolver

OpenCV Python——VSCode编写第一个OpenCV-Python程序，图像读取及翻转cv2.flip（上下、左右、上下左右一起翻转）

死锁总结及解决方案

关于截屏时实现游戏暂停以及本地和上线不同步问题

用GPT解释“GPT-5”是什么，有什么优势

python-pycharm切换python各种版本的环境与安装python各种版本的环境(pypi轮子下载)

Flink Stream API 源码走读 - map 和 flatMap

KNN（k近邻算法）

Chrome插件开发实战：从架构到发布全流程

准备用Qt6 重写音视频会议系统服务端

开源 Arkts 鸿蒙应用开发（十五）自定义绘图控件--仪表盘

开源 Arkts 鸿蒙应用开发（十六）自定义绘图控件--波形图

【Javaweb学习|黑马笔记|Day1】初识，入门网页，HTML-CSS|常见的标签和样式|标题排版和样式、正文排版和样式

前端css学习笔记6：盒子模型

国内著名AI搜索优化专家孟庆涛发表《AI搜索内容可信度评估综合指南》

liteflow

Vue3中的ref与reactive全面解析：如何正确选择响应式声明方式

Java List 集合详解（ArrayList、LinkedList、Vector）

水印消失术！JavaAI深度学习去水印技术深度剖析

传输层协议TCP（3）

Flink Stream API 源码走读 - socketTextStream

集成电路学习：什么是Machine Learning机器学习

从单机到分布式：用飞算JavaAI构建可扩展的TCP多人聊天系统

【力扣56】合并区间

easyexcel模板导出Map数据时空值列被下一行列非空数据覆盖

从零开始的云计算生活——第四十三天，激流勇进，kubernetes模块之Pod资源对象

相关文章：