当前位置: 首页 > ds >正文

AWS 公开数据集下载与操作说明

🌐 AWS 公开数据集下载与操作说明(以 SpaceNet 为例)

一、前置条件

在开始前,请确保已安装并配置好 AWS CLI 工具。

1. 安装 AWS CLI

可从官网下载安装:

👉 https://awscli.amazonaws.com/AWSCLIV2.msi

安装后通过以下命令验证:

aws --version

2. 本项目使用 无需认证 的公开数据,因此可以使用匿名访问:

--no-sign-request

二、SpaceNet 数据集介绍

SpaceNet 是 AWS 上托管的高分辨率遥感数据集,包含卫星影像(RGB、多光谱)、建筑物矢量标签、掩膜标签等,适用于目标识别、图像分割、场景分类等任务。

例如:AOI_2_Vegas 表示拉斯维加斯地区的影像与标注。


三、浏览远程数据目录结构

1. 查看数据列表

aws s3 --no-sign-request ls s3://spacenet-dataset/ --request-payer requester

image-20250608212611101

# 根目录说明(s3://spacenet-dataset/)AOIs/                        # SpaceNet 核心数据集的各个 AOI(Area of Interest)区域数据,如 Vegas、Paris 等;# 包含多光谱、全色锐化影像(PS-RGB, PS-MS)、建筑物标签(GeoJSON)、掩膜标签等Hosted-Datasets/            # SpaceNet 之外托管的其他遥感公开数据集,如 xView、DeepGlobe 等第三方数据(AWS 作为托管方)SpaceNet_Off-Nadir_Dataset/ # SpaceNet 提供的“偏视角”数据集(Off-Nadir),包括不同倾角(7.5° 到 54°)拍摄的影像及标签;# 适合研究视角变化对识别精度的影响等问题spacenet-model-weights/     # 官方训练好的模型权重(如 UNet、Mask R-CNN 等),用于快速实验和模型加载验证spacenet-stac/              # SpaceNet 数据的 STAC(SpatioTemporal Asset Catalog)索引目录;# 提供标准化的 JSON 描述,便于程序化检索与集成,适用于自动化系统或云平台分析spacenet/                   # SpaceNet 比较早期版本的原始数据,结构略不同;# 可视为 Legacy 数据集,不推荐作为首选,除非用于比对或历史研究LICENSE.md                  # 数据集使用许可说明,通常是 CC-BY(署名共享),下载和使用前建议查看许可内容

2. 列出 AOI 目录下的所有文件夹

aws s3 --no-sign-request ls s3://spacenet-dataset/AOIs/ --request-payer requester

image-20250608212951319

# SpaceNet AOI 列表说明(每个目录代表一个城市或区域的遥感数据)AOI_1_Rio/                # 巴西里约热内卢区域的高分辨率卫星影像与建筑物标注数据
AOI_2_Vegas/              # 美国拉斯维加斯区域,包含多光谱影像和建筑物标签,常用作基准数据集
AOI_3_Paris/              # 法国巴黎区域的遥感影像和建筑物标注,适合城市建筑识别任务
AOI_4_Shanghai/           # 中国上海区域的高分辨率卫星影像,适合大城市建筑物提取与变化检测
AOI_5_Khartoum/           # 苏丹喀土穆区域数据,涵盖不同气候与地理环境的遥感影像
AOI_6_Atlanta/            # 美国亚特兰大区域,适合城市道路和建筑识别研究
AOI_7_Moscow/             # 俄罗斯莫斯科区域的卫星影像,适合复杂城市场景分析
AOI_8_Mumbai/             # 印度孟买区域,具有高人口密度城市的遥感数据
AOI_9_San_Juan/           # 波多黎各圣胡安区域,适合岛屿和城市混合场景研究
AOI_10_Dar_Es_Salaam/     # 坦桑尼亚达累斯萨拉姆区域,城市与自然环境混合
AOI_11_Rotterdam/         # 荷兰鹿特丹区域,包含复杂水陆混合的城市影像数据

3. 查看某一 AOI 的内容(例如 AOI_2_Vegas):

aws s3 --no-sign-request ls s3://spacenet-dataset/AOIs/AOI_2_Vegas/ --request-payer requester

image-20250608213117895
常见子目录包括:

  • PS-RGB/:全色锐化 RGB 影像(.tif)
  • geojson_buildings/:建筑物标签(.geojson)
  • raster_labels/:掩膜标签(.tif)
  • metadata/:数据说明与参数信息(.json、.csv)

四、下载数据

使用 sync 命令可以将 S3 上的指定目录与本地文件夹同步:

示例:下载 RGB 影像

aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/PS-RGB/ ./spacenet2_vegas/PS-RGB/ --request-payer requester

示例:下载建筑物矢量标签

aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/geojson_buildings/ ./spacenet2_vegas/geojson_buildings/ --request-payer requester

示例:下载掩膜标签

aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/raster_labels/ ./spacenet2_vegas/raster_labels/ --request-payer requester

五、参数说明

参数说明
--no-sign-request使用匿名访问,适用于无需授权的公开数据集
--request-payer requester指定下载方承担 S3 流量费用(公开数据集通常需要)
sync增量同步文件夹,仅下载本地不存在或已更新的文件
ls查看远程 S3 桶目录结构

六、常见问题与解决方法

问题 1:执行 sync 后没有下载任何文件?

可能原因:

  • 路径错误(如遗漏 AOIs/ 前缀)
  • 本地已有文件,sync 判断无需更新
  • 网络或代理限制访问 AWS S3

解决办法:

  • 确认远程路径拼写正确

  • 添加 --dryrun 参数测试将会下载哪些文件:

    aws s3 --no-sign-request sync s3://... ./local_path/ --request-payer requester --dryrun
    
  • 使用 --debug 参数排查详细过程

  • 切换网络或使用 VPN 测试是否为网络限制


七、附录:示例本地目录结构

spacenet2_vegas/
├── PS-RGB/                 # 卫星影像(.tif)
├── geojson_buildings/     # 建筑物标签(.geojson)
├── raster_labels/         # 掩膜标签(.tif)
http://www.xdnf.cn/news/12955.html

相关文章:

  • RabbitMQ入门
  • 多线程3(Thread)
  • 平衡二叉树:让搜索效率飞升的树形艺术
  • 初入 python Django 框架总结
  • 大话软工笔记—需求调研的准备
  • Perplexity AI:重塑你的信息探索之旅
  • amd64 -- buildx linux 镜像 Docker docker
  • Spring Boot微服务架构(十四):传统架构与微服务架构的开发成本对比分析
  • 联邦学习的创新方向
  • 双指针详解
  • 一键搭建 WordPress + MySQL + phpMyAdmin 环境(支持 PHP 版本选择 自定义配置)
  • 浮点数运算和精度总结
  • ​​​​​​​6板块公共数据典型应用场景【政务服务|公共安全|公共卫生|环境保护|金融风控|教育科研]
  • 简约商务通用宣传年终总结12套PPT模版分享
  • 服务器 | Centos 9 系统中,如何部署SpringBoot后端项目?
  • 随便刷刷web题
  • 7.Pandas 数据可视化图-2
  • Cilium动手实验室: 精通之旅---12.Cilium Egress Gateway - Lab
  • ABP vNext 与 HDFS 数据湖存储集成
  • epoll+线程池
  • 正点原子[第三期]Arm(iMX6U)Linux移植学习笔记-12.1 Linux内核启动流程简介
  • 第二章 无刷电机硬件控制
  • 31.2linux中Regmap的API驱动icm20608实验(编程)_csdn
  • Prompt Enginering(提示工程)先进技术
  • 基于FPGA的超声波显示水位距离,通过蓝牙传输水位数据到手机,同时支持RAM存储水位数据,读取数据。
  • 关于 ffmpeg设置摄像头报错“Could not set video options” 的解决方法
  • Kubernetes 节点资源驱逐策略详解:evictionHard 与 evictionSoft
  • 附加模块--Qt OpenGL模块功能及架构
  • 利用pandas gradio实现简单的项目子项拆解及排期
  • Fractal Generative Models论文阅读笔记与代码分析