当前位置: 首页 > news >正文

Thrust库中的Gather和Scatter操作

Thrust库中的Gather和Scatter操作

Thrust是CUDA提供的一个类似于C++ STL的并行算法库,其中包含两个重要的数据操作:gather(聚集)和scatter(散开)。

Gather操作

Gather操作从一个源数组中按照指定的索引收集元素到目标数组中。

函数原型:

template<typename InputIterator1, typename InputIterator2, typename OutputIterator>
OutputIterator gather(InputIterator1 map_first, InputIterator1 map_last,InputIterator2 input_first, OutputIterator result);

工作方式:

result[i] = input[map[i]] 对于 map中的每个索引i

示例:

#include <thrust/gather.h>
#include <thrust/device_vector.h>// 源数据
thrust::device_vector<int> input(4);
input[0] = 10; input[1] = 20; input[2] = 30; input[3] = 40;// 索引映射
thrust::device_vector<int> map(3);
map[0] = 3; map[1] = 1; map[2] = 2;// 目标向量
thrust::device_vector<int> result(3);// 执行gather操作
thrust::gather(map.begin(), map.end(), input.begin(), result.begin());
// result现在包含 [40, 20, 30]

Scatter操作

Scatter操作将源数组的元素按照指定的索引分散到目标数组中。

函数原型:

template<typename InputIterator1, typename InputIterator2, typename InputIterator3, typename OutputIterator>
OutputIterator scatter(InputIterator1 first, InputIterator1 last,InputIterator2 map_first, InputIterator3 stencil,OutputIterator result);

工作方式:

result[map[i]] = input[i] 对于 map中的每个索引i

示例:

#include <thrust/scatter.h>
#include <thrust/device_vector.h>// 源数据
thrust::device_vector<int> input(3);
input[0] = 10; input[1] = 20; input[2] = 30;// 索引映射
thrust::device_vector<int> map(3);
map[0] = 3; map[1] = 1; map[2] = 2;// 目标向量(需要足够大)
thrust::device_vector<int> result(4);// 执行scatter操作
thrust::scatter(input.begin(), input.end(), map.begin(), result.begin());
// result现在包含 [0, 20, 30, 10] (初始值为0)

应用场景

  1. 数据重排:当需要按照特定顺序重新排列数据时
  2. 稀疏矩阵操作:在稀疏矩阵计算中高效地访问非零元素
  3. 数据库操作:实现类似SQL中的选择和投影操作
  4. 图像处理:像素重映射操作

变体函数

Thrust还提供了一些变体函数:

  • gather_if:带条件的gather操作
  • scatter_if:带条件的scatter操作
  • stable_scatter:保持相对顺序的scatter操作

这些操作在GPU上高度优化,能够充分利用并行计算能力,比在CPU上实现的类似操作要快得多。

http://www.xdnf.cn/news/437419.html

相关文章:

  • 【​​HTTPS基础概念与原理​】​​HTTPS vs HTTP:为什么现代网站必须用HTTPS?
  • 元宇宙赛道新势力:成都芯谷产业园创新业务如何重构产业格局
  • 5.18-AI分析师
  • 【RabbitMq C++】消息队列组件
  • 人工智能外呼系统:重构智能交互的全维度进化
  • ORACLE查看归档是否打开
  • 海量数据Top k 与查重问题
  • JavaScript篇:揭秘函数式与命令式编程的思维碰撞
  • 基于Python的量化交易实盘部署与风险管理指南
  • XD08M3232接近感应单片机的接近感应模块的工作原理
  • VTK|类似CloudCompare的比例尺实现2-vtk实现
  • DML和DQL
  • 基于 GPUGEEK平台进行vLLM环境部署DeepSeek-R1-70B
  • 从零开始学习three.js(16):一文详解three.js中的法向量Normal Vector
  • FPGA在光谱相机中的核心作用
  • [数据结构]6. 队列-Queue
  • 笛卡尔路径规划
  • React 第三十九节 React Router 中的 unstable_usePrompt Hook的详细用法及案例
  • React 第四十节 React Router 中 useBeforeUnload的使用详细解析及案例说明
  • Jsp技术入门指南【十四】实现基于MySQL+JDBC+JSP数据库验证的登录界面与登录跳转功能
  • LeRobot 框架的核心架构概念和组件(上)
  • 阿里端到端多模态语音对话开源模型论文速读:Qwen2.5-Omni
  • 机器学习 Day16 聚类算法 ,数据降维
  • SpringBoot整合MQTT实战:基于EMQX构建高可靠物联网通信,从零到一实现设备云端双向对话
  • ubuntu 22.04 wifi网卡配置地址上网
  • 关于深度学习的一些模型算法
  • AR禁毒:科技赋能,筑牢防毒新防线
  • 【MySQL】变更缓冲区:作用、主要配置以及如何查看
  • 前端服务器部署分类总结
  • 【工具类】ssh,remote-ssh插件和sftp插件