当前位置: 首页 > web >正文

openMP的简单介绍以及c++执行实例


🧠 什么是 OpenMP?

OpenMP(Open Multi-Processing) 是一种基于 共享内存多线程并行编程 的标准接口,主要用于 C/C++ 和 Fortran
它通过编译器指令(#pragma)和少量函数调用,实现程序的多线程并行执行,广泛用于多核 CPU 的并行加速。

✅ 关键词:简单、快速接入、共享内存模型、线程级并行


📚 基本原理

  • OpenMP 利用多线程模型,多个线程访问同一块共享内存。

  • 主线程启动并分配工作到多个子线程。

  • 子线程完成任务后回收,继续主线程的流程。


🚀 使用步骤(C++ 示例)

1. 头文件引入

#include <omp.h>

2. 编译器支持

使用 -fopenmp(GCC/Clang) 或 /openmp(MSVC):

g++ -fopenmp main.cpp -o my_app

🔧 常用指令详解

1. 并行执行块

#pragma omp parallel
{// 这里的代码由多个线程并行执行
}

2. 并行 for 循环

#pragma omp parallel for
for (int i = 0; i < N; ++i) {// 多线程并行执行每一次迭代
}

3. 指定共享与私有变量

#pragma omp parallel for shared(shared_var) private(i)
  • shared(x):所有线程共享变量

  • private(x):每个线程有自己的副本

4. critical(临界区)

保证某段代码只被一个线程执行:

#pragma omp critical
{// 通常用于修改共享变量(如 push_back、计数等)
}

5. reduction(规约)

并行执行中对变量进行“聚合”:

int sum = 0;
#pragma omp parallel for reduction(+:sum)
for (int i = 0; i < N; ++i)sum += i; // 各线程加和后统一聚合

6. atomic(原子操作)

原子性地更新变量,比 critical 粒度更小:

#pragma omp atomic
sum += i;

7. schedule(任务划分策略)

控制任务在线程间如何分配:

#pragma omp parallel for schedule(static)   // 固定分配
#pragma omp parallel for schedule(dynamic)  // 动态分配

🧮 运行时函数

int omp_get_num_threads();    // 获取当前线程数
int omp_get_thread_num();     // 获取当前线程 ID(从 0 开始)
int omp_get_max_threads();    // 系统支持的最大线程数

🧪 示例:并行求数组和

#include <omp.h>
#include <iostream>
int main() {const int N = 1000;int a[N];for (int i = 0; i < N; ++i) a[i] = i;long long sum = 0;#pragma omp parallel for reduction(+:sum)for (int i = 0; i < N; ++i) {sum += a[i];}std::cout << "Sum = " << sum << std::endl;return 0;
}

⚠️ 使用注意事项

问题描述
❌ 数据竞争多线程读写同一变量未加锁或同步,可能崩溃
❌ 非线程安全容器std::vectordeque 等 STL 容器需手动保护
❌ 非结构化编程不当的 #pragma 结构容易导致 bug
❌ 嵌套并行默认为关闭,需手动打开 omp_set_nested(1)

✅ 适合的使用场景

场景说明
CPU 密集型计算大量循环计算、矩阵乘法、图像处理
数据并行处理同一类型的大量数据
图像 Patch 并行处理图像分块 + #pragma omp parallel for
替代多线程简洁替代 pthread/C++ std::thread 等

🧰 优缺点总结

优点缺点
✅ 易上手❌ 仅支持共享内存系统
✅ 与现有代码融合简单❌ 控制粒度较粗,不适合复杂任务分配
✅ 开销小(无需线程池)❌ 对线程安全性要求高,容易出错

📦 补充工具

  • GOMP(GNU OpenMP Runtime):你遇到的 libgomp.so 就是它,OpenMP 的运行时。

  • Intel TBB / C++20 并行算法:适合更复杂的并行场景。

  • OpenCL / CUDA:适合跨设备(GPU)并行。


执行例子


#include <iostream>
#include <omp.h>int main() {#pragma omp parallel{int tid = omp_get_thread_num();std::cout << "Thread %d says hello\n" << tid << std::endl;int num_threads = omp_get_num_threads();std::cout << "Number of threads: " << num_threads << std::endl;}std::cout << " ------------------------- " << std::endl;#pragma omp parallel forfor (int i = 0; i < 8; ++i) {printf("Thread %d handles i = %d\n", omp_get_thread_num(), i);int tid = omp_get_thread_num();std::cout << "the threads is: " << tid << std::endl;std::cout << std::endl;}std::cout << " ------------------------- " << std::endl;int public_val = 0;for(int i=0; i<10; i++){public_val += 1;}std::cout << "the public_val is: " << public_val << std::endl;public_val = 0;#pragma omp parallel forfor(int i=0; i<10; i++){   #pragma omp criticalpublic_val += 1;}std::cout << "the public_val is: " << public_val << std::endl;public_val = 0;#pragma omp parallel forfor(int i=0; i<10; i++){   public_val += 1;}std::cout << "the public_val is: " << public_val << std::endl;return 0;
}// g++ main.cpp -fopenmp -o hello

http://www.xdnf.cn/news/14141.html

相关文章:

  • JS递归了解
  • k3s入门教程(三)部署控制面板
  • 第六章 进阶19 琦琦的追求
  • AI数字人:几分钟克隆,短视频制作新革命
  • leetcode-hot-100 (链表)
  • C语言结构体与联合体详解
  • Windows批处理脚本(.bat脚本、.bat语法)关闭回显@echo off、延迟变量扩展setlocal enabledelayedexpansion
  • 【教程】Windows安全中心扫描设置排除文件
  • Ubuntu Server 24.04|22.04|20.04|18.04 安装GUI DESKTOP xfce4
  • 文本表示的发展概述
  • SpringAI使用总结
  • [蓝桥杯 2023 国 B] AB 路线 (BFS)
  • 事务传播行为详解
  • 学习日记-day29-6.13
  • SpringBoot+vue前后端分离系统开发(期末)
  • 让高端装备“先跑起来”:虚拟仿真验证平台重塑研制流程
  • HarmonyOS5 运动健康app(二):健康跑步(附代码)
  • 多文件,多开发环境配置 Spring boot
  • 【QT】字符串类应用与常用基本数据类型
  • 驭码CodeRider 2.0深度体验:全流程智能体如何重塑研发协作范式?
  • 双向链表——(有头双向循环链表)
  • 轻量级密码算法Grain-128a的Python实现
  • Java求职者面试指南:Spring, Spring Boot, Spring MVC, MyBatis技术深度解析
  • 电商运营公司排名
  • 08 - CoTAttention模块
  • 使用Claude Desktop快速体验MCP servers!
  • 短剧热浪,席卷海内外。
  • Rust编写Shop管理系统
  • 长春光博会 | 麒麟信安:构建工业数字化安全基座,赋能智能制造转型升级
  • 深入剖析Redis高性能的原因,IO多路复用模型,Redis数据迁移,分布式锁实现