当前位置: 首页 > ds >正文

绘制音频信号的各种频谱图,包括Mel频谱图、STFT频谱图等。它不仅能够绘制频谱图librosa.display.specshow

`librosa.display.specshow` 是一个非常方便的函数,用于绘制音频信号的各种频谱图,包括Mel频谱图、STFT频谱图等。它不仅能够绘制频谱图,还能自动设置轴标签和刻度,使得生成的图像更加直观和易于理解。

### 函数签名
```python
librosa.display.specshow(data, x_coords=None, y_coords=None, x_axis=None, y_axis=None, sr=22050, hop_length=512, fmin=0, fmax=None, bins_per_octave=12, key='C:maj', ax=None, **kwargs)
```

### 参数说明
- **`data`**:二维数组,表示频谱数据。例如,`librosa.feature.melspectrogram` 或 `librosa.stft` 的输出。
- **`x_coords`**:一维数组,表示x轴的坐标。如果提供,`x_axis` 参数将被忽略。
- **`y_coords`**:一维数组,表示y轴的坐标。如果提供,`y_axis` 参数将被忽略。
- **`x_axis`**:字符串,指定x轴的类型。常见值包括:
  - `'time'`:时间轴(默认值)。
  - `'s'`:秒。
  - `'ms'`:毫秒。
  - `'lag'`:延迟轴。
  - `'lag_s'`:延迟轴(秒)。
  - `'lag_ms'`:延迟轴(毫秒)。
  - `'cqt_note'`:基于CQT的音符轴。
  - `'cqt_hz'`:基于CQT的频率轴。
  - `'chroma'`:音阶轴。
  - `'tonnetz'`:Tonnetz轴。
  - `'off'`:关闭x轴标签。
- **`y_axis`**:字符串,指定y轴的类型。常见值包括:
  - `'linear'`:线性频率轴(默认值)。
  - `'log'`:对数频率轴。
  - `'mel'`:Mel频率轴。
  - `'cqt_note'`:基于CQT的音符轴。
  - `'cqt_hz'`:基于CQT的频率轴。
  - `'chroma'`:音阶轴。
  - `'off'`:关闭y轴标签。
- **`sr`**:采样率,默认值为22050 Hz。
- **`hop_length`**:帧移,默认值为512。
- **`fmin`**:最小频率,默认值为0 Hz。
- **`fmax`**:最大频率,默认值为`None`,表示采样率的一半(Nyquist频率)。
- **`bins_per_octave`**:每八度的二进制数量,默认值为12。
- **`key`**:键名,默认值为`'C:maj'`。
- **`ax`**:`matplotlib`的轴对象,默认值为`None`。如果提供,将在指定的轴上绘制图像。
- **`**kwargs`**:其他关键字参数,将传递给`matplotlib.pyplot.imshow`。

### 返回值
- 返回一个`matplotlib.image.AxesImage`对象,表示绘制的图像。

### 示例代码
以下是一个完整的示例,展示如何使用`librosa.display.specshow`绘制Mel频谱图:

```python
import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np

# 加载音频文件
y, sr = librosa.load('example.wav', sr=16000)

# 计算Mel频谱
mel = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)
log_mel = librosa.power_to_db(mel, ref=np.max)

# 绘制Mel频谱图
plt.figure(figsize=(10, 4))
librosa.display.specshow(log_mel, sr=sr, x_axis='time', y_axis='mel')
plt.colorbar(label='Log Mel Spectrogram (dB)')
plt.xlabel('Time')
plt.ylabel('Mel Frequency')
plt.title('Mel Spectrogram')
plt.tight_layout()
plt.show()
```

### 详细解释

1. **加载音频文件**
   ```python
   y, sr = librosa.load('example.wav', sr=16000)
   ```
   - 使用`librosa.load`加载音频文件,`sr`表示采样率。

2. **计算Mel频谱**
   ```python
   mel = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)
   log_mel = librosa.power_to_db(mel, ref=np.max)
   ```
   - 使用`librosa.feature.melspectrogram`计算Mel频谱。
   - 使用`librosa.power_to_db`将Mel频谱转换为对数尺度。

3. **绘制频谱图**
   ```python
   plt.figure(figsize=(10, 4))
   librosa.display.specshow(log_mel, sr=sr, x_axis='time', y_axis='mel')
   ```
   - 创建一个`matplotlib`图形。
   - 使用`librosa.display.specshow`绘制频谱图。`x_axis='time'`表示x轴为时间轴,`y_axis='mel'`表示y轴为Mel频率轴。

4. **添加颜色条和标签**
   ```python
   plt.colorbar(label='Log Mel Spectrogram (dB)')
   plt.xlabel('Time')
   plt.ylabel('Mel Frequency')
   plt.title('Mel Spectrogram')
   ```
   - 添加颜色条,表示频谱的对数幅度。
   - 设置x轴和y轴的标签。
   - 设置图形的标题。

5. **调整布局并显示**
   ```python
   plt.tight_layout()
   plt.show()
   ```
   - 使用`plt.tight_layout()`调整布局,避免标签和颜色条的重叠。
   - 使用`plt.show()`显示图形。

### 保存图像
如果需要将图像保存到文件中,可以使用`plt.savefig`:
```python
plt.savefig('mel_spectrogram.png')
plt.close()
```

### 总结
`librosa.display.specshow` 是一个非常强大的工具,用于绘制音频信号的各种频谱图。它不仅能够自动处理轴标签和刻度,还能通过参数灵活配置。通过结合`matplotlib`的功能,可以生成高质量的频谱图,适用于数据分析和可视化。

错误的代码,注释部分,   第一个参数需要的是  librosa.load 读取后的二维数组
而不是 经过处理后的数据,频谱数据

# 生成Mel频谱
mel = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=Config.n_mels,n_fft=2048, hop_length=512, power=2
)
log_mel = librosa.power_to_db(mel, ref=np.max)

def save_mel_as_image(filepath, output_dir, denoise=False):mel = audio_to_mel(filepath, denoise)"""将梅尔频谱图保存为PNG图片"""plt.figure(figsize=(10, 4))# librosa提供的功能来自动处理对数转换和轴标签# 这里不需要 ,第一个参数是原始数据,# librosa.display.specshow(mel, sr=Config.sr, x_axis='time', y_axis='mel')plt.colorbar(format='%+2.0f dB')plt.tight_layout()plt.savefig(output_dir)plt.close()

`librosa.feature.melspectrogram` 是一个用于计算Mel频谱图的函数。Mel频谱图是一种将音频信号的频谱表示在Mel频率尺度上的方法,广泛应用于音频处理和机器学习任务中。Mel频率尺度是一种非线性频率尺度,更接近人类听觉系统的感知特性。

### 函数签名
```python
librosa.feature.melspectrogram(
    y=None,
    sr=22050,
    S=None,
    n_fft=2048,
    hop_length=512,
    win_length=None,
    window='hann',
    center=True,
    pad_mode='constant',
    power=2.0,
    n_mels=128,
    fmin=0.0,
    fmax=None,
    htk=False,
    norm='slaney',
    dtype=np.float32
)
```

### 参数说明

#### 输入参数
- **`y`**:音频时间序列。如果提供了`S`,则`y`可以为`None`。
- **`sr`**:采样率,默认值为22050 Hz。
- **`S`**:频谱图(STFT)。如果提供了`S`,则`y`可以为`None`。`S`应该是通过`librosa.stft`计算得到的频谱图。
- **`n_fft`**:FFT窗口大小,默认值为2048。
- **`hop_length`**:帧移,默认值为512。
- **`win_length`**:窗口长度,默认值为`n_fft`。
- **`window`**:窗口函数,默认值为`'hann'`。
- **`center`**:是否将音频时间序列居中,默认值为`True`。
- **`pad_mode`**:填充模式,默认值为`'constant'`。
- **`power`**:功率,默认值为2.0。表示频谱图的功率,通常为2(能量谱)或1(幅度谱)。

#### Mel滤波器参数
- **`n_mels`**:Mel频带的数量,默认值为128。
- **`fmin`**:最小频率,默认值为0.0 Hz。
- **`fmax`**:最大频率,默认值为`None`,表示采样率的一半(Nyquist频率)。
- **`htk`**:是否使用HTK算法计算Mel滤波器,默认值为`False`。
- **`norm`**:归一化方式,默认值为`'slaney'`。可以设置为`None`或`'slaney'`。
- **`dtype`**:数据类型,默认值为`np.float32`。

### 返回值
- 返回一个二维数组,表示Mel频谱图。其形状为`(n_mels, t)`,其中`t`是时间轴的长度。

### 示例代码
以下是一个完整的示例,展示如何使用`librosa.feature.melspectrogram`计算Mel频谱图并绘制:

```python
import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np

# 加载音频文件
y, sr = librosa.load('example.wav', sr=16000)

# 计算Mel频谱图
mel = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)

# 将Mel频谱图转换为对数尺度
log_mel = librosa.power_to_db(mel, ref=np.max)

# 绘制Mel频谱图
plt.figure(figsize=(10, 4))
librosa.display.specshow(log_mel, sr=sr, x_axis='time', y_axis='mel')
plt.colorbar(label='Log Mel Spectrogram (dB)')
plt.xlabel('Time')
plt.ylabel('Mel Frequency')
plt.title('Mel Spectrogram')
plt.tight_layout()
plt.show()
```

### 详细解释

1. **加载音频文件**
   ```python
   y, sr = librosa.load('example.wav', sr=16000)
   ```
   - 使用`librosa.load`加载音频文件,`sr`表示采样率。

2. **计算Mel频谱图**
   ```python
   mel = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)
   ```
   - 使用`librosa.feature.melspectrogram`计算Mel频谱图。`n_mels=128`表示生成128个Mel频带。

3. **转换为对数尺度**
   ```python
   log_mel = librosa.power_to_db(mel, ref=np.max)
   ```
   - 使用`librosa.power_to_db`将Mel频谱图转换为对数尺度。`ref=np.max`表示以频谱图的最大值为参考值。

4. **绘制频谱图**
   ```python
   plt.figure(figsize=(10, 4))
   librosa.display.specshow(log_mel, sr=sr, x_axis='time', y_axis='mel')
   ```
   - 创建一个`matplotlib`图形。
   - 使用`librosa.display.specshow`绘制频谱图。`x_axis='time'`表示x轴为时间轴,`y_axis='mel'`表示y轴为Mel频率轴。

5. **添加颜色条和标签**
   ```python
   plt.colorbar(label='Log Mel Spectrogram (dB)')
   plt.xlabel('Time')
   plt.ylabel('Mel Frequency')
   plt.title('Mel Spectrogram')
   ```
   - 添加颜色条,表示频谱的对数幅度。
   - 设置x轴和y轴的标签。
   - 设置图形的标题。

6. **调整布局并显示**
   ```python
   plt.tight_layout()
   plt.show()
   ```
   - 使用`plt.tight_layout()`调整布局,避免标签和颜色条的重叠。
   - 使用`plt.show()`显示图形。

### 保存图像
如果需要将图像保存到文件中,可以使用`plt.savefig`:
```python
plt.savefig('mel_spectrogram.png')
plt.close()
```

### 总结
`librosa.feature.melspectrogram` 是一个非常强大的函数,用于计算Mel频谱图。它通过Mel频率尺度将音频信号的频谱表示得更加符合人类听觉系统的感知特性。通过结合`librosa.power_to_db`和`librosa.display.specshow`,可以生成高质量的Mel频谱图,适用于音频分析和机器学习任务。

http://www.xdnf.cn/news/8391.html

相关文章:

  • 知道不知道
  • 【SpringBoot】从零开始全面解析Spring IocDI (一)
  • table表格鼠标圈选数据并复制且自带html结构
  • 基于Python+YOLO模型的手势识别系统
  • 使用 FFmpeg 将视频转换为高质量 GIF(保留原始尺寸和帧率)
  • ​从非洲掘金到全球逐鹿,传音用本地化战略重塑出海路径
  • C++11-(3)
  • Android内存调优学习总结(OOM与ANR)
  • ARFoundation系列讲解 - 77 音频可视化
  • Science Robotics|仿生章鱼机器人问世:流体智能分级操控,抓豆腐、测触感全自动
  • API自动化与持续集成核心实战知识点!
  • uniapp 嵌入鸿蒙原生组件 具体步骤
  • 封装WPF中列表控件的剪贴板操作(附源码)
  • 如何通过用户体验设计提升Shopify独立站的信任度
  • 云原生安全核心:云安全责任共担模型(Shared Responsibility Model)详解
  • 解锁C++编辑距离:文本相似度的度量密码
  • 界面组件DevExpress WPF中文教程:Grid - 行和卡片
  • 扫描电镜:打开微观世界的“超维相机“
  • [实战]用户系统-2-完善登录和校验以及VIP
  • Python打卡第34天
  • PETR- Position Embedding Transformation for Multi-View 3D Object Detection
  • leetcode 61. Rotate List和86. Partition List
  • 【心海资源】黄金首饰价格查询单页源码
  • 如何在 Windows 11 或 10 上通过 PowerShell 安装 Docker Desktop
  • Centos7和Centos8版本功能对比
  • 系统性能分析基本概念(2):性能模型
  • ​​Resin-3.1.12-01 安装教程:详细步骤与配置指南(Linux环境)
  • 【运维实战】nginx版本升级
  • 我的世界模组开发——水平方向的方块(3)
  • 5.22本日总结