当前位置: 首页 > news >正文

字符串哈希专题

前言:处理字符串是蓝桥杯国赛经常会用到的,我们这里学习一下字符串哈希


下面是一个Python字符串哈希教程,内容涵盖了从基础概念到进阶应用,包括经典的滚动哈希(Rolling Hash),用于字符串匹配(如 Rabin-Karp 算法)和子串比较等常见场景。


📘 字符串哈希教程(Python 实现)

🔹 一、什么是字符串哈希?

字符串哈希是一种将一个字符串映射为一个整数的方法,常用于快速比较字符串是否相等。
如果两个字符串的哈希值相等,它们很可能是相等的(有哈希冲突的风险,但通常可以通过双哈希避免)。


🔹 二、基础哈希函数

我们使用如下公式将一个字符串 s 转换为哈希值(模拟多项式):

H ( s ) = s 0 ⋅ P 0 + s 1 ⋅ P 1 + s 2 ⋅ P 2 + … + s n − 1 ⋅ P n − 1 m o d M H(s) = s_0 \cdot P^0 + s_1 \cdot P^1 + s_2 \cdot P^2 + \ldots + s_{n-1} \cdot P^{n-1} \mod M H(s)=s0P0+s1P1+s2P2++sn1Pn1modM

  • P: 一个大于字母表大小的质数(如 31 或 131)
  • M: 一个大的模数(如 1 0 9 + 7 10^9 + 7 109+7
✅ 示例代码:
def string_hash(s, P=131, M=10**9 + 7):h = 0for ch in s:h = (h * P + ord(ch)) % Mreturn hprint(string_hash("hello"))
print(string_hash("hell"))

🔹 三、滚动哈希(Rolling Hash)

滚动哈希常用于子串比较,我们提前计算每个前缀的哈希值,使得任意子串的哈希值可以在 O(1) 时间获得。

✅ 构造哈希前缀数组和 P 的幂数组:
class RollingHash:def __init__(self, s, P=131, M=10**9 + 7):self.s = sself.P = Pself.M = Mn = len(s)self.hash = [0] * (n + 1)self.power = [1] * (n + 1)for i in range(n):self.hash[i + 1] = (self.hash[i] * P + ord(s[i])) % Mself.power[i + 1] = self.power[i] * P % M# 获取 s[l:r] 的哈希值(注意:左闭右开区间)def get_hash(self, l, r):return (self.hash[r] - self.hash[l] * self.power[r - l]) % self.M

这里有一个细节需要处理,就是我们的pow是我们的缩放比例

举个例子,s = “abc”
字符串的哈希值从头开始依次是
a
a * p + b
(a * p+b) * p + c

那么我们计算我们的bc的字符串哈希的值就需要我们用 (a * p+b) * p + c 减去 a * 缩放比例,这里的缩放比例为 p * p

✅ 使用示例:
rh = RollingHash("abracadabra")
print(rh.get_hash(0, 3))  # hash("abr")
print(rh.get_hash(7, 10)) # hash("abr")

当然不难,下面是一些循序渐进的实战题目,从入门到中等难度,帮助你巩固字符串哈希的概念和应用。


🧠 字符串哈希实战题目

🌱 入门题目

1. 比较两个子串是否相等(基础)

描述:给定一个字符串 s,和多个查询 (l1, r1, l2, r2),判断 s[l1:r1] == s[l2:r2] 吗?

输入

s = "abracadabra"
queries = [(0, 3, 7, 10), (0, 4, 4, 8)]

输出

True
False

提示:使用滚动哈希 + 子串哈希快速判断是否相等。


2. 找出字符串中所有长度为 k 的不同子串个数

描述:给定字符串 s 和整数 k,统计所有长度为 k唯一子串个数。

输入

s = "abcdabc"
k = 3

输出

5

子串:“abc”, “bcd”, “cda”, “dab”, “abc”(第二个 “abc” 忽略)


🌿 进阶题目

3. 最长公共子串(LCS)长度(字符串哈希 + 二分)

描述:给定两个字符串 s1s2,求它们的最长公共子串长度

思路提示:使用二分长度 + 哈希集合判断是否存在公共子串。


4. 是否存在重复的长度为 k 的子串(经典)

描述:给定字符串 s 和整数 k,判断是否存在两个不同位置的长度为 k 的重复子串。

例子

s = "banana", k = 2
输出: True ("an" 出现了两次)

5. 字符串循环等价判定(哈希版)

描述:给定两个字符串 s1s2,判断 s2 是否为 s1 的循环变换(例如 "abc" 的变换包括 "bca""cab")。

技巧提示:判断 s2 是否为 s1 + s1 的子串。


🚀 挑战题目

6. 最长回文子串长度(哈希 + 二分)

描述:求一个字符串中最长回文子串的长度(可以用 Manacher 或哈希 + 二分实现)。


http://www.xdnf.cn/news/290287.html

相关文章:

  • 架构进阶:什么是数据架构,如何理解数据架构?(华为)
  • 从0开始学习大模型--Day01--大模型是什么
  • 什么是开放数据湖(Open Data Lake)?
  • 十大排序算法全面解析(Java实现)及优化策略
  • Kotlin 作用域函数全解析:let、run、with、apply、also 应该怎么选?
  • C++演讲比赛案例代码
  • [人机交互]理解与概念化交互
  • 小工具功能强大,非常优秀!​
  • 「Mac畅玩AIGC与多模态20」开发篇16 - 使用结构化输出字段控制后续流程示例
  • 基于STM32F103C8T6驱动WS2812彩灯模块点亮RGB灯
  • 布隆过滤器
  • Qt学习笔记
  • SVD降维详解
  • 领略算法真谛: 多源bfs
  • 设一个测试情境,新用户注册后显示的名字不完整,测试思路是怎么样的?
  • 项目实战-基于信号处理与SVM机器学习的声音情感识别系统
  • 【Bootstrap V4系列】学习入门教程之 组件-按钮组(Button group)
  • MAC地址与帧结构
  • ICLR2024 | GNS-HFA | 通过梯度归一化缩放和高频适应增强视觉Transformer的可迁移对抗攻击
  • WMS仓库管理系统:Java+Vue,含源码及文档,集成仓储全流程管控,实现库存精准、作业高效、数据透明
  • Visual Studio 项目转Qt项目
  • 用网页显示工控仪表
  • Barrett Reduction算法优化:更紧的界限消除冗余的减法
  • 迅睿CMS导入别站数据库
  • 【瞎折腾/mi50 32G/ubuntu】mi50显卡ubuntu运行大模型开坑(二)使用llama.cpp部署Qwen3系列
  • 卡尔曼滤波详解
  • 从Excel到高级工具:数据分析进阶指南
  • # 部署深度学习模型:Flask API 服务端与客户端通信实战
  • Linux进程间的通信
  • Node.js 是什么?