当前位置：首页 > news >正文

《Password Guessing Using Large Language Models》——论文阅读

news 2025/8/26 9:33:30

1.研究背景

LLM在文本生成和理解方面表现出色，但直接用于密码猜测存在以下问题：

密码与自然语言的差异（短、无语法、需精确匹配）
生成效率低、重复率高
伦理限制（如GPT-4拒绝生成大量密码）

2.本文研究

提出PASSLLM框架，它通过“少量高效微调 + 专用生成算法 + 知识蒸馏”三步走策略。

将LoRA（低秩适应）微调技术引入LLM密码猜测，构建通用框架，支持trawling（广撒网）和三种targeted（精准）攻击场景（基于个人信息，密码重用，结合PII和密码重用）。
同时为trawling场景设计两阶段BFS算法，支持大规模并行生成。为targeted场景设计动态beam search算法，提高生成效率。
将知识蒸馏技术用于LLM密码猜测，压缩模型参数，在不损耗性能的情况下，提升推理速度。

3.相关知识

LoRA（低秩适应）：是一种“只改一点点，就能让大模型学会新任务”的参数高效微调技术，其核心思想为：冻结原模型，外挂“小补丁”——用极少量可训练参数，近似全参数微调的效果。

4.具体步骤

（1）数据处理与模型输入构建

数据格式：

每条训练数据是一个序列：seq_i = [INFO_i, pw_i]。
INFO_i：可用的辅助信息（如PII、姊妹密码）。pw_i：目标密码。

双词汇表设计：

辅助信息部分：使用LLM原有的词汇表（通常包含数万个token）进行编码，以保留其语言理解能力。
密码部分：使用一个自定义的字符级词汇表，仅包含95个可打印ASCII字符和一个EOS（End-of-Sequence） token，共96个符号。

（2）基于LoRA的高效模型微调

LoRA注入：在Transformer的自注意力层中的Query, Key, Value投影矩阵上注入LoRA模块。

训练目标：标准的下一个token预测（自回归）。损失函数仅计算密码部分的交叉熵，而不计算辅助信息部分。

（3）针对不同场景的密码生成算法

①trawling场景的两阶段生成算法

前缀生成：使用一个优先队列（最大堆），从初始提示开始，基于累积概率广度优先地生成一系列互不为前缀的字符序列。

并行子字典生成：将第一阶段得到的前缀集合中的每一个前缀，与初始提示词组合，形成新的输入；对每个新输入，并行地使用带概率剪枝的BFS算法生成以该前缀开头的密码子字典；最后将所有子字典合并，按概率排序，得到最终的拖网密码字典。

优势：该设计将一个大任务分解为大量可并行执行的子任务，极大提高了生成效率，易于在消费级GPU上实现大规模密码生成。

②targeted场景的动态束搜索算法

动态束宽：允许在不同生成长度（深度）设置不同的束宽（beam width），更灵活地平衡资源。

EOS终止阈值：引入一个阈值 ε，只有当模型生成EOS token的概率大于 ε时，才认为该密码序列完成并被输出。

KV缓存共享：关键性能优化，辅助信息 INFO的KV缓存只需计算一次，然后在所有beam中共享。只需为不断增长的密码前缀维护KV缓存。

（4）模型蒸馏

教师模型：训练好的 7B参数 PAssLLM (Mistral)

学生模型：一个更小号的模型（如 0.5B参数的 Qwen2.5）

训练目标：学生模型的训练损失是两种损失的加权和，蒸馏损失（让学生模型的输出分布尽可能接近教师模型的输出分布）和任务损失（标准的交叉熵损失，让学生模型也能直接学习到正确的下一个字符）

http://www.xdnf.cn/news/1363447.html

相关文章：

离线可用的网络急救方案

JavaScript Intl.RelativeTimeFormat：自动生成 “3 分钟前” 的国际化工具

[React]Antd Select组件输入搜索时调用接口

基于RFM模型的客户群体大数据分析及用户聚类系统的设计与实现

【Flink】运行模式

文献阅读笔记：KalmanNet-融合神经网络和卡尔曼滤波的部分已知动力学状态估计

Zabbix Vs. Grafana

win11中系统的WSL安装Centos以及必要组件

nmcli命令详解

Docker：网络连接

SQL性能调优

2025年8月25日-8月31日(qtopengl+ue独立游戏）

告别“复制粘贴”式换肤：我用Adobe XD组件变体与CC库，构建多品牌设计系统架构

THM Bricks Heist靶机

新的 macOS 安装程序声称能够快速窃取数据，并在暗网上销售

文入门Ubuntu：从零到精通的Linux之旅

【ARM】MDK在debug模式下断点的类型

中介者模式及优化

使用EasyExcel根据模板导出文件

imx586手册和相机寄存器部分解读

【Springboot】依赖注入方式

Linux 离线安装lrzsz（rz、sz上传下载小插件）

IntelliJ IDEA 新手入门教程-Java、Web、Maven创建（带图解）

疯狂星期四文案网第49天运营日记

使用现代＜img＞元素实现完美图片效果（2025 深度实战版）

【图像处理基石】基于Real-ESRGAN的实时图像超分辨率技术实现

MongoDB vs MySQL：NoSQL 和 SQL 的核心区别与适用场景

Portswigger靶场之Visible error-based SQL injection通关秘籍

ADQ3系列USB 3.2接口版本数字化仪隆重登场

将本地jar包推到远程仓库