RetiZero
🔬 RetiZero
📋 标题
Enhancing Diagnostic Accuracy in Rare and Common Fundus Diseases with a Knowledge-Rich Vision-Language Model
📊 数据集
RetiZero 使用三个主要数据源:
1️⃣ 公开数据集
- 包含类别信息的公开可用数据集
2️⃣ 眼科文献数据
- 来自眼科文献的疾病相关关键词描述
3️⃣ 在线资源
- 来自在线资源的图像-文本配对数据
🛠️ 方法
RetiZero 独特地整合了基于 MAE 的骨干网络与 CLIP 风格的对比框架,并采用基于不确定性的特征校准,以实现在超过 400 种眼底疾病类别中的稳健图像-文本对齐。
🔧 三种核心技术
🎯 MAE 预训练
- 使用 Masked Autoencoder 进行预训练
🔄 CLIP 微调
- 采用低秩方法进行 CLIP 模型微调
⚖️ 不确定度校正
- 基于不确定性的特征校准技术
📈 结果
🎯 零样本学习
- 针对罕见疾病的零样本诊断能力
🔍 图像检索
- 针对罕见疾病的图像检索性能提升