2025年6月数据挖掘顶刊TKDE研究热点有哪些?
本推文对2025年6月出版的数据挖掘领域国际顶级期刊《IEEE Transactions on Knowledge and Data Engineering》进行了分析,对收录的53篇论文的关键词与研究主题进行了汇总,并对其中的研究热点进行了深入分析,希望能为相关领域的研究人员提供有价值的参考。
推文作者为邓镝,审校为韩煦。
一、期刊介绍
IEEE Transactions on Knowledge and Data Engineering(简称TKDE)是由IEEE Computer Society出版的一份专注于知识与数据工程领域的学术期刊,每年共出版12期,被归为中科院二区期刊,目前的影响因子为8.9。如图1所示,TKDE的最新年度发文量约为905篇,显著上升,显示了该期刊的活跃度和对高质量研究的持续需求。
图1近年来TKDE发文量
TKDE的收稿范围包括但不限于基于知识和专家系统的知识与数据工程、与知识和数据管理相关的人工智能技术、知识与数据工程工具和技术、分布式知识库和数据库处理、实时知识库和数据库、基于知识和数据的系统结构、数据管理方法、数据库设计与建模、查询、设计与实现语言、完整性、安全性与容错性、分布式数据库控制、统计数据库、系统的集成与建模、算法及其性能评估、数据通信以及这些系统的应用。
期刊官网:https://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=69
二、热点分析
本文对该期所收录的53篇论文进行了系统归纳。图2为基于本期论文研究热点生成的词云图,表1则总结了全部论文的标题、关键词以及研究主题,旨在为数据挖掘等相关领域的研究人员提供研究方向上的参考。
图2 2025年6月TKDE研究热点词云图
表1 2025年6月TKDE论文合集
标题 | 关键词 | 研究主题 |
#REval: A Semantic Evaluation Framework for Hashtag Recommendation | 语义评估,标签推荐,标签表示,标签嵌入,同义词词典,同义词 | 该论文提出了#REval,一种针对Twitter标签推荐的语义评价框架。 |
CHASe: Client Heterogeneity-Aware Data Selection for Effective Federated Active Learning | 联邦学习,数据选择,主动学习 | 该论文提出了CHASe,一种考虑客户端数据异质性的联邦主动学习数据选择方法。 |
FINAL: Combining First-Order Logic With Natural Logic for Question Answering | 自然逻辑,一阶逻辑,文本推理,问答 | 该论文提出了FINAL,一个结合一阶逻辑与自然逻辑推理的神经符号问答框架。 |
A Flexible Diffusion Convolution for Graph Neural Networks | 扩散卷积,图神经网络,标签平滑 | 论文提出了Flexi-DC(弹性扩散卷积),一种灵活的图神经网络卷积操作。 |
A Survey of Imbalanced Learning on Graphs: Problems, Techniques, and Future Directions | 类别不平衡,图表示学习, 图上不平衡学习,结构不平衡 | 该综述论文系统回顾了图数据中类别不平衡学习的问题与对策,建立了问题分类和技术分类两大框架。 |
A Survey on Point-of-Interest Recommendation: Models, Architectures, and Security | 兴趣点推荐,推荐系统,大型语言模型,联邦学习 | 综述全面梳理了地点兴趣点推荐系统的研究进展,从模型、架构和安全性三个维度总结现状。 |
Acceleration Algorithms in GNNs: A Survey | 图神经网络,可扩展性,加速算法,图学习库 | 该综述系统回顾了图神经网络(GNN)的加速算法,涵盖训练加速(如图采样、GNN简化)、推理加速(如知识蒸馏、量化、剪枝)和执行加速(如二值化、图压缩)三个方面。 |
Adaptive Graph Convolution Neural Differential Equation for Spatio-Temporal Time Series Prediction | 多元时间序列,动态系统,时空融合,图结构学习 | 提出了AGC-NDE模型,用于时空多元时间序列预测。 |
Causal-TSF: A Causal Intervention Approach to Mitigate Confounding Bias in Time Series Forecasting | 因果干预,分布漂移,时间序列分析 | 该论文提出了Causal-TSF框架,通过因果干预来减少时间序列预测中的隐藏混杂因素引入的偏差。 |
CogLign: Interpretable Text Sentiment Determination by Aligning Cognition Between EEG-Derived Brain Graph and Text-Derived Knowledge Graph | 脑电图,图挖掘,可解释性,文本情感分析 | 该论文提出了CogLign方法,通过将脑电图-derived脑网络与文本-derived知识图对齐来解释文本情感。 |
Complementary Learning Subnetworks Towards Parameter-Efficient Class-Incremental Learning | 非平稳数据,流式数据建模,类别增量学习,互补学习系统 | 提出了一个互补学习子网络框架,旨在提升类别增量学习的参数效率并缓解灾难性遗忘。 |
Computing Shapley Values for Dynamic Data | 数据评估,动态数据集,沙普利值,近似算法 | 该论文研究了动态环境下的Shapley值计算问题,即在数据点增删时如何高效更新Shapley值。 |
Correlating Time Series With Interpretable Convolutional Kernels | 时间序列,机器学习,圆周卷积,稀疏回归,子空间追踪,张量计算,卷积核 | 提出了一种可解释的卷积核学习方法来关联时间序列数据。 |
Distill & Contrast: A New Graph Self-Supervised Method With Approximating Nature Data Relationships | 图自监督学习,图对比学习,图表示学习 | 提出了Distill & Contrast(D&C)方法,一种结合知识蒸馏和对比学习的图自监督学习框架。 |
DRLPG: Reinforced Opponent-Aware Order Pricing for Hub Mobility Services | 订单定价,网约车,强化学习,分位学习 | 该论文针对“枢纽式”出行模式下的对手感知订单定价问题提出了DRLPG模型。 |
Dual Test-Time Training for Out-of-Distribution Recommender System | 分布外,推荐系统,测试时训练,用户/物品特征漂移 | 提出了DT3OR框架,一种针对分布外推荐问题的双重测试时训练策略。 |
Dual-Channel Multiplex Graph Neural Networks for Recommendation | 推荐系统,图表示学习,多重图神经网络,行为模式,关系链 | 提出了DCMGNN,一种双通道多重图神经网络架构,用于多行为推荐任务。 |
Efficient Algorithms for Minimizing the Kirchhoff Index via Adding Edges | 电阻距离,柯霍夫指数,图算法 | 论文研究了通过添加边来最小化图的柯霍夫指数的问题。 |
Elevating Knowledge-Enhanced Entity and Relationship Understanding for Sarcasm Detection | 讽刺检测,外部知识,图卷积网络,常识知识,知识图谱 | 提出了KSDGCN框架,用于将外部知识融入讽刺检测任务。 |
Enhancing Security and Privacy in Federated Learning Using Low-Dimensional Update Representation and Proximity-Based Defense | 联邦学习,拜占庭鲁棒性,隐私保护,安全多方计算,分布式学习 | 提出了FLURP框架,通过利用模型更新的低维表示来增强联邦学习系统的安全性和隐私。 |
Fast Counting and Utilizing Induced 6-Cycles in Bipartite Networks | 二分图,环,诱导,模体 | 论文研究了在大规模二分网络中诱导6-循环(一种由两端各3个节点构成的环路)的快速计数与应用问题。 |
FlexIM: Efficient and Verifiable Index Management in Blockchain | 区块链查询,索引管理,动态工作负载,索引效益,验证 | 提出了FlexIM,一种针对动态区块链查询的高效可验证索引管理系统。 |
GPU-Accelerated Structural Diversity Search in Graphs | 结构多样性搜索,GPU加速图算法,工作负载平衡优化 | 通过GPU并行计算加速结构多样性搜索。 |
G-Thinkerq: A General Subgraph Querying System With a Unified Task-Based Programming Model | 查询,图,子图,并行,任务 | 提出统一任务模型的G-ThinkerQ系统,实现图中子图查询的并行处理。 |
Hard or False: Keep the Balance for Negative Sampling in Knowledge Graphs | 知识图谱嵌入,负样本采样,二元语言模型,困难负样本,错误负样本 | 提出基于二元语言模型的新准则,实现困难与错误负样本的平衡。 |
Knowledge-Centered Dual-Process Reasoning for Math Word Problems With Large Language Models | 知识推理,数学应用题,大型语言模型 | 提出KNOS框架通过知识调用与验证,实现LLM模型的可解释数学推理。 |
Learning Causal Representations Based on a GAE Embedded Autoencoder | 因果表示,因果发现,自编码器,迁移学习 | 提出GeAE结合图自编码和因果结构学习,实现跨域不变表示。 |
Learning Temporal Event Knowledge for Continual Social Event Classification | 社交事件分类、类别增量持续学习、时序知识 | 提出TEKNet方法通过时序知识学习,实现持续的社交事件分类。 |
LIOF: Make the Learned Index Learn Faster With Higher Accuracy | 学习型索引,索引构建,索引优化 | 提出LIOF框架,通过参数初始化优化加速并提高学习型索引构建效率。 |
Local Community Detection in Multi-Attributed Road-Social Networks | 多属性路网社交网络,多属性社区,局部社区检测,支配关系 | 提出LCDMRS算法,实现多属性路网社交网络中的局部社区检测。 |
LOFTune: A Low-Overhead and Flexible Approach for Spark SQL Configuration Tuning | Spark SQL,配置调优,多任务表征学习,多臂赌博机 | 提出LOFTune框架,通过多任务学习与多臂赌博机制降低Spark SQL配置调优开销。 |
Multiscale Temporal Dynamic Learning for Time Series Classification | 储备池计算,时间序列分类,基于模型的方法,多时间尺度 | 提出MsDL方法结合多尺度储备池和优化算法提升时间序列分类。 |
Multiscale Weisfeiler-Leman Directed Graph Neural Networks for Prerequisite-Link Prediction | 先修关系预测,多尺度结构,有向图神经网络,Weisfeiler-Leman测试 | 提出多尺度有向WL-GNN模型,提高先修关系预测中GNN的表达能力。 |
Next-POI Recommendation via Spatial-Temporal Knowledge Graph Contrastive Learning and Trajectory Prompt | 下一兴趣点推荐,时空知识图谱,预训练语言模型,对比学习 | 提出STKG-PLM模型结合对比学习与语言提示优化下一兴趣点推荐。 |
Nonconvex Low-Rank Tensor Representation for Multi-View Subspace Clustering With Insufficient Observed Samples | 多视图子空间聚类,数据采样不足,非凸低秩张量表示,变换张量核范数,收敛性分析 | 提出非凸低秩张量表示,用数据驱动变换核范数提升多视图聚类性能。 |
On Efficient Single-Source Personalized PageRank Computation in Online Social Networks | 在线社交网络,个性化PageRank,Rademacher均值,随机采样 | 提出PANDA算法使用Rademacher均值进行自适应采样加速个性化PageRank计算。 |
OpDiag: Unveiling Database Performance Anomalies Through Query Operator Attribution | 数据库性能,异常诊断,特征归因 | 提出OpDiag框架,用操作符归因定位数据库性能异常。 |
Pattern-Wise Transparent Sequential Recommendation | 推荐系统,序列推荐,可解释性,透明模型 | 提出PTSR框架以多层模式分解序列,实现可解释的推荐。 |
Pricing for Data Assets Based on Data Quality, Quantity and Utility on the Perspective of Consumer Heterogeneity | 数据/信息,评估/方法论,特征提取或构造,营销,金融,模型验证与分析,仿真输出分析,机器学习 | 构建考虑数据质量和数量的综合评分,通过非线性规划模型实现数据资产定价。 |
Provenance Graph Kernel | 核方法,数据溯源,图分类,溯源分析,可解释的机器学习 | 提出Provenance Kernel图核,通过溯源类型提高图分类效率和可解释性。 |
QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval | 密集检索,文本增强,信息抽取,大型语言模型,向量数据库 | 提出QAEA-DR通过生成QA对和事件文本增强长文信息,提高密集检索效果。 |
RayE-Sub: Countering Subgraph Degradation via Perfect Reconstruction | 子图学习,子图退化,消息传递神经网络,表达能力,谱理论 | 提出基于Rayleigh阻力的子图学习方法,有效避免子图退化。 |
SE-GNN: Seed Expanded-Aware Graph Neural Network With Iterative Optimization for Semi-Supervised Entity Alignment | 实体对齐,图神经网络,知识图谱 | 提出SE-GNN结合种子扩展与嵌入校正技术提升实体对齐效果。 |
SPIN: Sparse Portfolio Strategy With Irregular News in Fluctuating Markets | 投资组合管理,在线学习,深度学习,稀疏投资组合,自然语言处理 | 提出SPIN策略结合新闻驱动与稀疏群组正则实现动态投资组合优化。 |
Structured Graph-Based Ensemble Clustering | 聚类,集成学习,结构化图学习 | 提出基于结构化图学习的集成聚类方法,可直接从相似矩阵提取聚类指示。 |
Summary Graph Induced Invariant Learning for Generalizable Graph Learning | 摘要图,不变学习,可迁移图学习,图神经网络 | 提出SIL模型利用摘要图学习不变子图,实现可迁移图学习。 |
Topic Videolization: A Rumor Detection Method Inspired by Video Forgery Detection Technology | 主题视频化,谣言检测,视频伪造检测,主题表示,博弈论 | 提出TVRD方法将主题序列视频化,通过用户情绪变化检测谣言。 |
Towards Target Sequential Rules | 数据挖掘,规则发现,定向查询,目标序列规则 | 提出TaSRM算法针对用户关注规则进行目标式序列规则挖掘。 |
Uncertainty Calibration for Counterfactual Propensity Estimation in Recommendation | 点击后转化率、逆倾向评分、期望校准误差、不确定性校准 | 提出基于不确定性校准优化逆倾向评分,以提升点击后转化率预测的准确性。 |
User-Friendly and Expressive Forward-Secure Attribute-Based Signature With Server-Aided Signature and Outsourced Verification | 基于属性的签名、前向安全性、服务器辅助签名、外包验证、具有表达力的签名条件 | 提出一种高效可验证的前向安全属性签名方案,适用于资源受限的移动设备。 |
Valid Coverage Oriented Item Perspective Recommendation | 有效覆盖率、从物品角度、推荐系统 | 提出ItemRec方法,从物品角度提升推荐覆盖率与公平性。 |
Valuing Training Data via Causal Inference for In-Context Learning | 上下文学习、数据估值、因果推断、平均边际效应、弹性网络回归 | 提出基于因果推断的数据估值方法,提升大模型上下文学习效果与稳健性。 |
Zkfhed: A Verifiable and Scalable Blockchain-Enhanced Federated Learning System | 联邦学习、零知识证明、全同态加密、区块链 | 提出Zkfhed系统,用零知识证明与同态加密提升联邦学习的安全与可扩展性。 |
为进一步展示本期研究热点,本文还对出现频率前10名的关键词进行了整理,如表2所示。
表2 2025年6月TKED论文标题高频词整理
关键词 | 频次 |
graph | 16 |
learning | 11 |
recommendation | 7 |
data | 6 |
knowledge | 6 |
graph neural network | 4 |
neural network | 4 |
time serie | 4 |
temporal | 4 |
efficient | 4 |
基于词云图和关键词出现频次进行分析,出现频率最高的关键词包括“graph”(16次)、“learning”(11次)、“recommendation”(7次)、“data”(6次)、“graph neural network”(4次)、“time serie”(4次)、“temporal”(4次)、“efficient”(4次)等。这些高频词反映出图神经网络、机器学习与推荐系统等研究主题的突出地位。
结合53篇论文题目和研究主题分析,当前研究最热门的方向集中在:
(1)图计算与图神经网络:不少工作提出新的GNN架构或操作,如灵活扩散卷积(Flexi-DC),双通道多图卷积(Dual-Channel GNN for Recommendation)以及加速GNN训练的综述,这显示GNN方法仍是核心技术。研究的核心核心聚焦于提升GNN的效率和实用性。
(2)联邦学习:相关工作例如联邦主动学习数据选择(CHASe),以及可验证联邦学习系统(Zkfhed)等,都表明分布式学习框架和隐私保护技术在方法上受到重视。
(3)推荐系统:研究重点转向构建更鲁棒、公平、可解释的推荐系统,具体应用包括多行为推荐、地点兴趣点推荐、下一兴趣点预测等。
(4)时间序列分析与预测:研究主要集中在构建更精准的时序模型,同时也引入因果推理来减少预测偏差,提升鲁棒性和可解释性。
(5)因果推理:相关研究将因果分析和不确定性校准应用于模型优化,其目的在于增强AI模型的透明度、可信度和可靠性。
三、总结
本文对TKDE在6月出版的论文进行汇总,总结了当前的研究热点。高频关键词显示,图神经网络、机器学习、推荐系统、时间序列分析和因果推理是核心研究方向。具体热点包括:提升GNN效率与实用性的模型架构、联邦学习、推荐系统、时序预测,以及因果推理在模型优化中的应用。