$GAT 先明确核心结论:GAT(图注意力网络)是GNN的重要分支,核心是用注意力机制动态分配邻居权重,解决GCN等固定权重的局限,兼顾自适应、可并行与可解释,适合异质/动态图与节点分类等任务,但存在计算与过拟合风险。以下从原理、优劣势、应用与实践要点展开。
一、核心原理(一句话+流程)
- 一句话:节点学会“更关注哪些邻居”,用注意力权重加权聚合邻居信息,得到更精准的节点表示。
- 计算流程:
1. 线性变换:节点特征通过权重矩阵投影到新空间
2. 注意力计算:用自注意力算邻居间相关分数,经softmax归一化
3. 加权聚合:按注意力权重聚合邻居特征,加自环保留自身信息
4. 多头增强:中间层拼接多头输出扩展维度,输出层取均值提升稳定性
二、核心优势(对比GCN)
- 自适应加权:无需依赖图结构,数据驱动学权重,更贴合复杂关系。
- 高效并行:邻居权重可独立计算,不依赖全局邻接矩阵,适配大规模与动态图。
- 可解释性强:注意力权重可可视化,便于分析关键连接与决策依据。
- 归纳能力好:能处理训练时未见过的节点与结构,泛化性更优。
三、局限与风险
- 计算成本高:随邻居数增多而上升,处理超大规模图需采样优化。
- 过拟合风险:多头注意力参数多,易在小样本上学习到噪声模式。
- 边信息利用弱:原生GAT较少直接建模边特征,适配异质图需扩展(如HAN)。
-