信息学院石野课题组在神经网络优化层微分上取得重要进展

ON2023-03-16CATEGORY科研进展

深度学习技术的不断进步使得神经网络各种机器学习任务中被广泛采用,取得了极大的成功。然而,神经网络模型通常包含大量的参数,容易受到对抗攻击或过拟合等的影响。数学上的优化问题在一定约束条件下求解一个目标函数的最大值(或最小值)现实世界物理信息和人类知识适合建模为包含目标函数和约束条件的优化问题因此将优化问题入神经网络有利深刻理解神经网络的输出和内部运行机制,能够调整神经网络的归纳偏差,增强神经网络的鲁棒性和可解释性

近日,信息学院视觉与数据智能中心(VDI)石野课题组针对神经网络优化层,提出将优化问题解耦后进行交替微分,大幅提升优化层梯度计算效率,相关研究成果以“Alternating Differentiation for Optimization Layers”为题,被人工智能知名国际会议ICLR 2023接收录用基于此,石野课题组研发并开源了神经网络底层训练求解器Alt-Diff这是继卡耐基梅隆大学OptNet和斯坦福大学CvxpyLayer之后的第三款神经网络优化层微分求解器Alt-Diff在大规模问题中具有显著的计算效率优势。


1 面向神经网络优化层的Alt-Diff示意图


Alt-Diff求解器采用交替方向乘子法的思路,将目标函数与约束条件解耦后进行交替微分,计算出前向传播的解的同时计算反向传播的网络梯度,这一计算过程大大降低了雅可比矩阵的维度,显著提高了隐式微分的计算速度。此外,Alt-Diff可以随时被所设定的阈值截断,本研究对此进行了理论证明,结论显示,适当的截断不会对最终计算的精度造成影响。

威尼斯wns8885556是该成果的第一完成单位,信息学院石野助理教授为论文的通讯作者 2021级研究生孙海翔为论文的第一作者论文合作者还包括信息学院汪婧雅助理教授、悉尼科技大学Tuan D. Hoang教授、普林斯顿大学H. Vincent Poor教授(IEEE Life Fellow)以及京东探索研究院Dacheng Tao教授(IEEE Fellow)。

论文链接:https://openreview.net/forum?id=KKBMz-EL4tD