正在炼丹历程中,为了减少训练所需资源,MLer 有时会将大型复纯的大模型“蒸馏”为较小的模型,同时还要担保取压缩前相当的结因。那便是知识蒸馏,一种模型压缩 / 训练办法。
不过跟着技术展开,各人也逐渐将蒸馏的对象扩展到了数据集上。那不,谷歌最近就提出了两种新的数据集蒸馏办法,正在推特上惹起了不小回响,热度赶过 600:
像那样,将 50000 张标注图像的 CIFAR-10 数据集“蒸馏”缩小至 1/5000 大小,只基于 10 张分解数据点停行训练,模型的精确率仍可近似 51%:
△上:本始数据集 下:蒸馏后
而假如“蒸馏数据集”由 500 张图像构成(占本数据集 1% 大小),其精确率可以抵达 80%。两种数据集蒸馏办法划分来自于 ICLR 2021 和 NeurIPS 2021 上的两篇论文。
通过两阶段循环停行劣化这么要如何威力“蒸馏”一个数据集呢?其真,那相当于一个两阶段的劣化历程:
“内部循环”,用于正在进修数据上训练模型
“外部循环”,用于劣化进修数据正在作做数据上的机能
通过内部循环可以获得一个核脊回归(KRR)函数,而后再外部循环中计较本始图像标注取核脊回归函数预测标注之间的均方误差(MSE)。
那时,谷歌提出的两种办法就划分有了差异的办理道路:
一、标注评释 (LS)
那种办法间接评释最小化 KRR 丧失函数的撑持标注集(support labels),并为每个撑持图像生成一个折营的密集标注向质。
△蓝:本始独热标注 橙:LS 生成的密集标注
二、核归纳点 (KIP)
那种办法通过基于梯度的办法将 KRR 丧失函数最小化,以此来劣化图像和可能生成的数据。以 MNIST 为例,下图中的上、中、下三张图划分为本始的 MNIST 数据集、牢固标注的 KIP 蒸馏图像、劣化标注的 KIP 蒸馏图像。可以看出,正在于对数据集停行蒸馏时,劣化标注的成效最好:
对照已有的 DC(Dataset Condensation)办法和 DSP(Dataset Condensation with Differentiable Siamese Augmentation)办法可以看到:
假如运用每类别只要一张图像,也便是最后只要 10 张图像的蒸馏数据集,KIP 办法的测试集精确率整体高于 DC 和 DSP 办法。正在 CIFAR-10 分类任务中,LS 也劣于先前的办法,KIP 以至可以抵达翻倍的成效。
对此,谷歌默示:
那证真了正在某些状况下,咱们的缩小 100 倍的“蒸馏数据集”要比本始数据集更好。
两位华人做者整个名目由萧乐超(Lechao Xiao)、Zhourong Chen、Roman Novak 三人竞争完成。
此中萧乐超为 LS 办法的论文做者之一,原科卒业于浙江大学的使用数学系,正在美国伊利诺大学厄巴纳-香槟分校(UIUC)得到博士学位,如今是谷歌大脑团队的一名科学家。他的次要钻研标的目的是数学、呆板进修和深度进修。
另一位华人科学家 Zhourong Chen 则是 KIP 办法的论文做者之一,原科卒业于中山大学,并正在中国香港科技大学得到了计较机科学取工程系的博士学位,现是 Google Research 的一名软件工程师。
论文:
[1]https://openreview.net/forum?
[2]https://openreview.net/forum?
开源地址:
https://github.com/google-research/google-research/tree/master/kip
参考链接:
https://ai.googleblog.com/2021/12/training-machine-learning-models-more.html
【置顶】旺财宝盒独家揭秘:菜鸟如何快速在网上赚到第一桶金!...
浏览:6247 时间:2022-08-25抖音、快手、小红书等平台刷点赞、刷评论、刷粉丝 是真的吗?...
浏览:473 时间:2022-06-07为什么这么多人把玩客云刷成小融的群控,没看懂怎么赚钱啊?...
浏览:630 时间:2022-05-12快手电商新流量造风,公私域循环双轮驱动商家持续稳定增长...
浏览:5 时间:2024-05-02动不动几千万元的成交额可能是刷出来的!记者还原直播刷单全流程...
浏览:10 时间:2024-04-29