谷歌提出model soup,将ImageNet准确度刷新到新高度:90.94%!
点蓝色字关注“机器学习算法工程师”
设为星标,干货直达!
近日,谷歌等研究机构在论文Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time提出了一种提升模型准确度的简单方法model soups:用不同的超参数来对预训练模型进行finetune得到多个模型权重然后求平均。他们将model soups方法应用JFT-3B预训练的ViTG/14模型,在ImageNet1K数据集上达到了SOTA:90.94% top-1 acc,超过之前的CoAtNet-7(90.88%)。
目前无论是图像还是文本任务,大家往往会采用pretrain+finetune的范式来迁移到其它任务上,比如我们一般会采用ImageNet1K数据集上预训练的ResNet在其它图像分类任务上进行微调,具体的做法是:选择不同的超参数来finetune模型,然后选择在验证集上效果最好的模型。而论文提出的model soups方法是对这些不同超参数finetune后的模型的权重进行平均来获取最后的模型。假定
那么既然对两个模型权重求平均有效,那是不是可以对多个权重求平均,这就是model soups了。论文基于CLIP ViT-B/32和ALIGN EfficientNet-L2两个模型分别进行实验,其中CLIP模型采用不同的学习速率,weight decay,训练时长,label smoothing和数据增强共产生72个finetune后的模型;而ALIGN模型采用不同的学习速率,数据增强和mixup产生12个模型。对于greedy soup,通过贪心算法只选择5个模型。下图为model soup和原始预训练以及单个最好模型的对比图,可以看到greedy soup可以比单个最好模型提升0.7和0.5。论文还研究了不同模型数量下greedy soup和其它方法的结果对比,可以看到在域内测试上效果虽然不如模型集成,但是要超过单个模型和uniform soup,而在域外测试上greedy soup效果最好。这其实也说明greedy soup相比单个最好模型达到相同的效果所需要训练的模型量要少。如果将greedy soup应用在JFT-3B预训练的ViT-G/14模型上,可以将ImageNet1K上的top1-acc由原来的90.47提升至90.94。model soup不仅在图像分类任务上有效,同样可以应用在文本分类上,基于BERT和T5模型进行实验,均可以带来一定的性能提升:除此之外,论文还理论分析了model soups和model ensembles之间的关联,感兴趣的可以看论文中具体分析。
虽然model soups看起来很有效,但是论文也指出来它的局限性,首先论文的实验模型都是基于大规模数据集上的预训练模型,论文实验了ImageNet-22k数据集上预训练模型,发现虽然有提升,但是没有CLIP和ALIGN那么明显。而且模型集成可以提升模型校准,但是model soups没有这种效果。虽然model soups这种方法看起来非常简单,但却比较实用,因为它不像模型集成那样额外增加计算量。对于model soups另外一个点是,虽然我们需要采用不同超参数来产生尽量差异化的模型来进行平均,但是如果两个模型偏离很大,即论文中所说的error barrier(采用较高的学习速率),那么可能就起不到较好的效果,这也就是为什么greedy soup效果会更好的原因,毕竟它可以剔除这种情况。
相关阅读
-
世界热推荐:今晚7:00直播丨下一个突破...
今晚19:00,Cocos视频号直播马上点击【预约】啦↓↓↓在运营了三年... -
NFT周刊|Magic Eden宣布支持Polygon网...
Block-986在NFT这样的市场,每周都会有相当多项目起起伏伏。在过去... -
环球今亮点!头条观察 | DeFi的兴衰与...
在比特币得到机构关注之后,许多财务专家预测世界将因为加密货币的... -
重新审视合作,体育Crypto的可靠关系才能双赢
Block-987即使在体育Crypto领域,人们的目光仍然集中在FTX上。随着... -
简讯:前端单元测试,更进一步
前端测试@2022如果从2014年Jest的第一个版本发布开始计算,前端开发... -
焦点热讯:刘强东这波操作秀
近日,刘强东发布京东全员信,信中提到:自2023年1月1日起,逐步为...