互联网保险让助孕治疗变得更有保障
历年来,闪马智能不断完善‘AI+交通全布局,在智慧高速、城市交通等领域深入推进,在车路协同、智慧轨交等领域持续扩张
那么,从 AI 大规模落地的维度看,大模型与小模型哪一个更好?业界真的想好了吗?雷峰网1、「大」模型到来近年来,国内外的科技大厂在对外宣传 AI 研发实力的声音中,总有一个高频的词汇出现:大模型(Big Model)。面对新任务时,小模型可能需要几千个、几万个训练数据,而大模型需要只可能一个训练数据,甚至完全不需要训练数据。
因为不开放,各大厂对自家大模型的介绍也是停留在学术的各项指标上,这就形成了类似薛定谔的困局:你永远不知道盒子里有什么,也无法判断它的真假,一句话,什么都是他们说了算。雷峰网小工一人,凭借机智的创意,迅速解决了这个问题,实现了业界常吹说的一个大目标:降本增效。以谷歌2021年发布的视觉迁移模型 Big Transfer 为例,分别使用 1000 个类别的 128 万张图片和 18291 个类别的 3 亿张图片两个数据集进行训练,模型的精度能够从 77% 提升到 79%。总不能把空盒子卖给顾客,于是,他们就请了一个学自动化的博士后来设计分拣空香皂盒的方案。到去年 10 月,阿里达摩院发布「M6-10T」,参数量已经达到 10 万亿,是中国目前规模最大的 AI 大模型。
微软亚洲研究院前副院长、现澜舟科技创始人周明是这一赛道的追随者。获取算力的瓶颈已经不存在,唯一的拦路虎只是获取成本。这是我们在USENIX2021的文章,也是这个领域第一篇文章。
现在更高级模式的ML Model,他把sample的representation学得越来越好,造成的攻击表现可能没有那么好。这就是被叫做对抗生成网络的原因,他们的目标是相悖的。现在最高的值是80%,80%高于70%。第二个假设、第三个假设的前提是攻击者需要建立一堆影子模型和一堆攻击模型。
对抗样本更接近于对Model的攻击,成员推理攻击是隐私方面的攻击。我本地有一个Shadow Update Set,我要保证generator对Shadow Update Set里每一个sample都可以学出一个和它最像的。
那么通过GNN去query它的过程,能不能泄露图的信息。因为你的攻击可以变得更简单,并达到同样的效果。我给大家快速回顾一下他们的工作:我有一个Target Model,和一个Target数据集,假设本地攻击者有一个Shadow数据集,这个数据集和Target数据集来自于同分布的。有了分布以后,我就可以不停地从分布抽取图片出来。
所谓的成员推理攻击(Membership Inference),就是我想知道这一张图片是不是在原模型的训练集里。我给大家快速回顾一下GAN,GAN本身有两个神经网络构成,一个叫生成器、一个叫判别器。他们两个同时训练,互相训练,最后会达到一个convergence。你当然是没有原始数据信息的,因为如果有原始数据信息,只要轻松地做一个查表,攻击就可以完成。
通过这个自信的区别,就可以区分出一个图片是member还是非member。每个点可以是张图片也可以是社交网络里的人,每个点都有一个自己的feature vector。
去解决这个方案,我们需要用到在线学习方法。但不同情况下,组合起来就有8种不同的攻击。
今天的时间有限,我只能讲最后一个攻击,可能也最难的一个攻击,即Multi-sample Reconstruction。因为如果真的攻击一个顶级的互联网公司,它背后有大量的数据训练Model,它的数据集质量非常高,很难去要求一个攻击者有一个同样质量、甚至同分布的数据集,这个是很难的。虽然说工业界很强大的应用,但是Model Deploy的时候要小心,因为原来的边很容易被Attacker窃取。这个Attack是最简单的,而且需要的资源是最少的。这里Attack Model(攻击模型)也是一个机器学习模型。这个work便是Shokri et al.大约2017年做的,他们是第一个work。
唯一的区别是我现在有一些ground truth label可以给我做训练了,就是我可以用与Attack0一样的Feature,Attack Model可以训练一个分类器来做攻击,两个点之间有没有连接。如果我们轻量级的成员推理攻击也可以成功且表现得和原来差不多,那就证明了Attack可以通过很简单的方法进行攻击,而这就造成这个Attack对现实生活中的ML Model的威胁会相应地变大。
有了图片以后,再做一些简单的后期处理,比如聚类,我就会得到这个重构的数据集。甚至在如自监督学习、图神经网络、神经网络架构搜索等方面也做得比较好。
我们的CBM-GAN是把Probing Set在Target Model上两个版本的Posterior Difference放到Encoder去,也把它变成128维做成Latent-vector,加上原来GAN的Latent-vector 128维,合起来256维一起作为generate的input,相当于Model两个update版本的Posterior Difference和generator已经产生了联系。如果要学出一个分布,你脑中想到第一个模型想必是对抗生成网络(GAN),GAN就是一个学分布的模型。
如果我们的阈值再调得好一点,三个Attack会表现差不多。我把这个全图信息放进去训练一个Model,训练完以后,我的目标还是想知道这个蓝色点和红色点的label是什么。你会发现多种情况下,两个图里颜色越深表现越好。这个work里边有三个假设:第一个是攻击者本地有个数据集和原来的Model数据集是来自于同分布,这个假设当然没有问题,但问题是这个假设比较强。
那我query这个Model的时候,我只需要把这个蓝色点或者红色点的ID给这个Model就可以。而这个generator本身学了很好的分布性质,实际上就是学出真正的训练数据集的分布,这是普通的GAN。
通过2个Posterior判断这两个点是不是链在一起的,这就是链路窃取攻击。那我把这个图片送到Model里去,Target Model产生了output,我把output放入攻击模型里去,攻击模型就可以告诉我这是不是一个成员。
感谢所有的合作者(以上list不是完整的,有些还未更新),感谢他们对我的帮助,如果没有他们的贡献,我以上分享的工作都是不可能实现的。我们第三个Attack,不需要任何的Shadow Model,也不需要训练任何的Attack Model,你只需要把想确认的图片放入Target Model,在它最大的一维后验概率上设一个阈值,比如设成70%。
所以,所有的Shadow Models、一整套的流程、一系列的操作只是为了构建数据集去训练Attack Model。我们分析了这四个攻击方式之间的关系,发现了一些有意思的现象,并已经把相关code放上了GitHub。我首先会分享成员推理攻击,第二会分享数据重构攻击,第三个是分享链路窃取攻击。我们做了一个general的Attack Pipeline,就是我有一个Target Model,然后找一个 Probing Set去探测这个Model。
别的数据重构可能基于数学公式来做这个问题。你会发现我们学出的效果相当不错,而且这大约是两三年以前的工作。
所谓的Transductive Setting就是说我的训练过程中把整个图全部放进去了。现在做机器学习比以前要简单得多,你只需在网上下载一个你最爱的数据集,然后打开你喜欢用的库,选你最喜欢的模型,再把数据集拿到模型上训练。
结果左边是Attack Precision,右边是Attack Recall。那怎么去掉这个假设呢?我们的方法是在本地找一个完全不相关的数据集,甚至模态都不相关。