互联网保险让助孕治疗变得更有保障

塘窦村村 2025-04-05 15:05:34 57627

历年来，闪马智能不断完善‘AI+交通全布局，在智慧高速、城市交通等领域深入推进，在车路协同、智慧轨交等领域持续扩张

那么，从 AI 大规模落地的维度看，大模型与小模型哪一个更好？业界真的想好了吗？雷峰网1、「大」模型到来近年来，国内外的科技大厂在对外宣传 AI 研发实力的声音中，总有一个高频的词汇出现：大模型（Big Model）。面对新任务时，小模型可能需要几千个、几万个训练数据，而大模型需要只可能一个训练数据，甚至完全不需要训练数据。

互联网保险让助孕治疗变得更有保障

因为不开放，各大厂对自家大模型的介绍也是停留在学术的各项指标上，这就形成了类似薛定谔的困局：你永远不知道盒子里有什么，也无法判断它的真假，一句话，什么都是他们说了算。雷峰网小工一人，凭借机智的创意，迅速解决了这个问题，实现了业界常吹说的一个大目标：降本增效。以谷歌2021年发布的视觉迁移模型 Big Transfer 为例，分别使用 1000 个类别的 128 万张图片和 18291 个类别的 3 亿张图片两个数据集进行训练，模型的精度能够从 77% 提升到 79%。总不能把空盒子卖给顾客，于是，他们就请了一个学自动化的博士后来设计分拣空香皂盒的方案。到去年 10 月，阿里达摩院发布「M6-10T」，参数量已经达到 10 万亿，是中国目前规模最大的 AI 大模型。

微软亚洲研究院前副院长、现澜舟科技创始人周明是这一赛道的追随者。获取算力的瓶颈已经不存在，唯一的拦路虎只是获取成本。这是我们在USENIX2021的文章，也是这个领域第一篇文章。

现在更高级模式的ML Model，他把sample的representation学得越来越好，造成的攻击表现可能没有那么好。这就是被叫做对抗生成网络的原因，他们的目标是相悖的。现在最高的值是80%，80%高于70%。第二个假设、第三个假设的前提是攻击者需要建立一堆影子模型和一堆攻击模型。

对抗样本更接近于对Model的攻击，成员推理攻击是隐私方面的攻击。我本地有一个Shadow Update Set，我要保证generator对Shadow Update Set里每一个sample都可以学出一个和它最像的。

互联网保险让助孕治疗变得更有保障

那么通过GNN去query它的过程，能不能泄露图的信息。因为你的攻击可以变得更简单，并达到同样的效果。我给大家快速回顾一下他们的工作：我有一个Target Model，和一个Target数据集，假设本地攻击者有一个Shadow数据集，这个数据集和Target数据集来自于同分布的。有了分布以后，我就可以不停地从分布抽取图片出来。

所谓的成员推理攻击（Membership Inference），就是我想知道这一张图片是不是在原模型的训练集里。我给大家快速回顾一下GAN，GAN本身有两个神经网络构成，一个叫生成器、一个叫判别器。他们两个同时训练，互相训练，最后会达到一个convergence。你当然是没有原始数据信息的，因为如果有原始数据信息，只要轻松地做一个查表，攻击就可以完成。

通过这个自信的区别，就可以区分出一个图片是member还是非member。每个点可以是张图片也可以是社交网络里的人，每个点都有一个自己的feature vector。

互联网保险让助孕治疗变得更有保障

去解决这个方案，我们需要用到在线学习方法。但不同情况下，组合起来就有8种不同的攻击。

今天的时间有限，我只能讲最后一个攻击，可能也最难的一个攻击，即Multi-sample Reconstruction。因为如果真的攻击一个顶级的互联网公司，它背后有大量的数据训练Model，它的数据集质量非常高，很难去要求一个攻击者有一个同样质量、甚至同分布的数据集，这个是很难的。虽然说工业界很强大的应用，但是Model Deploy的时候要小心，因为原来的边很容易被Attacker窃取。这个Attack是最简单的，而且需要的资源是最少的。这里Attack Model（攻击模型）也是一个机器学习模型。这个work便是Shokri et al.大约2017年做的，他们是第一个work。

唯一的区别是我现在有一些ground truth label可以给我做训练了，就是我可以用与Attack0一样的Feature，Attack Model可以训练一个分类器来做攻击，两个点之间有没有连接。如果我们轻量级的成员推理攻击也可以成功且表现得和原来差不多，那就证明了Attack可以通过很简单的方法进行攻击，而这就造成这个Attack对现实生活中的ML Model的威胁会相应地变大。

有了图片以后，再做一些简单的后期处理，比如聚类，我就会得到这个重构的数据集。甚至在如自监督学习、图神经网络、神经网络架构搜索等方面也做得比较好。

我们的CBM-GAN是把Probing Set在Target Model上两个版本的Posterior Difference放到Encoder去，也把它变成128维做成Latent-vector，加上原来GAN的Latent-vector 128维，合起来256维一起作为generate的input，相当于Model两个update版本的Posterior Difference和generator已经产生了联系。如果要学出一个分布，你脑中想到第一个模型想必是对抗生成网络（GAN），GAN就是一个学分布的模型。

如果我们的阈值再调得好一点，三个Attack会表现差不多。我把这个全图信息放进去训练一个Model，训练完以后，我的目标还是想知道这个蓝色点和红色点的label是什么。你会发现多种情况下，两个图里颜色越深表现越好。这个work里边有三个假设：第一个是攻击者本地有个数据集和原来的Model数据集是来自于同分布，这个假设当然没有问题，但问题是这个假设比较强。

那我query这个Model的时候，我只需要把这个蓝色点或者红色点的ID给这个Model就可以。而这个generator本身学了很好的分布性质，实际上就是学出真正的训练数据集的分布，这是普通的GAN。

通过2个Posterior判断这两个点是不是链在一起的，这就是链路窃取攻击。那我把这个图片送到Model里去，Target Model产生了output，我把output放入攻击模型里去，攻击模型就可以告诉我这是不是一个成员。

感谢所有的合作者（以上list不是完整的，有些还未更新），感谢他们对我的帮助，如果没有他们的贡献，我以上分享的工作都是不可能实现的。我们第三个Attack，不需要任何的Shadow Model，也不需要训练任何的Attack Model，你只需要把想确认的图片放入Target Model，在它最大的一维后验概率上设一个阈值，比如设成70%。

所以，所有的Shadow Models、一整套的流程、一系列的操作只是为了构建数据集去训练Attack Model。我们分析了这四个攻击方式之间的关系，发现了一些有意思的现象，并已经把相关code放上了GitHub。我首先会分享成员推理攻击，第二会分享数据重构攻击，第三个是分享链路窃取攻击。我们做了一个general的Attack Pipeline，就是我有一个Target Model，然后找一个 Probing Set去探测这个Model。

别的数据重构可能基于数学公式来做这个问题。你会发现我们学出的效果相当不错，而且这大约是两三年以前的工作。

所谓的Transductive Setting就是说我的训练过程中把整个图全部放进去了。现在做机器学习比以前要简单得多，你只需在网上下载一个你最爱的数据集，然后打开你喜欢用的库，选你最喜欢的模型，再把数据集拿到模型上训练。

结果左边是Attack Precision，右边是Attack Recall。那怎么去掉这个假设呢？我们的方法是在本地找一个完全不相关的数据集，甚至模态都不相关。

{dede:tag getall='0'}{/dede:tag}

中国经济增速“十二五”将放缓至9%

瞭望 | 国产电影崛起背后：文化祛魅与重建