评估预部署AI模型的可靠性

基础模型是由众多深度学习模型构成的,这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务,例如生成图像或解答客户咨询。...

基础模型是由众多深度学习模型构成的,这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务,例如生成图像或解答客户咨询。

然而,作为ChatGPT和DALL-E等强大人工智能工具的核心,这些模型有时可能会提供错误或误导性的信息。在一些安全至关重要的场景中,比如行人接近自动驾驶汽车时,这些错误可能会导致严重后果。

为了避免此类错误,麻省理工学院及其IBM沃森人工智能实验室的研究人员开发了一种技术,能够在将基础模型应用于特定任务之前评估其可靠性。

他们通过训练一组略有不同的基础模型来实现这一目标。接着,他们利用算法评估每个模型在相同测试数据点上的学习表示的一致性。如果表示一致,便意味着该模型是可靠的。

在与最先进的基线方法进行比较时,他们的技术在捕捉各种分类任务中基础模型的可靠性方面表现更佳。

这种技术可以帮助用户判断一个模型是否适合特定环境,而无需在现实世界的数据集上进行测试。这在某些情况下尤其有用,例如医疗保健环境中,由于隐私问题可能无法访问数据集。此外,该技术还可以根据可靠性分数对模型进行排序,帮助用户选择最适合其任务的模型。

“所有模型都有可能出错,但能够识别出何时出错的模型更具实用性。对于这些基础模型而言,量化不确定性或可靠性变得更加复杂,因为它们的抽象表示难以进行比较。我们的方法可以帮助量化模型在特定输入数据下的可靠性,”资深作者Navid Azizan表示,他是麻省理工学院机械工程系和数据、系统与社会研究所(IDSS)的助理教授,同时也是信息与决策系统实验室(LIDS)的成员。

他与第一作者Young-Jin Park(LIDS研究生)共同撰写了关于这项工作的论文,参与者还包括麻省理工学院-IBM沃森人工智能实验室的研究科学家王浩,以及Netflix的高级研究科学家谢尔文·阿德希尔。该论文将于人工智能不确定性会议上发表。

统计共识

传统的机器学习模型通常被训练来执行特定任务,通常会根据输入做出具体预测。例如,模型可能会判断某张图片中是猫还是狗。在这种情况下,评估可靠性可能仅需查看最终预测结果,判断模型是否正确。

然而,基础模型的工作方式有所不同。它们使用通用数据进行预训练,创建者并不清楚模型将应用于哪些具体下游任务。用户在训练完成后可以让模型适应自己的特定需求。

与传统机器学习模型不同,基础模型不会给出“猫”或“狗”这样的具体标签,而是基于输入数据生成抽象表示。

为了评估基础模型的可靠性,研究人员采用了一种集成方法,训练多个具有相似特征但略有不同的模型。

“我们的思路类似于计算共识。如果所有基础模型对数据集中的任何数据都给出一致的表示,那么我们可以认为该模型是可靠的,”Park表示。

但他们面临一个挑战:如何比较这些抽象表示?

他补充道:“这些模型输出的是一个由数字组成的向量,因此我们无法轻易比较它们。”

他们通过一种称为邻域一致性的概念来解决这个问题。

在他们的方法中,研究人员准备了一组可靠的参考点来测试模型集合。然后,他们对每个模型在其表示的测试点附近的参考点进行调查。

通过观察相邻点的一致性,他们能够估计模型的可靠性。

对齐表示

基础模型在所谓的表示空间中映射数据点。我们可以将这个空间视为一个球体。每个模型将相似的数据点映射到其球体的同一区域,因此猫的图像会集中在一个地方,而狗的图像则在另一个地方。

然而,每个模型在其领域内绘制的动物地图可能不同,因此当猫可能被分组在一个球体的南极时,另一个模型可能在北半球的某个位置绘制猫的地图。

研究人员使用邻近点作为锚来对齐这些球体,从而使表示具有可比性。如果一个数据点的邻居在多个表示中一致,那么我们可以对该点的模型输出的可靠性充满信心。

在对广泛的分类任务进行测试时,他们发现这种方法比基线方法更具一致性。此外,它不会因为挑战测试点而导致其他方法失效。

此外,他们的方法可以用于评估任何输入数据的可靠性,因此可以评估模型对特定类型个体(例如具有某些特征的患者)的效果。

王表示:“即使所有模型的整体性能处于平均水平,从个体的角度来看,你也会更倾向于选择最适合自己的模型。”

然而,一个限制在于他们必须训练一个大型基础模型的集合,这在计算上是昂贵的。未来,他们计划寻找更高效的方法来构建多个模型,或许可以通过对单个模型进行小扰动来实现。

本文来自作者[svs]投稿,不代表立场,如若转载,请注明出处:http://funwithpixels.net/post/5398.html

(96)

文章推荐

  • 亲爱的,你在说什么呢?

      亲爱的讲的是什么  在日常生活中,我们经常会听到这样的问话:“亲爱的,讲的是什么?”这句话可能是在询问对方正在说的内容,也可能是在表达对对方的关注和尊重。那么,在网络世界中,我们又该如何理解这句话呢?本文将围绕这个问题展开讨论,探究其中的深层含义。(图片来源网络,侵删)  亲爱的讲的是什

    2024年09月12日
    688
  • 明星什么晴:探讨明星在晴天下的魅力表现

      明星什么晴  在当今社会,明星们的生活备受人们关注,他们的一举一动都可能成为媒体的头条新闻。但是,明星们的生活并不总是晴朗的,他们也会面临各种各样的困扰和挑战。本文将探讨明星们在晴朗的外表下所面临的困境和挑战。(图片来源网络,侵删)  明星生活的真相  明星们的生活看似光鲜亮丽,但实

    2024年09月13日
    708
  • 赵医生开的是什么牌子的车?

      赵医生开的什么车  在我们日常生活中,总会有一些人物或事物引起我们的好奇心。比如,我们经常会听到一些关于名人的八卦,比如他们住在哪里、开什么车等等。今天,我们就来聊一聊一个医生,赵医生,他开的到底是什么车呢?(图片来源网络,侵删)  赵医生开的是什么车?  赵医生是一位备受病人信赖和

    2024年09月19日
    854
  • 利兹·特拉斯首相任期回顾:你能记住哪些关键事件?

      在鲍里斯·约翰逊和理希·苏纳克之间,利兹·特拉斯的首相生涯大多数人不会用“难忘”来形容。  你们的看法与大多数人不同,对吧?在我的伦敦,我们想来测试一下你对2022年这位政府首脑的记忆。  本周,特拉斯发布了她的新书《拯救西方的十年》。这本书旨在“向保守派发出紧急而热情的呼吁,呼

    2024年09月22日
    825
  • 150ml水乳能过安检吗 150ml的水乳能否通过安检?

    150ml水乳能过安检吗  在机场安检时,液体物品的携带有严格的规定。根据国际民航组织的相关规定,每位乘客在随身行李中携带的液体、气体和凝胶类物品的容器容量不得超过100ml,而且所有液体物品必须放在一个不超过1升的透明密封袋中。因此,150ml的水乳是不能通过安检的。如果你携带的水乳超过了这个

    2024年11月07日
    208
  • 复方甘草片为什么是国家禁药 复方甘草片为何被列为国家禁用药物

    复方甘草片为什么是国家禁药?  复方甘草片是一种常见的中成药,主要用于缓解咳嗽、清热解毒等。然而,复方甘草片被列为国家禁药的原因主要在于其成分中的甘草酸。甘草酸在体内代谢后可能导致水钠潴留、低钾血症等副作用,严重时甚至可能引发心脏问题。此外,长期使用甘草酸类药物可能会对肾脏造成损害。因此,国家对

    2024年11月10日
    216
  • 安东尼·约书亚在丹尼尔·杜布瓦和埃迪·赫恩的比赛前火力全开"(真的有挂)-知乎

      埃迪·赫恩坚信安东尼·约书亚已经克服了对失败的恐惧,他正朝着明年成为无可争议的世界重量级冠军的目标前进。9月21日,约书亚将在温布利挑战丹尼尔·杜布瓦的IBF冠军头衔,目标是在12月与泰森·弗瑞和亚历山大·乌斯克的复赛中交手。本月晚些时候,英国将有创纪录的96000名观众见证这位

    2024年11月19日
    225
  • 以色列科技行业或许会受到袭击的影响

      作者:MaxA.Cherney,MicaRosenberg和StevenScheer路透社旧金山/耶路撒冷8月10日电——投资者和分析师指出,以色列的科技公司预计将加强安全措施,以应对潜在的干扰。此前,加沙地带的哈马斯武装分子袭击了以色列,造成数百人遇难,并绑架了若干人

    2024年11月24日
    114
  • 伊拉克开启国际互联网传输服务,创下1000GB的历史记录

      伊拉克通讯部宣布成功部署拥有大容量的Nal互联网中转服务,这是历史上第一次。通讯部长HayamAl-Yasiri表示:“我们已成功部署国际网络,提升互联网传输能力,增强伊拉克的地理位置。”容量已达到超过1000gb。2024年3月,交通部在第139次会议上批准了一个新的交

    2024年11月24日
    115
  • 甲骨文在沙特阿拉伯设立第二个云计算中心,助力沙特充分挖掘人工智能潜能

      甲骨文在沙特阿拉伯设立了第二个云计算区域,推动了利雅得的数字化转型战略,旨在帮助沙特经济充分发挥人工智能潜力。总部位于德克萨斯州的甲骨文公司告诉《国家报》,这是美国科技公司在阿拉伯世界最大经济体宣布的15亿美元投资计划的一部分,将协助公共和私人组织迁移到云端。

    2024年12月01日
    102

发表回复

本站作者后才能评论

评论列表(4条)

  • svs
    svs 2024年12月01日

    我是的签约作者“svs”!

  • svs
    svs 2024年12月01日

    希望本篇文章《评估预部署AI模型的可靠性》能对你有所帮助!

  • svs
    svs 2024年12月01日

    本站[]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • svs
    svs 2024年12月01日

    本文概览:基础模型是由众多深度学习模型构成的,这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务,例如生成图像或解答客户咨询。...

    联系我们

    邮件:@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们