评估预部署AI模型的可靠性

svs • 2024年12月01日 00:00 • 今日资讯 • 阅读 266

基础模型是由众多深度学习模型构成的，这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务，例如生成图像或解答客户咨询。...

基础模型是由众多深度学习模型构成的，这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务，例如生成图像或解答客户咨询。

然而，作为ChatGPT和DALL-E等强大人工智能工具的核心，这些模型有时可能会提供错误或误导性的信息。在一些安全至关重要的场景中，比如行人接近自动驾驶汽车时，这些错误可能会导致严重后果。

为了避免此类错误，麻省理工学院及其IBM沃森人工智能实验室的研究人员开发了一种技术，能够在将基础模型应用于特定任务之前评估其可靠性。

他们通过训练一组略有不同的基础模型来实现这一目标。接着，他们利用算法评估每个模型在相同测试数据点上的学习表示的一致性。如果表示一致，便意味着该模型是可靠的。

在与最先进的基线方法进行比较时，他们的技术在捕捉各种分类任务中基础模型的可靠性方面表现更佳。

这种技术可以帮助用户判断一个模型是否适合特定环境，而无需在现实世界的数据集上进行测试。这在某些情况下尤其有用，例如医疗保健环境中，由于隐私问题可能无法访问数据集。此外，该技术还可以根据可靠性分数对模型进行排序，帮助用户选择最适合其任务的模型。

“所有模型都有可能出错，但能够识别出何时出错的模型更具实用性。对于这些基础模型而言，量化不确定性或可靠性变得更加复杂，因为它们的抽象表示难以进行比较。我们的方法可以帮助量化模型在特定输入数据下的可靠性，”资深作者Navid Azizan表示，他是麻省理工学院机械工程系和数据、系统与社会研究所(IDSS)的助理教授，同时也是信息与决策系统实验室(LIDS)的成员。

他与第一作者Young-Jin Park（LIDS研究生）共同撰写了关于这项工作的论文，参与者还包括麻省理工学院-IBM沃森人工智能实验室的研究科学家王浩，以及Netflix的高级研究科学家谢尔文·阿德希尔。该论文将于人工智能不确定性会议上发表。

统计共识

传统的机器学习模型通常被训练来执行特定任务，通常会根据输入做出具体预测。例如，模型可能会判断某张图片中是猫还是狗。在这种情况下，评估可靠性可能仅需查看最终预测结果，判断模型是否正确。

然而，基础模型的工作方式有所不同。它们使用通用数据进行预训练，创建者并不清楚模型将应用于哪些具体下游任务。用户在训练完成后可以让模型适应自己的特定需求。

与传统机器学习模型不同，基础模型不会给出“猫”或“狗”这样的具体标签，而是基于输入数据生成抽象表示。

为了评估基础模型的可靠性，研究人员采用了一种集成方法，训练多个具有相似特征但略有不同的模型。

“我们的思路类似于计算共识。如果所有基础模型对数据集中的任何数据都给出一致的表示，那么我们可以认为该模型是可靠的，”Park表示。

但他们面临一个挑战：如何比较这些抽象表示？

他补充道：“这些模型输出的是一个由数字组成的向量，因此我们无法轻易比较它们。”

他们通过一种称为邻域一致性的概念来解决这个问题。

在他们的方法中，研究人员准备了一组可靠的参考点来测试模型集合。然后，他们对每个模型在其表示的测试点附近的参考点进行调查。

通过观察相邻点的一致性，他们能够估计模型的可靠性。

对齐表示

基础模型在所谓的表示空间中映射数据点。我们可以将这个空间视为一个球体。每个模型将相似的数据点映射到其球体的同一区域，因此猫的图像会集中在一个地方，而狗的图像则在另一个地方。

然而，每个模型在其领域内绘制的动物地图可能不同，因此当猫可能被分组在一个球体的南极时，另一个模型可能在北半球的某个位置绘制猫的地图。

研究人员使用邻近点作为锚来对齐这些球体，从而使表示具有可比性。如果一个数据点的邻居在多个表示中一致，那么我们可以对该点的模型输出的可靠性充满信心。

在对广泛的分类任务进行测试时，他们发现这种方法比基线方法更具一致性。此外，它不会因为挑战测试点而导致其他方法失效。

此外，他们的方法可以用于评估任何输入数据的可靠性，因此可以评估模型对特定类型个体（例如具有某些特征的患者）的效果。

王表示：“即使所有模型的整体性能处于平均水平，从个体的角度来看，你也会更倾向于选择最适合自己的模型。”

然而，一个限制在于他们必须训练一个大型基础模型的集合，这在计算上是昂贵的。未来，他们计划寻找更高效的方法来构建多个模型，或许可以通过对单个模型进行小扰动来实现。

本文来自作者[svs]投稿，不代表立场，如若转载，请注明出处：http://funwithpixels.net/post/5398.html

266 4

本文作者

svs签约作者

0 文章

1342254 评论

1 粉丝

我是的签约作者[svs],本篇文章《评估预部署AI模型的可靠性》主要讲述了:基础模型是由众多深度学习模型构成的，这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务，例如生成图像或解答客户咨询。...

今日资讯

海鲜过敏者可食用哪些水果？

　　海鲜过敏吃什么水果　　在日常生活中，有些人可能会对海鲜过敏，导致食用海鲜后出现不适反应。那么，对于海鲜过敏的人来说，他们可以选择吃哪些水果呢？本文将为您详细介绍海鲜过敏者可以食用的水果，帮助他们在饮食上更加健康。（图片来源网络，侵删）　　适合海鲜过敏者食用的水果　　对于海鲜过敏的人来

admin
2024年09月08日
791
今日资讯

岳父在数字中代表什么含义？

　　岳父代表什么数字　　在中国传统文化中，岳父通常被视为一个重要的象征，代表着一种特定的数字。那么，岳父到底代表什么数字呢？在这篇文章中，我们将深入探讨这个问题，并为您揭示其中的奥秘。（图片来源网络，侵删）　　岳父代表的数字　　在中国传统文化中，岳父通常被视为“三”，也就是数字3。这是因

admin
2024年09月18日
957
今日资讯

“小肯尼迪计划就‘未来方向’发表演讲，因其竞选团队正在考虑支持特朗普”

　　独立总统候选人小罗伯特·肯尼迪（RobertF.KennedyJr.）计划在周五发表一场关于“未来方向”的竞选演讲。几天前，他的竞选团队透露，面临着继续参与2024年大选或选择支持唐纳德·特朗普的艰难抉择。肯尼迪的团队宣布，他将在周五于凤凰城举行竞选活动

svs
2024年11月25日
244
今日资讯

高温天气下，世界童军大会开幕式即将举行

周二，在韩国西南部的新万金，年轻的童军们聚集在世界童军大会露营地附近的一个水上设施里降温。第25届世界童军大会将于当天晚上在新万金填海地区举行开幕式，来自158个国家的4.3万多名童军将全面参与教育文化交流活动。在酷暑天气下，开幕式将于晚上8点在首尔以

svs
2024年11月25日
260
今日资讯

苹果提升AirPods Pro性能，实现硬件和软件升级

　　苹果最新推出的第二代AirPodsPro耳机带来了多项新功能和改进，显著提升了用户的音频体验。其中最引人注目的变化是充电盒由闪电接口升级为USB-C接口。这一改进备受欢迎，虽然现有用户不必急于更换，但现在正是购买这款热门耳机的好时机。自适应音频模式：提升聆

svs
2024年11月30日
225
今日资讯

300多人在国会山抗议敦促以色列和哈马斯停火而被捕

　　抗议者聚集在国会山，呼吁以色列与哈马斯实现停火，超过300人因非法示威被捕，其中3人面临袭警指控。周三，数百名来自犹太和平之声(JewishVoiceforPeace)和“如果不是现在”(IfNotNow)等组织的示威者涌入国会办公大楼。他们身穿

svs
2024年12月11日
214
今日资讯

Sara Byrne在LET Access系列中领先

　　萨拉·伯恩在LETAccess系列赛甘比托高尔夫球场再次打出低于标准杆4杆的68杆，以低于标准杆9杆的成绩领跑。这位23岁的球员开局强势，在第二洞打出5只小鸟和1个柏忌，这是前九洞唯一的失误。进入后九洞后，这位柯蒂斯杯冠军连续捉到三只小鸟，

svs
2024年12月13日
131
今日资讯

SUNRATE集成了Amadeus的Outpayce

　　全球智能支付和资金管理平台SUNRATE宣布与Amadeus的Outpayce达成合作伙伴关系，这将有助于改善全球旅游公司的B2B支付体验，并使其自动化，重点是亚太地区。旅游销售商(即在线旅行社(ota)和旅游管理公司(tmc))现在可以生成和使用SUNR

svs
2024年12月18日
139
今日资讯

万斯和华尔兹将在美国副总统辩论中对决：该知道些什么

　　JD·万斯与蒂姆·瓦尔兹将在11月大选前的首次也是可能唯一一次副总统候选人辩论中相遇。两位候选人将于周二晚上在纽约进行辩论，为即将到来的大选日做最后准备。明尼苏达州州长沃尔兹在今年8月被选为民主党候选人卡玛拉·哈里斯的竞选搭档。

svs
2024年12月18日
71
今日资讯

三个非洲国家即将废除死刑

　　国际人权组织大赦国际指出，三个撒哈拉以南非洲国家现在应考虑废除死刑，以便为其他国家树立榜样。大赦国际提到，冈比亚、肯尼亚和津巴布韦在过去十多年中未执行死刑，并对多起死刑判决进行了减刑。大赦国际在津巴布韦的负责人露西娅·马苏卡表示，世界上大

svs
2024年12月20日
79

发表回复

本站作者后才能评论

评论列表（4条）

svs 2024年12月01日

我是的签约作者“svs”！

回复
svs 2024年12月01日

希望本篇文章《评估预部署AI模型的可靠性》能对你有所帮助！

回复
svs 2024年12月01日

本站[]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
svs 2024年12月01日

本文概览：基础模型是由众多深度学习模型构成的，这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务，例如生成图像或解答客户咨询。...

回复

评估预部署AI模型的可靠性

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们