对可解释人工智能的需求

通过Sudhanshu恨,Ram Swaroop Mishra 2020年10月| POV | 14分钟读|本文的电子邮件|下载
随着人们对人工智能的关注不断增加,使用它的组织需要解释敏感的决策是如何自动做出的。然而,AI系统越强大,它就变得越不透明。可解释的人工智能原则可能是答案。
对可解释人工智能的需求

基于人工智能的系统现在不再只是增强人类的判断能力,而是自己做出决定。一些法庭使用深度学习来判决罪犯。银行依靠这项技术发放贷款。基于迁移学习的人工智能甚至可以自主检测癌症。

在如此多的炒作下,人工智能正因缺乏透明度而受到更严格的审查和批评。这些系统如何做出如此重要的决定?如果他们无法解释自己,我们能把生命托付给他们吗?这些担忧已经导致负面报道和诉讼。监管机构、官方机构和用户都在寻求每一个基于人工智能的决策都更加透明。在欧盟,《一般数据保护条例》强制执行了人工智能解释的权利。纽约保险监管机构向企业发布了使用人工智能确定费率和保险范围的指导意见。

强大的模型,不透明的决策

随着人工智能使用越来越强大的算法来做出决策,理解逻辑的能力变得越来越困难。被称为“深度学习教父”的多伦多大学计算机科学家杰弗里·欣顿(Geoffrey Hinton)很好地总结了这个问题:“深度学习系统没有任何解释力。深度学习系统变得越强大,它就越不透明。”1

当算法做出不正确的假设时,这种不透明性使得判断错误的地方变得更加困难。一个例子是用来区分狼和哈士奇的人工智能分类器。如果训练数据显示的是狼在冬季环境下的照片,那么它可能偏向于雪地环境。一个被误导的算法会学习利用雪作为预测狼的特征。在没有雪的情况下,即使正确答案是狼,分类器也可能判定这种动物实际上是哈士奇。

深度学习系统越强大,它就变得越不透明

对动物物种的错误分类造成了一系列问题。然而,将人分类可能会导致更严重的声誉后果。人工智能偏见已经出现在种族和性别问题上。大型视觉数据库ImageNet宣布,在发现种族偏见后,将从记录中删除50多万张图像。人工智能分类器通常认为白人女性是“令人震惊的人”,而其他种族的人得到的绰号远没有那么讨人喜欢。2

在医疗保健领域,人工智能需要更加严格。三所美国大学收集并训练了超过15万名患者的胸部x光数据,以检测肺炎症状。执行分析的卷积神经网络在实际使用中远不准确,因为该网络在预测任务上作弊,首先对提供测试数据的x光机的质量进行评级。3.

要想获得信任,人工智能不仅必须正确地对对象进行分类,还必须解释其逻辑。对于狼-哈士奇分类器,模型应该能够突出动物的特定部位,导致它的决定。这在行业术语中被称为XAI。

新品工作流

为了确保XAI是有效的,必须在整个AI生命周期中使用该技术,从数据清理到模型创建再到监控(图1)。

图1所示。XAI必须在整个AI生命周期内使用

XAI必须在整个AI生命周期内使用

来源:ICETS

在AI工作流程中,XAI需要以下内容:

  • 数据必须对所有类别有平等的代表性,并检查是否有偏见。
  • 使用正确的算法进行训练和测试。这可能意味着在卷积神经网络或其他更花哨的网络中选择经典算法,如逻辑回归。
  • 模型必须具有正确的特征,并为每个特征赋予适当的权重。
  • 培训和测试需要使用诸如本地可解释模型(LIME)和沙普利附加解释(SHapley Additive explained, SHAP)等框架对未知数据进行验证。培训和测试应该超越单纯的准确性,使用诸如f分数、精确度和召回率等指标。
  • 应该监视AI模型,并通过密切关注传入的数据种类来验证结果。

原则为善志

流程很重要,但公司也需要一套强有力的原则来指导AI的实施。这些包括:

偏见检测-公司应确保数据集无偏和非歧视,正确加权属性并谨慎使用。在一个用于生成信用分数的数据集中,可以通过创建二进制变量来测试年龄是否存在偏见。例如,年龄大于25的设置为1(有特权组),年龄小于25的设置为0(无特权组)。然后就可以计算出各组有利结果之间的平均差值。得分为0.16,表明特权群体的积极结果多出16%。这意味着数据必须重新加权,在数据被输入到机器学习模型之前,单个样本的权重被改变以平衡数据集。

人类的参与-输出必须容易被人类理解,并且必须始终保持人员在循环中。这在欺诈检测和执法使用中特别重要。

的理由- XAI,系统所做的预测必须是合理的。这意味着特征数据使用的透明性。这有助于理解模型是如何思考的,或者模型强调了给定输出的哪些特性。

再现性-模型在进行预测时应保持一致,在使用新数据集测试系统时应保持稳定。

Explainability的理由

通过合理性进行解释是AI前进所需要的最重要元素之一。这需要突出有助于准确预测类的特征,而不是像我们的wolf-husky分类器中展示的随机特征,如snow。

未来,人工智能将需要使用“通过理由进行解释”

在执行AI时,可以通过合理化模型进行解释。LIME模型突出显示图像中在类预测中占主导地位的部分。对于图像和文本分类场景,SHAP模型都是可用的。这让我们深入了解了深度学习模型中的某一层是如何影响输出概率的。

酸橙

在LIME中,一个临时的模型被训练来模拟深度学习的黑箱预测。给定一个示例输入,临时模型生成一个可解释的输出数据集。它通过创建给定样本的各种排列(及其相应的输出)来实现这一点,并在该数据集上训练一个简单且更易于解释的局部模型。LIME的输出是对模型得出某一决策的解释列表,显示了每个特征对数据样本预测的贡献。

印孚瑟斯新兴技术解决方案中心(Infosys Center for Emerging Technology Solutions, iCETS)训练了一个模型,根据汽车的视觉特征对其进行分类。迁移学习范式用于模型训练(带有预先训练权重的ResNet体系结构)。深度学习算法的最后一层对近200个汽车类别进行训练,每个类别包含50张图像,测试数据的准确率为90%。为了将石灰引入等式,汽车分类器将其图像传递给石灰库,以验证模型用于分类的区域。LIME基于分割尝试了各种超像素(类似像素的集合)的排列,从图像中创建了1000个样本。以奥迪为例(图2),输出说明显示,该模型专注于奥迪标志,以达到90%的成功率。

图2.石灰显示徽标是最重要的特征

石灰表明标志是最重要的特征

来源:ICETS

世鹏科技电子

SHAP库主要基于博弈论。计算每个特征对预测的贡献。对于图像,特征可以是像素或超像素,它们的贡献可以是正面的,也可以是负面的。首先,使用样本数据集发现平均预测能力。然后,通过对模型进行不同的排列来计算个体特征对模型的贡献,并计算该特征是提高了预测能力还是降低了预测能力。SHAP的强大之处在于,它给人类深层次的学习模型提供了一个解释。

iCETS使用相同的car分类器模型来使用SHAP进行解释(图3)。使用预先训练的模型、图像和背景数据集发现分层解释。

图3。在SHAP中,红色像素是积极的,而蓝色像素是消极的

在SHAP中,红色像素是积极的,而蓝色像素是消极的

石灰和沙普的力量在于我们不仅知道被预测的是什么,而且知道为什么。如果模型不能提取出正确的特征进行预测,该模型可以进行微调,同时也可以使复杂的机器学习算法和模型更加透明和可信。

有了石灰和沙普,我们不仅能得到很好的预测,还能找出它们产生的原因

人工智能的未来

随着对AI的兴趣越来越大,领域专家们正在聚集在一起,为机器学习和人工智能模型应该遵循的基础原则奠定基础。由于透明度较低,更复杂的机器学习模型也在显微镜下观察。

谷歌在2017年设定了成为人工智能先驱的目标,通过在其专有的用于深度学习的TensorFlow框架中集成一个假设工具,开创了XAI。通过这种方式,谷歌希望成为让AI不再那么神秘的火炬手,提供“AI即服务”。人工智能研究员安德鲁·摩尔在最近的谷歌会议上表示:“谷歌的可解释人工智能是一套工具和框架,帮助你开发可解释和包容性的机器学习模型,并自信地部署它们。”“有了它,你就可以理解AutoML表格和AI平台中的特征属性,并使用假设工具直观地研究模型行为。”4

在更远的地方,伦理人工智能和机器学习研究所(Institute for Ethical AI & Machine Learning)目前正在创建一个框架,以确保所有行业的人工智能项目的道德和认真发展。为了实现这一目标,该研究所已经发布了人工智能道德原则,并开发了一个开源的GitHub工具箱来进行解释5

人工智能有两种选择。在第一个未来,企业可以根据本文提出的原则实施XAI,并获得公众和政府更大的信任。另一个未来是,监管机构梳理培训数据以形成刻板印象,以确保人工智能决策是公平和合理的——这对企业来说是一个令人担忧的场景。人工智能在商业领域的加速应用,可能会确保高德纳公司关于到2022年全球人工智能经济规模达到4万亿美元的预测成为现实。

参考
  1. 人工智能(AI),迈克·雷德利,2018年2月5日,开架。
  2. 2019年9月23日,扎卡里·斯莫(Zachary Small)在Hyperallergic.com网站上发表文章,揭露种族偏见后,60万张图片从人工智能数据库中删除。
  3. 2018年11月10日,《印度斯坦时报》,人工智能工具可能会在关键医疗诊断过程中失效。
  4. 2019年11月25日,面向数据科学的谷歌新“可解释人工智能”(xAI)服务,Tirthajyoti Sarkar。
  5. EthicalML /新品,GitHub。