缩放AI:模型数据

经过Rajeshwari Ganesan.Sivan Veera.哈里凯利斯休斯 5月2021年5月|POV |10分钟阅读|通过电子邮件发送本文|下载
机器学习模型产生了很多炒作。但没有干净,标记数据,他们的结果有缺陷。传统上,人类被用来做标签,但偏见可以蠕动,并且成本往往升级。相反,需要智能学习者和程序化数据创建方法的组合。
缩放AI:模型数据

人工智能(AI)及其丰盛的同谋机器学习(ML)用于许多小说努力:自驾驶汽车,癌症检测和较少的出纳型商店。然而,这些系统越来越复杂,使用的模型是饥饿的数据。它们需要高质量的数据,这些数据不受程序员的无意识偏见和AI专家筛选通过它。

为了克服这些问题,从谷歌到亚马逊的公司和超越的公司正在雇用标签公司奠定基础。该行业在新的服装方面令人敬畏,如旧金山的级别AI和SAMA(以前称为Samsource),一个与人类数据贴标人团队的启动。所有人都将标记Gargantuan数据集费用。

但是,费用通常很高。并且无法保证产出将是全面的,无偏见的,没有噪音。此外,这项工作对于每周发布新产品的敏捷公司需要太长时间。Lytx是一个销售在卡车司机中疲劳的San Diego公司的San Diego公司,表明它需要10,000小时的20秒标记的视频剪辑,以训练其AI系统。在按比例部署时,视频的量增加到500万小时。1那时候在项目成功上吃掉并降低了效率。

AI Consultancy Cognilytica审议该公司将花4美元。12024年数据标签的十亿。2在Infosys,我们认为,25%至60%的ML项目成本达到了手动标签和验证。

人类的触摸

即使是最先进的技术也可能需要人类的触摸。这就是为什么公司将这种工作外包到初创公司的原因。一些ML任务需要高技能专家来了解问题并正确标记数据,例如法律合同和医疗用例。在其他情况下,数据标签是桌面和赌博的,捕捉人群的智慧。例如,reCAPTCHA项目用于验证身份并创建用于数字化书籍和构建语言模型的数据集。这种游戏化可以为AI的学习权力以难以想象的规模来解决问题,同时还原数据偏差。在两个讲述场景中,折叠项目赌博数据标签,以帮助为艾滋病毒和冠状病毒产生抗病毒药物,导致这一流行病。3,4.它通过要求用户玩一个简单的连接点游戏来实现这一点,这反过来表示蛋白质的三级结构。

游戏可以解决规模的问题并减少数据偏差

在公司层面,公司可以挖掘他们的合作伙伴生态系统,以创建拥有内置隐私的丰富数据集,这是金融服务和医疗行业中的福音。在称为合作计算的系统中,每个合作伙伴都开发自己的模型和数据,其输出与联盟中的其他公司共享。例如,谷歌最近使Covid-19数据集在大流行期间自由地免费提供给科学家。但是,必须合并和编码此类数据,以便不同的用户可以有效地使用它。

但在所有这些情况下,人为错误和偏见判断进入图片。人类数据标签可能在我们遇到的项目中具有高达18%的错误。

所需要的是一种更快,更有效的方式为为饥饿的ML算法准备数据,具有正确的治理,以确保模型使用公平和无偏执的数据。

两个标签数据的另外两种方法包括“智能学习者”和数据创建数据。(图1)

图1.创建机器学习数据的三类

创建机器学习数据的三类

来源:Infosys.

智能学习者:积极的学习和共同培训

智能学习者通常会提高创建标记数据集的效率。在“主动学习”中,分类器检查未标记的数据并选择此数据的部分以获取进一步的人类标签。这使得过程是活跃而不是被动。它还提高了数据质量,因为分类器可以控制数据选择并仅选择尚未针对ML优化的区域。在一个法律用例(标签合同条款)中,我们发现主动学习从66%增加到80%的数据准确性5.即使使用较少的数据点。标签时间和成本也显着降低;避免受主题专家的标签降低了18%的成本。

但是,共同训练将游戏提升到一个新的水平。在该范例中,数据的正交视图用于指定训练所需的特征。这优化了标签过程。例如,案例法文件的一个视图可能是视觉的,没有给出任何标签。其他视图可能是文本的,使用人类标签。将这两个视图带在一起,智能学习者可以使用第一个可视视图来创建新标签以及适当的置信区间。这个循环重复;每种数据都会提高模型精度。

人类仍然在这两种情况下都在循环中。为了有效规模AI,大型组织需要降低成本并提高数据标签的速度。在这种情况下,公司以编程方式创建数据集。

遥远的监督和弱势监督

编程数据创建目前是在尺度上进行AI的最佳方式,具有远处或弱监管。对于这两者,标记函数被编程为从输入数据集中创建标签。通过结合嘈杂的信号,远程和弱监管可以解决冲突的标签而无需访问任何类型的“原始事实”。该过程可以在宽和发散的数据集上运行。

在遥远的监督下,使用远程知识库产生无噪声培训数据。例如,在初始公开发布申请的情况下,可以生成一份报告,以赋予财务绩效的难以证据。ML算法必须读取标准报告,提取CISCLED实体,并找到属性的标准名称。

遥远的监督将看出许多数据来源和数据库,然后将金融指标映射到它们出现的相应句子。使用多个转换功能创建培训数据。然而,在标签中可能仍然存在噪声,由训练数据引用的知识类型和知识的类型和数量决定。然而,真正的挑战是找到有用的遥远知识库很困难。ML工程师需要领域专家来帮助他们揭示适当的信息。但是,正常使用此方法,我们发现可以在一周内创建25,000条财务数据记录,以98%的ML模型精度。

但是,当数据需要从不可靠的途径源时间会发生什么?在这种情况下,使用弱监管是明智的。一个这样用例是在社交媒体上评分客户情绪。由于监督薄弱,通过通过社交饲料爬行并在分类程序中使用特定的HASHTAG来创建培训数据。在这种情况下,使用弱和强信号数据从标签函数创建标签。6.

合成数据生成

遥远和弱监管使用数据库和标签函数来获得正确的答案。但有时数据刚刚不可用。

一个选项是弥补数据,因为亚马逊已经使用其新的Amazon Go Stores完成了。7.该公司使用图形软件来创建虚拟购物者,这反过来火车电脑视觉算法,以解决现实世界购物者正在选择的内容。合成数据生成的其他例子比比皆是。芯片制造商NVIDIA在2018年发布了一篇论文,其中描述了一种为自动驾驶汽车创建合成训练数据的方法。8.作者得出结论,该算法比单独对真实数据训练的算法更好。另一个世界主义的例子来自恒定的法警,整个火星景观是综合捕获的。

一个重要元素是,合成数据具有与它导出的真实数据相同的代表性特征。此外,此数据必须曝光逆转使用情况和异常值,降低不确定性,同时确保数据公平,安全,可靠和包容性。

数学发生器

文献中列出了三种类型的合成数据创作。第一,数学发生器,需要了解潜在的统计分布或客观函数。例如,呼叫中心客户经常遵循泊松数学分布,并由Teletrafic理论定义。最近,最有前途的统计发生器之一是淘汰发电机,其扫描大型数据集以揭示给定ML决定中使用的特征。它通过揭示并不重要的功能来实现这一点。这些数据可用于找到指示用于检测疾病的生物标志物的变量 - 例如三重阴性乳腺癌 - 并用于AI治理,以确保黑匣子系统可解释。

基于代理的建模

另一种技术被称为基于代理的建模。技术困难的方法归结为创建一个模型,该模型解释了紧急行为,然后产生具有相同模型的随机数据。为此,合成数据生成器使用根据策略函数执行的代理。数据生成本身利用概率质量函数来确定从一个状态到另一个状态所需的操作。即使数据稀疏,这种例程也可以创建具有最小噪声的大量数据。

学习

最后,图灵学习值得提及。这个想法是建立一个组合多个标签函数的机器 - 有时噪音 - 进入一个脱发输出。当然,输出可能具有冲突的标签,这就是为什么图灵学习者(基本上是生成的对抗网络)自动结合标签输出的原因。然后,那些被喂入歧视模型,以右侧答案,在这种情况下,他们通过人类水平的准确性通过图灵测试。

图2.在企业规模上引入数据标签的建议

可行的建议 什么时候......
编程数据创建目前是在规模的最佳方式,也是如此遥远要么弱监督 您希望在没有人类标签的情况下快速构建和部署AI。
一些ML任务需要SME正确标记数据(法律合同,医疗用例)。主动学习增加标签准确性,无需中小企业。 您希望通过更少的数据来实现更好的模型性能。
用于公司之间共享的数据,称为合作计算,数据必须合并和编码,以便不同的用户可以有效且有效地使用它。 创新的新公司ML型号需要强大的数据集以规模和速度
合成当没有可用数据时生成或异常值/边缘案例在真实数据中很少见。 合成数据和淘汰赛将使您的ML模型安全,可靠,公平和包容性。

来源:Infosys.

更好的资产负债表

标记数据适当对AI项目非常重要,并占用了不成比例的时间。大约四分之一的平均ML任务是花了标签,而仅仅3%致力于开发算法。9.大公司可能会与这些权衡斗争,因为他们寻求将AI扩展到其业务的每个部分。然而,主动学习,远程监督和合成数据生成可以显着降低成本,提高速度,提高强大的AI模型有效工作所需的数据质量。

主动学习,远程监督和合成数据生成降低了成本,提高了速度并提高了数据质量

这种自动化水平降低了发展中国家对人类劳动力的依赖,通常由初创公司(如SAMA和Scale AI)所采用的排序。它还可以通过确保无意识的偏见无法蠕动,增加公司的公司治理凭证。由于人类标记为18%的数据,人类标记为不正确或更差,使用更复杂的数据标签技术可能会导致更大的客户信心,减少到创新产品的市场时间,以及潜在的资产负债表。

参考
  1. 如果数据是新石油,这些公司就是新的贝克休斯,Jeremy Kahn,2月4日,2020年2月4日,财富
  2. 对于AI,数据比你想象的更难,6月13日,2020年,经济学家
  3. 折叠游戏导致辅助研究突破,伊丽莎白阿姆斯特朗摩尔,2011年9月19日,CNET
  4. 科学家使用在线游戏来研究Covid-19治疗,艾玛yasinski,2020年3月9日,科学家
  5. 基于人员和机器度量的多标准决策,有源机器学习的系统和方法,Rajeshwari Ganesan&Bhavana Bhasker&Niraj Kunnumma,2020年10月,IPO期刊
  6. 监督薄弱:机器学习的新规范范式,Alex Ratner&Parima Varma&Braden Hancock&Chris Re,2019年3月10日,Stanford Ai Lab博客
  7. 请参阅参考文献2
  8. Meta-SIM:学习生成合成数据集,2019年10月27日,Nvidia
  9. 请参阅参考文献2