机器学习数据标记的最终指南

在使用数据标记服务之前您需要知道的一切。有策略地行动,建立高质量的数据集,回收宝贵的时间专注于创新。

如果你有大量的数据想要用于机器学习或深度学习,你需要工具和人来丰富它,这样你就可以训练、验证和优化你的模型。如果你的团队和大多数人一样,你的大部分工作都是在内部完成的,你正在寻找一种方式,重新利用内部团队的时间,把精力放在更有战略意义的举措上。你准备好雇佣数据标签服务了吗?

本指南将带您通过成功外包这一重要但耗时的工作的基本要素。从可用的技术和使用的术语,到最佳实践和您应该向潜在的数据标签服务提供商提出的问题,都在这里。

机器学习数据标签最终指南

请阅读下面的完整指南,或下载PDF版本的指南,以便日后参考。

  1. 介绍
  2. 开始
  3. 数据质量
  4. 扩展
  5. 定价
  6. 安全
  7. 工具
  8. 下一个步骤
  9. 联系
  10. 常见问题

作品简介:
这本指南对我有用吗?

我们来搞清楚你为什么来这里。如果你有可以用于机器学习的数据,并且你正在处理下面的一个或多个挑战,本指南将对你最有帮助。

你有很多无标号数据。大多数数据都没有标注,这对大多数人工智能项目团队来说都是一个挑战。完全80%的人工智能项目时间根据分析公司Cognilytica的说法,这些时间都花在了收集、组织和标记数据上,而这是团队无法承受的,因为他们在与可用数据竞争,也就是为了训练和部署模型而适当构造和标记的数据。

分配给机器学习项目的时间百分比

(来源:Cognilytica)

数据标签是低质量。您的数据可能被标记为低质量的原因有很多,但通常可以在数据标记工作流中使用的人员、流程或技术中找到根本原因。

你想规模您的数据标签操作,因为您的容量在增长,您需要扩展容量。如果你在内部给数据贴上标签,扩展起来会非常困难和昂贵。

你的数据标记过程是低效或昂贵.如果你付钱给你的数据科学家来处理数据,那么寻找另一种方法是明智的。数据科学家的年薪高达19万美元。让你收入最高的资源浪费时间在基本的、重复性的工作上是很昂贵的。

您需要添加质量保证或对正在进行的质量保证过程进行改进。这是一个经常被忽视的数据标记领域,它可以提供重要的价值,特别是在迭代机器学习模型测试和验证阶段。

让我们开始:
标记数据和地面真理

什么是标记数据?

在机器学习中,如果您有标记数据,这意味着您的数据被标记为或注释,以显示目标这就是你想让机器学习模型预测的答案。一般来说,数据标注是指数据标注、标注、分类、审核、转录或处理等任务。

什么是数据注释?

数据标注一般是指对数据进行标注的过程。数据注释和数据标记通常可以互换使用,尽管它们可以根据行业或用例进行不同的使用。

带安全标签的数据时强调数据的特点——或属性、特征或分类——可以分析出有助于预测目标的模式。例如,在自动驾驶汽车的计算机视觉中,数据标记器可以使用逐帧视频标记工具来指示路标、行人或其他车辆的位置。

什么是“人在回路”(human -in- loop, HITL)?

HITL利用人类和机器智能来创建机器学习模型。在人在环的配置中,人们参与到一个改进的良性循环中,在这个循环中,人类的判断被用来训练、调整和测试特定的数据模型。

机器学习的标签是什么?

标签是人在回路中用来识别和调用数据中存在的特征的东西。如果您想在模式识别、分类和回归方面开发高性能算法,那么选择信息丰富的、有区别的和独立的特征进行标记是非常关键的。准确标记的数据可以提供地面真理用于测试和迭代模型。

机器学习中的“地面真相”是什么?

在机器学习中,“ground truth”指的是检查ML算法的结果与真实世界的准确性。本质上,这是对算法准确性的现实检验。这个术语是从气象学中借来的,“地面真相”是指在实际发生天气事件的地面上获得的信息,然后将这些数据与预报模型进行比较,以确定其准确性。

什么是机器学习中的“训练数据”?

训练数据是你用来训练机器学习算法或模型的丰富数据。

今天的公司是如何给他们的数据贴上标签的?

组织使用软件、过程和人员的组合来清理、构造或标记数据。一般来说,您的数据标签工作人员有四个选项:

  • 员工——他们都在你的工资单上,无论是全职还是兼职。他们的工作描述可能不包括数据标签。
  • 管理团队——您使用经过审查、培训和积极管理的数据标签(例如,CloudFactory)。
  • 承包商——他们是临时或自由职业者。
  • 众包——你使用第三方平台同时访问大量员工。

管理 -  CloudWorkers.

数据标签包括一系列广泛的任务:

  • 使用工具来丰富数据
  • 数据标签的质量保证
  • 过程迭代,例如数据特征选择、任务进展或QA中的变更
  • 数据标签管理
  • 新成员的培训
  • 项目计划、过程运作化和成功度量

我们给数据贴标签已经有十年了。在这段时间里,我们学会了如何结合人员、流程和技术来优化数据标签的质量。当你需要为机器学习标记数据时,你需要考虑以下五个基本要素:

基本1:
数据质量和准确性 - 有什么影响数据标签中的质量和准确性?

虽然这两个术语经常互换使用,但我们已经知道了准确性和质量是两码事。

  1. 准确性在数据标注中,测量标注与事实的距离,或者数据中标注的特征与真实情况的一致性。无论你是在构建计算机视觉模型(例如,在街道场景中物体周围放置边框)还是自然语言处理(NLP)模型(例如,为社会情感分类文本),这都是正确的。

  2. 质量数据标签是关于整个数据集的准确性。你们所有的标签看起来都一样吗?在你的数据集中,标签是否始终准确?无论您同时有29个、89个或999个数据标签,这都是相关的。

低质量的数据实际上可能会适得其反:首先是在模型训练期间,然后是当您的模型使用标记数据来通知未来的决策时。为了创建、验证和维护高性能机器学习模型的生产,您必须使用可信、可靠的数据对其进行培训和验证。

4劳动力特性,影响数据标签中的质量

在我们为初创企业和企业公司提供管理数据标签团队的十年经验中,我们了解到四种劳动力特征会影响机器学习项目的数据标签质量:知识和背景、敏捷性、关系和沟通。

标签中影响数据质量的因素是什么?

1.知识和上下文

在数据标注中,基本的领域知识和上下文理解对于您的员工创建高质量、结构化的机器学习数据集至关重要。我们了解到,工人们给数据贴上的标签质量要高得多上下文,或者知道他们正在标记的数据的设置或相关性。例如,标注文本数据的人应该理解某些单词可能以多种方式使用,这取决于文本的含义。为了准确地标注“bass”这个词,他们需要知道这篇文章是关于鱼还是音乐。他们可能需要理解如何用单词来代替其他单词,比如用“Kleenex”来代替“tissue”。

为了获得最高质量的数据,标签商应该了解你服务的行业的关键细节,以及他们的工作与你正在解决的问题的关系。如果你的标签团队有成员领域知识或者对业界的基本理解您的数据服务,因此他们可以管理团队并在与上下文相关的规则中培训新成员,以及哪些业务或产品,以及边缘案例。例如,与医疗保健有关的文本的词汇,格式和样式可能会因法律行业而有所不同。

2.敏捷性

机器学习是一个迭代的过程。随着测试和验证模型并从它们的结果中学习,数据标签也在不断发展,因此需要准备新的数据集并丰富现有数据集以改进算法的结果。

您的数据标签团队应具有灵活性,将更改合并到最终用户的需求,产品更改或添加新产品。灵活的数据标签团队可以对数据量,任务复杂性和任务持续时间的变化作出反应。您的标签团队越多,您可以通过的机器学习项目越多。

当您开发算法和训练模型时,数据标签可以提供关于数据的特点-即属性、特征或分类-这些将被分析为有助于预测目标的模式,或回答您希望您的模型预测的内容。

3.的关系

在机器学习中,您的工作流程不断变化。您需要在模型测试和验证阶段学习的内容时,您需要快速响应并在工作流程中进行更改的数据贴标程序。

为了做那种敏捷的工作,你需要灵活性在你的过程中,关心的人关于你的数据和你的项目的成功,以及与你的数据标签团队的领导的直接联系,这样你就可以基于你在机器学习的测试和验证阶段学习的内容迭代数据特征、属性和工作流。

4.沟通

您需要与您的标签团队直接沟通。一种关闭反馈回路是在项目团队和数据贴标程序之间建立可靠的沟通和协作的一个绝佳方式。贴标程序应该能够在标记数据时共享他们的学习,因此您可以使用他们的见解来调整您的方法。

要了解更多关于质量和环境的信息,请查看我们的学习的经验教训:3个为您的NLP数据劳动力提供必需品

如何在数据标签中衡量质量?

从员工的角度来看,我们有四种方法来衡量数据标签的质量:

  1. 黄金标准- 任务有正确的答案。根据正确和不正确的任务测量质量。
  2. 样品评估—随机选择已完成任务的样本。更有经验的工作人员,如团队领导或项目经理,审查样本的准确性。
  3. 共识-分配几个人做相同的任务,和正确的答案是从大多数标签返回。
  4. 十字路口在联盟(借据)-这是一个共识模型,经常用于图像中的目标检测。它结合了人和自动化来比较你手工标记的边界框,地面真实图像与你的模型预测的边界框。
您将希望从这些质量保证方法中自由选择,而不是被锁定在一个单一的模型来衡量质量。在CloudFactory,我们在每个项目中使用一种或多种方法来衡量我们自己的数据标签团队的工作质量。
要了解更多关于在数据标记中测量质量的信息,请查看规模化质量培训数据:人群的隐性成本

向您的数据标签服务询问关于数据质量的关键问题

  • 我们的团队将如何沟通和你的数据标签团队一起?
  • 随着时间的推移,我们会使用相同的数据标签吗?如果员工发生变化,谁来培训新的团队成员?描述如何转换上下文和域专业知识当团队成员切换到数据标签团队时。
  • 你的数据标签过程灵活的?您将如何管理我们团队中对标签数据特性产生影响的更改或迭代?
  • 你用什么标准来衡量质量?你如何与我们的团队分享质量指标?如果没有达到质量标准会发生什么?

基本2:
缩放——当我的数据标记量增加时会发生什么?

机器学习数据标记的第二个关键是规模。您需要的是弹性能力,可以根据您的项目和业务需求,在不影响数据质量的情况下扩大或缩小您的劳动力规模。

数据标记是一个耗时的过程,在机器学习中更是如此,它要求您在训练和优化模型时迭代和进化数据特征,以提高数据质量和模型性能。随着数据的复杂性和数量的增加,对标签的需求也会增加。视频注释尤其需要人工,每小时采集的视频数据大约需要花费800人小时注释。一个10分钟的视频包含在18,000到36,000帧之间的某个地方,每秒约30-60帧。

我怎么知道什么时候该扩大规模并聘请数据标签服务?

如果您最昂贵的资源,如数据科学家或工程师都花费了大量的机器学习或数据分析的争吵数据,您可以考虑使用数据标签服务进行缩放。数据标签数量增加,无论是在几周或几个月内发生,都会越来越难以在内部管理。

它们还消耗了一些最昂贵的人力资源:数据科学家和机器学习工程师的时间和精力。如果你的数据科学家正在为数据做标记或争吵,你每小时就要支付高达90美元。最好将这样高价值的资源释放出来,用于更多的战略和分析工作,这些工作将从数据中提取业务价值。

5个步骤缩放数据标签

1.根据劳动力能力进行设计。

数据标记服务可以为大量的工作人员提供访问。众包也可以,但是研究数据科学技术开发人员hivmind发现,在相同的数据标签任务中,匿名员工提供的数据质量低于管理团队。

您最好的赌注正在与同一团队合作,因为他们熟悉您的业务规则,背景和边缘案例的增加,数据质量随着时间的推移而改善。他们还可以在加入团队时训练新人。这与机器学习项目的数据标签特别有用,其中迭代的质量和灵活性是必不可少的。

2.寻找弹性

寻找弹性来扩大或缩小标签。您可能必须根据生成的传入数据量实时地对数据进行标记。也许你的公司在一年中的某些星期会出现季节性的购买量高峰,就像一些公司在送礼节日之前所做的那样。我们还发现,产品发布可以产生数据标签量的峰值。你需要一个可以根据你的需求调整规模的员工队伍。

CloudFactory在2019年初接手了一个巨大的项目,帮助客户发布产品。完成相关的数据标注任务需要在5周内完成1200小时。我们完成了密集的工作,并继续为该产品标记传入的数据。不受数据标签负担的束缚,我们的客户有时间创新后处理工作流程。

3.选择智能工具。

无论您是购买它还是自己构建它,您选择的数据充实工具将显著影响您扩展数据标签的能力。记住,这是一个渐进的过程:你今天的数据标签任务可能在几个月后看起来不同,所以你要避免把你锁定在一个可能不适合你在不久的将来需要的单一方向上的决定。

无论您是在规模上增长还是在规模上运营,您都需要一个工具,使您能够灵活地更改数据特性、标记过程和数据标记服务。与内部构建的工具相比,商业上可用的工具可以让您更好地控制工作流、特性、安全性和集成。它们还为您提供进行更改的灵活性。

4.衡量工人的生产力。

生产力可以以各种方式衡量,但在我们的经验中,我们发现三项措施特别是工人生产力的有用视图;1)完成的工作量,2)工作质量(精度加一致性)和3)工人参与。

在工人方面,强大的过程导致更高的生产力。将技术、工人和指导结合起来,可以缩短贴标时间,提高产量,减少停机时间。我们发现,当我们在小团队中放置数据标签,培训他们关于您的任务和业务规则,并向他们展示什么是高质量的工作时,数据质量会更高。

团队领导者鼓励合作、同伴学习、支持和社区建设。员工的技能和优势被他们的团队领导所了解和重视,他们为员工提供专业成长的机会。我们发现,这种小团队方法,结合智能工具环境,可以产生高质量的数据标记。

5.简化项目和数据标签团队之间的沟通。

组织,与您的数据标签团队的可访问通信使得更容易扩展过程。根据我们的经验,我们建议您与标签团队进行通信的紧密封闭的反馈循环,以便快速发挥对抗变化,例如更改标签工作流程或迭代数据功能。

当数据标签直接为您的产品功能或客户体验提供支持时,贴标程序的响应时间需要快速,并且通信是关键。数据标签服务提供商应该能够在时区上工作,并优化您对影响计算机学习项目最终用户的时区的通信。

要了解更多关于缩放的信息,请下载我们的质量培训数据报告

关于规模的关键问题

  • 描述你的劳动力的可扩展性。有多少工人我们可以随时访问吗?我们能根据我们的需要,增加或减少数据标签的数量吗?我们多久能这样做一次?
  • 你如何衡量工人生产率?您的数据标签团队需要多长时间才能达到全部吞吐量?数据标签团队的规模是否会影响任务吞吐量?随着团队规模的扩大,吞吐量的增加会影响数据质量吗?
  • 你怎么处理迭代在我们的数据标签功能和操作中?
  • 告诉我们客户端支持我们和你的团队接触后就能预料到。我们多久见一次面?我的团队应该计划花多少时间来管理这个项目?

关键三:
定价——我应该按小时还是按任务支付?

用于机器学习的数据标签第三个是定价的。模型数据标签服务用于计算定价可能会对您的整体成本和数据质量产生影响。

数据标签服务成本是什么?

通常,数据标签服务按任务或小时收费,您选择的模式可以为标签商创造不同的激励。如果你向数据标签支付每项任务的费用,就会激励他们尽可能多地完成任务,从而导致数据质量低下,延迟部署并浪费关键时间。

相比之下,管理工作人员是为他们的时间付出代价,并且被激励获得权限,特别是更复杂的任务,并且需要更高级别的主体性。这种差异对数据质量具有重要意义,并且在下一节中,我们将从最近的一项研究中提出证据,突出了两种模型之间的一些关键差异。

数据标识质量与成本研究

数据科学技术开发商hivmind对数据标签质量和成本进行了研究。他们招募了一支按小时计酬的管理团队,以及一家领先的众包平台上的匿名员工,让他们完成一系列相同的任务。hivmind的研究目标是更详细地了解这些动态——看看哪个团队提供了最高质量的数据以及相对成本。

同样的任务,两个数据标签团队

任务是基于文本的,并从基本到更复杂的范围。HiveMind以两种不同的补偿率向众群劳动力发送了任务,其中一个组接收更多,确定成本如何影响数据质量。

任务A:简单的转录

众群工人在7%的病例中被错误地转录了不正确的数字。当他们被支付双重时,错误率下降到5%以下,这是一个显着的改善。托管工人只在0.4%的情况下犯了一个错误,这是一个重要的区别,因为它对数据质量有所意义。总的来说,在这项任务上,众包员工的错误率是管理员工的10倍以上。

task-transcription

任务B:情感分析

员工们从一家评论网站上收到一份公司评论的文本,然后被要求对该评论的情绪从1到5打分。实际评级,或地面真实,被删除。被管理的工人有一致的准确性,在大约50%的情况下得到正确的评级。众包员工存在一个问题,尤其是差评。对于1星和2星的评论,准确率几乎是20%,基本上与猜测相同。对于4星和5星的评价,员工类型之间的差别很小。

任务C:从非结构化文本中提取信息

工作人员使用产品召回的标题和描述,按照危害类型对召回进行分类,从11个选项中选择一个,包括“其他”和“提供的信息不够”。不管字数多少,众包员工的准确率都在50%到60%之间。被管理的工人达到了更高的准确率,75%到85%。管理人员的准确率比众包团队高出25%。

要了解更多关于数据标签质量和成本的信息,请下载研究结果:人群与管理团队:大规模质量数据处理研究

数据标签定价:3个关键考虑

寻找具有现实,灵活的条款和条件的数据标签服务。具体来说,您正在寻找:

  1. 可预测的成本结构,所以你知道什么数据标签将成本随着你的规模和吞吐量的增加
  2. 价格符合你的目的,你只需要支付你需要得到高质量的数据集
  3. 当数据特性和标签需求发生变化时,可以灵活地进行更改。避免签订那些将你锁定在几个月服务、平台费用或其他限制性条款中的合同。
要了解更多有关您的数据标签劳动力的定价,请退房数据标签众包的3个隐性成本

关于价格的关键问题询问数据标签服务

  • 我们是按小时付费还是按任务付费?你为什么要组织你的定价模型那条路?当我们扩大规模(增加数量或吞吐量)时,我们的工作是否会变得更具有成本效益?
  • 我们是否需要签署数月的合同数据标签服务?
  • 与我们做的工作相比,你的解决方案的成本是多少内部
  • 激励工人标签数据的高质量或更大的容量?如何?

必备4:
安全-如何保护我的数据?

机器学习数据标记的第四个关键是安全。根据您的数据需要的安全级别,数据标签服务应符合监管或其他要求。

外包数据标签的安全风险有哪些?

您的数据标签服务可以在其工人时危及安全性:

  1. 从不安全的网络访问您的数据或使用没有恶意软件保护的设备
  2. 下载或保存您的一些数据(例如,屏幕捕获,闪存驱动器)
  3. 当你的数据出现在公共场所时,给它们贴上标签
  4. 没有与你的工作安全规则相关的培训、背景或问责制
  5. 在物理或数字环境中工作,该环境未通过认证以符合您的业务必须遵守的数据法规(例如,HIPAA, SOC 2)。

安全和您的数据标签工作人员

如果数据安全是你的机器学习过程中的一个因素,你的数据标签服务必须有一个可以安全地完成工作的设施,正确的培训、政策和流程到位——他们应该有证明他们的流程已经被审查的证书。

最重要的是,您的数据标签服务必须根据您和组织的方式尊重数据。它们还应在这三个区域中有一个记录的数据安全方法:

  • 人们和劳动力:这可能包括对员工的背景调查,可能要求标签商签署一份保密协议(NDA)或概述你的数据安全要求的类似文件。可以管理或度量劳动力的遵从性。它可能包括与您的数据相关的安全协议的工作人员培训。
  • 技术和网络:员工可能会被要求上交他们带到工作场所的设备,比如手机或平板电脑。在工作人员用来标记数据的设备上,可能会禁用下载或存储功能。网络安全可能会大大增强。
  • 设施和工作区:工作人员可能会坐在一个让其他人看不到他们工作的空间里。他们可能会在一个安全的地方工作,只有经过授权的人员才能进入数据被标记的建筑物或房间。视频监控可以用来加强建筑物和工作房间的物理安全。

安全问题不应该阻止您使用数据标签服务,它将让您和您的团队专注于机器学习中最具创新性和战略性的部分:模型训练、调优和算法开发。

要了解更多关于CloudFactory的安全数据标签服务,请下载我们的安全数据表

数据标签服务安全的关键问题

  • 你会使用我的标签数据集创建或增加数据集,并使他们可用第三方
  • 你们有安全设施吗?你如何筛选和批准工人在那些设施里工作?多么安全的数据培训你们提供给工人吗?当新成员加入团队时会发生什么?
  • 你会采取什么措施来保护设施我们的工作在哪里完成?您是否在需要更高安全级别的项目中使用视频监控?
  • 如何保护受影响的数据监管要求,如HIPAA或GDPR?那么个人身份信息(PII)呢?

必备5:
工具——我是否需要一个用于数据标记的工具平台?

机器学习中数据标记的第五个要素是工具,无论你选择自己制造还是从第三方购买,你都需要工具。为什么?因为为机器学习标记生产级培训数据需要智能软件工具和熟练的人在循环中。数据标记服务应该能够提供选择和使用数据标记工具的建议和最佳实践。理想情况下,他们将与各种工具提供商建立合作关系,为您提供选择,并使您的体验几乎无缝。它们还将提供所需的专业知识,将需要上下文、创造力和适应性的任务分配给人,同时将需要速度、测量和一致性的任务分配给机器。

任务进展

与分配的任务人员和机器更容易处理用户友好的工具,将数据标记为原​​子或更小的任务分解为原子或更小的任务。通过将复杂的任务转换为一系列原子组件,您可以分配工具符合高质量的机器任务,并涉及人们获取当今工具尚未掌握的任务。

将工作分解成原子组件还可以更容易地度量、量化和最大化每个任务的质量。每种任务都可能有自己的质量保证(QA)层,并且该过程也可以分解为原子任务。

任务进展

每台机器学习建模任务都不同,因此您可能会通过几个迭代移动,即使在开始收集数据之前,即使在您开始收集数据之前也可以通过良好的测试定义和一组指令。如果您可以将域名知识有效地将域名知识转换为标记数据,您可以解决机器学习中最困难的问题。

在为数据标签提供团队十年之后,我们知道这是一个渐进的过程。你开始的标签任务在几个月内可能会有所不同。在此过程中,您和您的数据标签团队可以调整您的过程,以获得高质量和模型性能的标签。

选择数据标签工具:5步

我们已经了解到,在选择您的数据标签工具以最大化数据质量和优化您的劳动力投资时,以下五个步骤是必不可少的:

1.根据您的用例,窄工具。

您的数据类型将决定可用的工具。工具在数据丰富特性、质量(QA)功能、支持的文件类型、数据安全认证、存储选项等方面各不相同。标签的功能可能包括包围盒、多边形、二维和三维点、语义分割等等。

2.比较构建和购买的好处。

构建您自己的工具可以提供有价值的好处,包括更多对标签过程,软件更改和数据安全性的控制。您还可以更轻松地解决和减轻标签中的无意识的偏见。然而,购买市售工具往往昂贵的速度较低,因为您的团队可以专注于他们的核心使命而不是支持和扩展软件能力,为您的机器学习项目的其他方面释放有价值的资本。您购买时,可以为您需要的功能配置工具,并提供用户支持。

对于任何数据标记工作负载,都有不止一种商业可用的工具,而且团队一直在开发新的工具和高级功能。当你购买时,你实际上是在租赁工具,这意味着:

  1. 有资金支持的实体被赋予了这个工具的成功;
  2. 您可以根据需要灵活地使用多个工具;和
  3. 您的工具供应商支持该产品,因此您不必在工具上花费宝贵的工程资源。

3.考虑您的组织的规模和成长阶段。

我们发现公司阶段是选择工具的一个重要因素。

  1. 开始:有几种方法可以帮助你开始选择正确的工具。这就是构建还是购买的关键问题。您需要评估商业上可用的选项(包括开源),并确定启动流程所需的功能和成本的正确平衡。虽然一些众包供应商提供工具平台,但与纯粹专注于最佳数据标签工具作为核心功能的商业供应商相比,它们在功能成熟度曲线上往往落后。此外,请记住,众包数据标签将是匿名的,所以背景和质量可能是痛点。
  2. 扩展过程:如果您处于成长阶段,商业可行的工具可能是您的最佳选择。您可以在很少甚至不需要开发资源的情况下轻松地定制、配置和部署特性。如果您愿意,开放源码工具可以为您提供对安全性、集成和更改灵活性的更多控制。记住,构建工具是一项重大的承诺:随着时间的推移,您将在维护平台上进行投资,而这可能是昂贵的。
  3. 持续的规模:如果你的运营规模很大,并且希望随着时间的推移持续增长,你可以获得商业上可行的、完全定制的、只需要很少开发资源的工具。如果您走开源路线,请确保创建长期流程和堆栈集成,以便您利用任何您想利用的安全性或敏捷性优势。
成长期

4.不要让你的劳动力选择把你锁定在一个工具上。

为了实现对过程的最大灵活性和控制,不要将工作人员与工具绑定在一起。您的劳动力选择可以决定数据质量的好坏,而数据质量是模型性能的核心,因此保持工具选项的开放性非常重要。最好的数据标签团队可以快速采用任何工具,并帮助您调整它,以更好地满足您的标签需求。

5.考虑数据质量需求。

质量保证功能内置在一些工具中,您可以使用它们来自动化部分QA过程。然而,这些QA功能本身可能是不够的,所以请寻找管理的劳动力供应商,他们可以提供训练有素的工人,具有丰富的标签任务经验,这将产生更高质量的培训数据。

谨防合同锁定:一些数据标签服务提供商要求您为其劳动力或其工具签署多年的合同。如果您的数据标签服务提供商不符合您的质量要求,您将希望灵活地测试或选择其他提供商,而不会受到惩罚,而追求智能工具策略的另一个原因是如此至关重要,因为您可以扩展数据标签过程。

关于工具的关键问题询问您的数据标签服务

  • 你们提供数据标签吗工具?我可以在不使用该工具的情况下访问劳动力吗?
  • 您的团队拥有哪些标签工具、用例和数据特性188金宝搏亚洲官网经验?
  • 您如何处理数据标签工具的变化因为我们的数据充实需要改变?这对您的数据标签团队有不利影响吗?
  • 描述一下你如何处理质量保证以及如何将其分层到数据标签任务进程中。我的团队需要在多大程度上参与QA ?

要了解更多关于选择或构建数据标签工具的信息,请阅读选择数据标签工具的5个战略步骤

下一个步骤

现在我们已经介绍了机器学习中的数据标记的基本元素,您应该了解更多有关可用技术、最佳实践以及您应该向未来的数据标记服务提供商提出的问题。下面简要回顾一下我们已经讲过的内容,并提醒你在雇佣数据标签服务时应该注意什么。

1)数据质量和准确性:数据的质量确定模型性能。考虑一下您今天的任务的效果是多么重要,以及如何随着时间的推移而发展。重新审视影响机器学习项目数据标签质量的四个员工特性:知识和情境,敏捷性,关系和沟通。考虑如何衡量质量,并确保您可以与数据贴标程序进行通信,以便您的团队可以快速将更改或迭代结合到标记的数据功能。

记住,经过审查、培训和积极管理的团队可以交付更高的技能水平、参与度、责任制和质量。当您选择一个管理团队时,他们使用您的数据越多,他们建立的上下文就越多,他们对您的模型的理解也就越好。这种连续性导致了更高效的工作流程和更高质量的培训数据。

2)规模:设计您的劳动力模型以获得弹性,因此您可以根据您的项目和业务需求扩展工作,而不会影响数据质量。通常,您希望分配需要域主管性,上下文和适应性的人员任务。提供更好地完成重复,测量和一致性的机器任务。

如果您使用数据标签服务,请了解您一次可以访问多少工人,以及该服务如何衡量工人的生产力。当您更多地了解模型的性能时,请确保您的劳动力提供者能够提供您迭代流程和数据特性所需的敏捷性。一定要询问客户支持情况,以及你的团队需要花多少时间来管理项目。

3)价格:您的数据标签服务用于计算价格的模型可能会影响您的总体成本和数据质量。考虑一下,你是想按小时还是按任务支付数据标签的费用,内部工作是否更划算。

寻找适合你的目的的定价,并提供一个可预测的成本结构。当你增加数据标签的数量时,找出工作是否变得更划算。一定要询问数据标签服务部门,他们是否鼓励员工用高质量或更大数量的数据进行标签,以及他们是如何做的。

4)安全:根据您的数据需要的安全级别,数据标签服务应符合监管或其他要求。如果您使用数据标签服务,它们应该为其劳动力、技术、网络和工作空间提供文档化的数据安全方法。

一定要弄清楚你的数据标签服务是否会使用你的标签数据来创建或增加他们提供给第三方的数据集。深入调查,看看他们是如何保护设备和屏幕工人的。通过这个过程,你会知道他们是否像你的公司一样尊重数据。

5)工具:选择您的数据标签工具是一个重要的战略决策,它将对您的标签过程和数据质量产生深远的影响。你会构建或购买你的数据标签工具吗?如果您将数据标签外包,请寻找能够提供选择和使用数据标签工具的最佳实践的服务。如果他们与工具提供者有合作关系,并且能够基于您的用例提出建议,那就更好了。

你准备好谈谈你的数据标签操作了吗?

跟销售

常见问题

在为基于自然语言的应用程序创建培训数据集时,尤其重要的是评估不同数据标签解决方案的贴标体体验级别,语言能力和质量保证过程。CloudFactory的工人将业务环境与他们的任务经验结合,以便根据客户的独特规范准确解析和标记文本。

众包解决方案,如图8对于出错可能性较低的简单任务来说,这是一个不错的选择,但如果您想为需要任何级别的培训或经验的任务输出高质量的数据,您将需要一个经过审查的、管理的劳动力。CloudFactory为您的团队提供了一个扩展,可以在第一时间获得正确的数据工作,交付影响您最重要业务目标的最高质量的数据工作。

众包只是给你的数据贴上标签的一种方法,但对于那些需要各种培训或经验的任务来说,往往不是最好的解决方案,因为低效的流程、缺乏管理,以及标签人员缺乏经验的风险。或者,CloudFactory提供了一个经过审查和管理的数据标签团队,可以交付最高质量的数据工作,以支持您的关键业务目标。

最好的结果将来自与能够提供审查和管理劳动力的合作伙伴,以帮助您完成数据输入任务。CloudFactory提供灵活的劳动力解决方案,精确处理大容量、常规任务和培训数据集,这些数据集为核心业务提供动力,并通过计算机视觉、NLP和预测分析应用程序将人工智能带入生活。

标记图像以训练机器学习模型是监督学习的关键步骤。您可以使用不同的方法,但标记数据的人员必须非常细心,并且在特定的业务规则上知识渊博,因为每个错误或不准确都会对数据集质量和预测模型的整体性能产生负面影响。为了在没有更重要的任务中分散内部团队成员的情况下达到高度的准确性,您应该利用可值得信赖的合作伙伴,该合作伙伴可以提供审核和经验丰富的数据贴图,这些数据贴标者培训了您的特定业务需求,并投入了所需的结果。

您为机器学习模型使用的培训数据集将直接影响预测模型的质量,因此您使用适用于您的AI计划的数据集并铭记您的特定业务要求是非常重要的。虽然你可以利用其中一个开源数据集可用的,你的结果将偏向于用于标记数据的要求和标记它的人的质量。为了获得最佳结果,您应该收集与业务需求一致的数据集,并与可信任的合作伙伴合作,该合作伙伴可以提供经过审查的、经过培训的、针对您的特定业务需求进行培训的可扩展团队。

数据标记需要收集图像、文本或音频等数据点,并由合格的团队为每个输入点标记或标记有意义的信息,这些信息将用于训练机器学习模型。有不同的技术来标记数据,所使用的技术取决于具体的业务应用,例如:边界框、语义分割、编辑、多边形、关键点、立方等等。与经验丰富的数据标签合作伙伴合作,可以确保您的数据集根据您的需求和行业最佳实践被正确地标签。

自动驾驶系统需要大量高质量的标记图像、视频、3-D点云和/或传感器融合数据。开发这些系统的公司基于操作系统的专有算法在市场上竞争,所以他们使用仪表盘摄像头和激光雷达传感器收集自己的数据。根据他们设计的系统和使用地点的不同,他们可能会在一个或多个城市的不同天气条件和一天中的不同时间收集多个街景类型的数据。

数百人(有时是数千人)组成的团队使用先进的软件将原始数据转换成视频序列,并将其分解以进行标记,有时一帧一帧地进行标记。然后,他们根据设计自动驾驶系统的项目组设定的业务规则,对数据特征进行标注。这些数据被用来训练系统如何驾驶。高质量的培训数据对于设计高性能的自动驾驶汽车系统至关重要,因此许多开发这些系统的公司都使用一种或多种数据标识服务,在测量和维护数据质量方面有着特别高的标准。

市场上有很多图像标注工具。例如:Labelbox, Dataloop,深化,Foresight, supervised, OnePanel, Annotell, Superb。人工智能,Graphotate。

许多工具可以帮助开发出色的目标检测。质量目标检测依赖于设计良好的软件/硬件系统中的最佳模型性能。高质量的模型需要高质量的培训数据,这需要人员(劳动力)、过程(注释指南和工作流)和技术(标记工具)。因此,图像标签工具仅仅是达到目的的一种手段。

高质量培训数据的组成部分是人员(劳动力)、过程(注释指南和工作流、质量控制)和技术(输入数据、标记工具)。获得图像标记的一种简单方法是与受管理的劳动力提供者合作,该提供者可以提供经过审查的团队,该团队经过培训,可以在您的工具和注释参数中工作。

你可以通过API(如Clarif.ai)使用自动图像标记,也可以通过众包或管理劳动力解决方案使用手动标记。API标签最大化了响应速度,但不是针对每个数据集或用例定制的,从而降低了总体数据集的质量。在某些情况下,通过众包获得可用的结果是可能的,但管理的劳动力解决方案将提供最高质量的标签结果,并允许随着时间的推移进行最大的定制和适应。

Baidu