机器学习数据标签的最终指南

在使用数据标签服务之前,您需要了解的所有信息。采取战略性行动,建立高质量的数据集,并利用宝贵的时间专注于创新。

如果您有大量的数据要用于机器学习或深度学习,那么您需要工具和人员来丰富这些数据,以便能够培训、验证和调整您的模型。如果你的团队和大多数人一样,那么你大部分工作都是在内部完成的,你正在寻找一种方法来回收内部团队的时间,专注于更具战略性的计划。您准备好雇佣数据标签服务了吗?

本指南将带您通过成功外包这一重要但耗时的工作的基本要素。从可用的技术和使用的术语,到最佳实践和您应该向潜在的数据标签服务提供商提出的问题,都在这里。

机器学习数据标签最终指南

阅读下面的完整指南,或者下载PDF版本的指南,您可以稍后参考。

  1. 介绍
  2. 开始
  3. 数据质量
  4. 缩放比例
  5. 定价
  6. 安全
  7. 工具
  8. 下一步
  9. 联系
  10. 常见问题

导言:
这本指南对我有帮助吗?

让我们来弄清楚你来这里的原因。如果您有可以为机器学习标记的数据,并且您正在处理以下一个或多个挑战,则本指南将对您最有帮助。

你有很多未标记数据。大多数数据都没有标签,这对大多数人工智能项目团队来说是一个挑战。充分地80%的人工智能项目时间根据分析公司Cognilytica的说法,这些时间都花在了收集、组织和标记数据上,而这是团队无法承受的,因为他们在与可用数据竞争,也就是为了训练和部署模型而适当构造和标记的数据。

分配给机器学习项目任务的时间百分比来源:Cognilytica

(来源:Cognilytica)

您的数据标签是低质量。有很多原因,您的数据可能标有低质量,但通常可以在数据标记工作流程中使用的人员,过程或技术中找到根本原因。

你想规模您的数据标签操作,因为您的卷正在增长,您需要扩展容量。如果您在内部为数据添加标签,则扩展可能非常困难且成本高昂。

您的数据标记过程是低效的或昂贵的. 如果你花钱请数据科学家来争论数据,那么寻找另一种方法是明智之举。数据科学家的年薪可能高达19万美元。让你收入最高的资源浪费时间在基本的重复性工作上是很昂贵的。

你需要添加质量保证对您的数据标签流程进行修改,或对已经开始的QA流程进行改进。这是一个经常被忽略的数据标记领域,它可以提供重要的价值,特别是在迭代机器学习模型测试和验证阶段。

让我们开始:
标记数据与地面真相

什么是标记数据?

在机器学习中,如果您标记了数据,则意味着您的数据被标记或注释,以显示目标,这是您希望机器学习模型预测的答案。通常,数据标记可以指包括数据标记、注释、分类、调节、转录或处理的任务。

什么是数据注释?

数据注释通常是指标记数据的过程。数据注释和数据标签通常可互换使用,尽管它们可以根据行业或用例不同地使用。

标记数据亮点数据特征- 或属性,特征或分类 - 可以分析有助于预测目标的模式。例如,在自动车辆的计算机视觉中,数据贴标程序可以使用逐帧视频标签工具来指示路牌,行人或其他车辆的位置。

什么是“循环中的人”(HITL)?

HITL利用人和机器智能创建机器学习模型。在人在回路配置中,人们参与到改进的良性循环中,在这种循环中,人们的判断用于训练、调整和测试特定的数据模型。

机器学习的标签是什么?

标签是人在循环中用来识别和调出数据中存在的特征的东西。如果您想在模式识别、分类和回归中开发高性能的算法,选择信息丰富、有鉴别力和独立的特征进行标记是至关重要的。准确标记的数据可以提供基本事实用于测试和迭代模型。

机器学习中的“基本事实”是什么?

在机器学习中,“ground truth”指的是检查ML算法的结果与真实世界的准确性。本质上,这是对算法准确性的现实检验。这个术语是从气象学中借来的,“地面真相”是指在实际发生天气事件的地面上获得的信息,然后将这些数据与预报模型进行比较,以确定其准确性。

机器学习中的“训练数据”是什么?

训练数据是用于训练机器学习算法或模型的丰富数据。

如今,公司如何标记其数据?

组织使用软件、流程和人员的组合来清理、组织或标记数据。通常,您的数据标签工作人员有四个选项:

  • 员工-他们在你的工资单上,无论是全职还是兼职。他们的工作描述可能不包括数据标签。
  • 管理团队-您使用经过审查、培训和积极管理的数据标签(例如CloudFactory)。
  • 承包商——他们是临时或自由职业者。
  • 众包-您使用第三方平台一次访问大量员工。

托管云工作者

数据标签包括一系列广泛的任务:

  • 使用工具来丰富数据
  • 数据标签的质量保证
  • 过程迭代,如数据特征选择、任务进度或QA中的更改
  • 数据标签机的管理
  • 新成员的培训
  • 项目规划、流程运作和成功衡量

我们给数据贴标签已经有十年了。在这段时间里,我们学会了如何结合人员、流程和技术来优化数据标签的质量。当你需要为机器学习标记数据时,你需要考虑以下五个基本要素:

基本原则1:
数据质量和准确性-什么影响数据标签的质量和准确性?

虽然这些术语经常互换使用,但我们已经了解到准确度和质量是两码事。

  1. 精确在数据标记中,测量标记与地面真实值的接近程度,或数据中标记的特征与现实条件的一致程度。无论您是在构建计算机视觉模型(例如,在街道场景中的对象周围放置边界框)还是在构建自然语言处理(NLP)模型(例如,为社会情绪对文本进行分类),都是如此。

  2. 质量在数据标签中,关于整个数据集的准确性。您所有贴标程序的工作是否相同?标签在您的数据集中一直准确吗?无论您有29,89个或999个数据贴图者,这是相关的。

低质量的数据实际上可能会适得其反:首先在模型培训期间,然后在模型使用标记数据以通知未来决策时。为了创建、验证和维护高性能机器学习模型的生产,您必须使用可信、可靠的数据对其进行培训和验证。

4影响数据标注质量的员工特征

在我们为企业公司启动的托管数据标签团队提供托管数据标签团队的经验中,我们已经学习了四个员工特征,影响了机器学习项目的数据标签质量:知识和情境,敏捷性,关系和沟通。

什么会影响标签中的数据质量?

1.知识和背景

在数据标注中,基本的领域知识和上下文理解对于您的员工创建高质量、结构化的机器学习数据集至关重要。我们了解到,工人们给数据贴上的标签质量要高得多上下文,或了解所标记数据的设置或相关性。例如,标记文本数据的人员应该了解某些单词何时可以以多种方式使用,具体取决于文本的含义。为了准确地标记“bass”一词,他们需要知道文本是否与鱼或音乐有关。他们可能需要理解如何用词来代替其他词,例如“纸巾”可以用“纸巾”代替

为了获得最高质量的数据,贴标人员应该了解您所服务行业的关键细节,以及他们的工作与您正在解决的问题之间的关系。如果您的标签团队的一名成员领域知识,或对您的数据所服务的行业有一个基本的了解,这样他们就可以管理团队并就与上下文、业务或产品的用途以及边缘案例相关的规则对新成员进行培训。例如,与医疗保健相关的文本的词汇、格式和风格可能与法律行业的差异很大。

2.敏捷性

机器学习是一个迭代的过程。随着测试和验证模型并从它们的结果中学习,数据标签也在不断发展,因此需要准备新的数据集并丰富现有数据集以改进算法的结果。

您的数据标签团队应具有灵活性,能够根据最终用户的需求、产品的变化或新产品的添加进行调整。灵活的数据标记团队可以对数据量、任务复杂性和任务持续时间的变化做出反应。标签团队的适应性越强,您可以完成的机器学习项目就越多。

在开发算法和训练模型时,数据标签可以提供关于数据特征-即属性、特征或分类-这些将被分析为有助于预测目标的模式,或回答您希望您的模型预测的内容。

3.的关系

在机器学习中,您的工作流程不断变化。您需要能够根据您在模型测试和验证阶段学到的知识快速响应并在工作流程中进行更改的数据标签。

要做那种敏捷的工作,你需要灵活性在你的过程中,,关心的人关于您的数据和项目的成功,以及与数据标签团队的领导的直接联系,这样您就可以根据您在机器学习的测试和验证阶段所学到的知识迭代数据功能、属性和工作流。

4.表达

您需要与标签团队直接沟通。A.封闭反馈循环是在项目团队和数据标签商之间建立可靠沟通和协作的极好方式。标签制作者应该能够在标记数据时分享他们所学到的知识,这样你就可以利用他们的见解来调整你的方法。

要了解有关质量和上下文的更多信息,请查看我们的经验教训:NLP数据团队的3个基本要素.

如何在数据标签中衡量质量?

我们从员工的角度衡量数据标签质量有四种方法:

  1. 黄金标准-这项任务有一个正确的答案。根据正确和不正确的任务衡量质量。
  2. 样品评估-选择已完成任务的随机样本。经验更丰富的员工,如团队负责人或项目经理,会检查样本的准确性。
  3. 一致的意见-指派几个人做同样的任务,正确的答案是大多数贴标者给出的答案。
  4. 联盟交叉口(借据)-这是一个共识模型,经常用于图像中的目标检测。它结合了人和自动化来比较你手工标记的边界框,地面真实图像与你的模型预测的边界框。
您将希望从这些质量保证方法中自由选择,而不是被锁定在单个模型中来衡量质量。在CloudFactory,我们在每个项目中使用一种或多种方法来衡量我们自己的数据标记团队的工作质量。
要了解有关测量数据标签中的质量的更多信息,请退房扩展高质量培训数据:人群的隐藏成本.

询问数据标签服务有关数据质量的关键问题

  • 我们的团队将如何沟通和你的数据标签团队一起?
  • 随着时间的推移,我们会使用相同的数据标签吗?如果员工发生变化,谁来培训新的团队成员?描述您如何传输上下文和域专业知识团队成员在数据标签团队上/下转换时。
  • 您的数据标记过程是什么灵活的? 您将如何管理我们团队中影响标签数据功能的更改或迭代?
  • 你用什么标准来衡量质量? 您如何与我们的团队分享质量指标?如果不符合质量标准,会发生什么情况?

基本要求2:
缩放-当我的数据标签量增加时会发生什么?

机器学习数据标记的第二个基本要素是规模。您需要的是根据您的项目和业务需求,在不影响数据质量的情况下,灵活地扩大或缩小员工规模。

数据标记是一个耗时的过程,在机器学习中更是如此,它要求您在训练和调整模型时迭代和演化数据特征,以提高数据质量和模型性能。随着数据的复杂性和数量的增加,对标签的需求也会随之增加。视频注释是特别劳动密集型的:每小时收集的视频数据大约需要800人小时注释。一个10分钟的视频包含18000到36000帧,大约每秒30到60帧。

我如何知道何时该扩展和雇佣数据标签服务?

如果你最昂贵的资源,比如数据科学家或工程师,花费大量的时间来争夺机器学习或数据分析的数据,你就可以考虑用数据标记服务来进行缩放。数据标签量的增加,无论是数周还是数月,都将变得越来越难以内部管理。

它们还消耗了一些最昂贵的人力资源的时间和精力:数据科学家和机器学习工程师。如果你的数据科学家正在标记或争论数据,你每小时要支付高达90美元的费用。最好将这种高价值的资源腾出,用于更具战略性和分析性的工作,从而从数据中提取业务价值。

缩放数据标签的5个步骤

1.根据劳动力能力进行设计。

数据标签服务可以提供对大型工人池的访问。众群也可以,但是研究数据科学技术开发人员hivmind发现,在相同的数据标签任务中,匿名员工提供的数据质量低于管理团队。

您的最佳选择是与同一个标签商团队合作,因为随着他们对您的业务规则、上下文和边缘案例的熟悉程度的提高,数据质量会随着时间的推移而提高。他们还可以在新人加入团队时进行培训。这对于机器学习项目的数据标记尤其有用,因为在这些项目中,迭代的质量和灵活性至关重要。

2.寻找弹性

寻找弹性来放大或缩小标签。您可能需要根据生成的传入数据量实时标记数据。也许你的生意在一年中的某几个星期里会有季节性的购买量高峰,就像一些公司在送礼假期之前所做的那样。我们还发现,产品发布会导致数据标签数量激增。你需要一支能够根据需要调整规模的员工队伍。

CloudFactory在2019年初承担了一个庞大的项目,帮助客户进行产品发布。完成相关的数据标记任务需要5周1200小时。我们完成了大量的工作,并继续为该产品的传入数据添加标签。不受数据标签负担的束缚,我们的客户有时间创新后处理工作流。

3.选择智能工具。

无论您是自己购买还是构建它,您选择的数据丰富工具将大大影响您缩放数据标签的能力。请记住,这是一个渐进过程:您的数据标签任务在几个月内可能看起来不同,因此您将避免将您锁定到不久的将来可能不适合您需求的单一方向的决定。

无论您是在规模上增长或运行,您都需要一个工具,使您可以灵活地对您的数据功能,标记过程和数据标签服务进行更改。商业上可用的工具可以让您更加控制工作流程,功能,安全性和集成,而不是内置的工具。他们还可以灵活地进行更改。

4.衡量工人的生产力。

生产率可以用多种方式来衡量,但根据我们的经验,我们发现有三种衡量方法特别有助于了解工人的生产率;1) 完成工作量、2)工作质量(准确性加一致性)和3)工人敬业度。

在工人方面,强大的流程可以提高生产率。将技术、工人和辅导结合起来,可以缩短标记时间,提高吞吐量,并最大限度地减少停机时间。我们发现,当我们将数据标签员放在小团队中,对他们进行任务和业务规则方面的培训,并向他们展示高质量的工作时,数据质量会更高。

团队领导者鼓励协作、同侪学习、支持和社区建设。员工的技能和优势被他们的团队领导所了解和重视,他们为员工提供专业成长的机会。我们发现,这种小型团队方法,结合智能工具环境,可以实现高质量的数据标记。

5.简化项目和数据标签团队之间的沟通。

与您的数据标签团队进行有组织、可访问的沟通,使流程更易于扩展。根据我们的经验,我们建议与您的标签团队建立一个紧密的反馈回路,以便您能够快速做出有效的更改,例如更改标签工作流程或迭代数据功能。

当数据标签直接为您的产品功能或客户体验提供动力时,贴标者的响应时间需要很快,沟通是关键。数据标签服务提供商应该能够跨时区工作,并针对影响机器学习项目最终用户的时区优化您的通信。

要了解有关scale的更多信息,请下载扩展质量培训数据报告.

向您的数据标签服务部门询问有关Scale的关键问题

  • 描述您的员工队伍的可扩展性。有多少工人我们可以随时访问吗?我们能根据我们的需要,增加或减少数据标签的数量吗?我们多久能这样做一次?
  • 你如何衡量工人生产率? 您的数据标签团队需要多长时间才能达到最大吞吐量?随着数据标签团队的扩展,任务吞吐量是否会受到影响?随着团队规模的扩大,吞吐量的增加是否会影响数据质量?
  • 你怎么处理迭代在我们的数据中,随着我们的扩展,如何标记功能和操作?
  • 告诉我们关于客户端支持我们和你的团队接触后就能预料到。我们多久见一次面?我的团队应该计划花多少时间来管理这个项目?

必备3:
定价-我应该按小时还是按任务付款?

机器学习数据标签的第三个基本要素是定价。数据标签服务用于计算定价的模型可能会影响您的总体成本和数据质量。

数据标签服务的成本是多少?

通常,数据标签服务按任务或小时收费,您选择的模式可以为贴标者提供不同的激励。如果您为每个任务支付数据标签费,可能会激励他们尽可能多地匆忙完成任务,从而导致数据质量低下,从而延迟部署并浪费关键时间。

相比之下,管理型员工的工资是按时间支付的,他们被激励去完成正确的任务,特别是那些更复杂、需要更高层次主观性的任务。这种差异对数据质量具有重要影响,在下一节中,我们将展示最近一项研究的证据,该研究强调了两种模型之间的一些关键差异。

数据标注质量与成本研究

数据科学技术开发商Hivemind对数据标签的质量和成本进行了研究。他们招募了一支按小时计酬的管理型员工和一家领先的众包平台的匿名员工(按任务计酬),以完成一系列相同的任务。Hivemind的研究目标是更详细地了解这些动态——看看哪个团队提供了最高质量的数据,以及相对成本是多少。

相同的任务,两个数据标签劳动力

任务是基于文本的,范围从基本到更复杂。Hivemind以两种不同的报酬率向众包员工发送任务,其中一组获得更多报酬,以确定成本如何影响数据质量。

任务A:简单的转录

在7%的案例中,众包员工至少错误地转录了其中一个数字。当他们获得双倍报酬时,错误率下降到略低于5%,这是一个显著的进步。管理人员只在0.4%的情况下犯了错误,考虑到这对数据质量的影响,这是一个重要的区别。总体而言,在这项任务中,众包员工的错误率是管理员工的10倍以上。

任务转录

任务B:情绪分析

工人们从一家评论网站收到了一份公司评论的文本,并对评论的情绪从1分到5分。实际评级或基本事实被删除。管理人员具有一致的准确性,在大约50%的情况下获得了正确的评级。众包员工有一个问题,尤其是评论差。一星级和二星级评论的准确率几乎为20%,基本上与猜测相同。对于四星和五星审查,员工类型之间几乎没有差异。

任务C:从非结构化文本中提取信息

工人们使用产品召回的标题和描述按危害类型对召回进行分类,从11个选项中选择一个,包括“其他”和“提供的信息不足”。无论字数多少,众包工人的准确率为50%至60%。管理工人实现了更高的准确率,从75%到85%。管理人员的准确率比众包团队高出25%。

要了解有关数据标签质量和成本的更多信息,请下载研究结果:人群与管理团队:大规模质量数据处理研究.

数据标签定价:3个关键考虑因素

寻找具有现实、灵活条款和条件的数据标签服务。具体而言,您正在寻找:

  1. 可预测的成本结构,这样您就可以知道随着扩展和吞吐量的增加,数据标签的成本将是多少
  2. 价格符合你的目的,你只需要支付你需要得到高质量的数据集
  3. 可随数据要素和标签要求的变化灵活地进行更改。避免签订将您锁定在几个月服务期、平台费用或其他限制性条款中的合同。
要了解有关数据标签员工定价的更多信息,请访问数据标签众包的3个隐藏成本.

关于价格的关键问题询问数据标签服务

  • 我们是按小时付款还是按任务付款?你为什么要组织你的团队定价模式那边?随着我们规模的扩大(增加产量或吞吐量),我们的工作是否会变得更具成本效益?
  • 我们需要签合同吗多月合同数据标签服务?
  • 与我们的工作相比,您的解决方案的成本是多少内部?
  • 你…吗激励工人需要为数据添加高质量或更大容量的标签?怎样

基本原则4:
安全性-如何保护我的数据?

用于机器学习的数据标签的第四个必要性是安全性。数据标签服务应根据数据所需的安全级别符合法规或其他要求。

外包数据标签的安全风险是什么?

如果您的数据标签服务的工作人员:

  1. 从不安全的网络或使用没有恶意软件保护的设备访问数据
  2. 下载或保存部分数据(如屏幕截图、闪存驱动器)
  3. 在公共场所标记数据
  4. 没有与工作安全规则相关的培训、背景或责任
  5. 在未经认证的物理或数字环境中工作,以遵守企业必须遵守的数据法规(例如HIPAA、SOC 2)。

安全性和您的数据标签工作人员

如果数据安全性是您机器学习过程中的一个因素,那么您的数据标签服务必须有一个能够安全完成工作的设施、适当的培训、政策和流程,并且他们应该有证明其流程已经过审查的认证。

最重要的是,您的数据标签服务必须像您和您的组织那样尊重数据。他们还应在所有这三个方面采取有文件记录的数据安全方法:

  • 人员和劳动力:这可能包括员工背景调查,可能要求贴标人签署保密协议(NDA)或概述您的数据安全要求的类似文件。可以管理或衡量员工队伍的合规性。它可能包括与您的数据相关的安全协议方面的工人培训。
  • 技术与网络:可能需要工人转入他们带入工作场所的设备,例如手机或平板电脑。在设备工作人员使用到标记数据时,可能会禁用下载或存储功能。有可能显着提高网络安全性。
  • 设施和工作空间:工人可以坐在一个阻止他人的空间中观看他们的工作。他们可以在安全的位置工作,具有徽章的访问权限,允许仅授权人员进入数据被标记的建筑物或房间。视频监控可用于增强建筑物的物理安全性和工作的房间。

安全问题不应阻止您使用数据标签服务,该服务将使您和您的团队能够专注于机器学习中最具创新性和战略性的部分:模型训练、调优和算法开发。

要了解有关CloudFactory安全数据标签服务的更多信息,请下载安全数据表.

向您的数据标签服务询问有关安全性的关键问题

  • 您是否会使用标记的数据集创建或增强数据集并使其可用第三方?
  • 你们有安全设施吗?您如何筛选和批准工人在那些设施里工作?多么安全的数据培训你们提供给工人吗?当新员工加入团队时会发生什么?
  • 你将采取什么措施来确保安全设施我们的工作是在哪里完成的?您是否在需要更高安全级别的项目中使用视频监控?
  • 如何保护受影响的数据监管要求,如HIPAA或GDPR?那么个人身份信息(PII)呢?

基本原则5:
工具-我是否需要用于数据标记的工具平台?

机器学习中数据标记的第五个基本要素是工具,无论您选择自己构建还是从第三方购买,都需要工具。为什么?因为为机器学习标记生产级培训数据需要智能软件工具和熟练的人员。数据标签服务应该能够在选择和使用数据标签工具方面提供建议和最佳实践。理想情况下,他们将与各种工具提供商建立合作关系,为您提供选择,并使您的体验几乎无缝。他们还将提供所需的专业知识,为人们分配需要背景、创造力和适应性的任务,同时为机器分配需要速度、测量和一致性的任务。

任务进展

使用用户友好的工具将数据标记工作分解为原子任务或更小的任务,可以更轻松地为人和机器分配任务。通过将复杂的任务转换为一系列原子组件,您可以为机器分配工具高质量执行的任务,并让人员参与到当今工具尚未掌握的任务中。

将工作分解为原子组件还可以更容易地测量、量化和最大化每个任务的质量。每种任务都可能有自己的质量保证(QA)层,该过程也可以分解为原子任务。

任务进展

每一个机器学习建模任务都是不同的,因此您可能会通过多次迭代来获得好的测试定义和一组指令,甚至在您开始收集数据之前。如果您能够有效地将有关模型的领域知识转换为标记数据,那么您已经解决了机器学习中最困难的问题之一。

经过十年为数据标记提供团队的努力,我们知道这是一个渐进的过程。几个月后,您开始的标签任务可能会有所不同。在此过程中,您和您的数据标记团队可以调整您的流程以标记高质量和模型性能。

选择数据标签工具:5个步骤

我们了解到,在选择数据标签工具以最大限度地提高数据质量和优化劳动力投资时,以下五个步骤至关重要:

1.根据您的用例缩小工具范围。

您的数据类型将决定可使用的工具。工具在数据丰富功能、质量(QA)功能、支持的文件类型、数据安全认证、存储选项等方面各不相同。用于标记的功能可能包括边界框、多边形、二维和三维点、语义分割等。

2.比较构建和购买的好处。

构建您自己的工具可以提供宝贵的好处,包括对标记过程、软件更改和数据安全的更多控制。您还可以更轻松地解决和减轻标签中的意外偏见。但是,从长远来看,购买商用工具的成本通常较低,因为您的团队可以专注于他们的核心任务,而不是支持和扩展软件功能,从而为机器学习项目的其他方面腾出宝贵的资金。购买时,您可以根据需要配置工具,并提供用户支持。

对于任何数据标记工作负载,都有不止一种商用工具可用,团队一直在开发新的工具和高级功能。当您购买时,您实际上是在租赁工具的使用权,这意味着:

  1. 有一些受资助的实体被赋予了该工具的成功;
  2. 根据您的需要,您可以灵活地使用多种工具;和
  3. 您的工具提供商支持该产品,因此您不必在工具上花费宝贵的工程资源。

3.考虑你的组织的规模和成长阶段。

我们发现公司阶段是选择工具的一个重要因素。

  1. 入门:有几种方法可以开始选择正确的工具。这就是构建或购买的关键问题。您需要评估商业上可用的选项,包括开源,并确定启动流程所需的功能和成本的正确平衡。虽然一些众包供应商提供工具平台,但与商业供应商相比,他们往往在功能成熟度曲线上落后,而商业供应商只专注于一流的数据标签工具作为其核心能力。此外,请记住,众包数据标签将是匿名的,因此上下文和质量可能是难点。
  2. 扩展过程:如果您处于成长阶段,商业上可行的工具可能是您的最佳选择。您可以轻松地定制、配置和部署功能,几乎不需要开发资源。如果您愿意,开源工具可以让您更好地控制安全性、集成性和进行更改的灵活性。请记住,构建一个工具是一项巨大的承诺:随着时间的推移,您将投资于维护该平台,而这可能代价高昂。
  3. 维持规模:如果您正在按规模运营,并且希望随着时间的推移保持这种增长,那么您可以获得完全定制的商业上可行的工具,并且只需要很少的开发资源。如果您选择开源路线,请确保创建长期流程和堆栈集成,以允许您利用任何想要利用的安全或敏捷优势。
生长期

4.不要让你的劳动力选择将你锁定在一个工具中。

为了实现对流程的最大灵活性和控制,不要将员工与工具捆绑在一起。您的劳动力选择可以决定数据质量,这是模型性能的核心,因此保持工具选项的开放性非常重要。最好的数据标签团队可以快速采用任何工具,并帮助您调整它以更好地满足您的标签需求。

5.考虑到您的数据质量要求。

质量保证功能内置于某些工具中,您可以使用它们来自动化QA过程的一部分。然而,这些QA功能本身可能还不够,因此,请寻找能够为经过培训的工人提供丰富的标签任务经验的管理型劳动力提供商,这将产生更高质量的培训数据。

谨防合同锁定:一些数据标签服务提供商要求您为其员工或工具签订多年合同。如果您的数据标签服务提供商不能满足您的质量要求,您将希望能够灵活地测试或选择另一个提供商,而不会受到处罚,这也是在扩展数据标签流程时,采用智能工具策略至关重要的另一个原因。

向数据标签服务部门询问有关工具的关键问题

  • 您是否提供数据标签工具? 我可以在不使用该工具的情况下访问您的员工队伍吗?
  • 您的团队有哪些标签工具、用例和数据功能188金宝搏亚洲官网经验具有
  • 您将如何处理数据标签工具的变化我们的数据丰富需要改变吗?这是否会对您的数据标签团队产生不利影响?
  • 描述一下你如何处理质量保证以及如何将其分层到数据标记任务进程中。我的团队需要如何参与QA?

要了解有关选择或构建数据标签工具的更多信息,请阅读选择数据标签工具的5个战略步骤.

下一步

现在我们已经介绍了机器学习数据标签的基本要素,您应该了解更多关于可用技术、最佳实践以及您应该向潜在的数据标签服务提供商提出的问题。下面是我们所涵盖内容的简要回顾,并提醒您在雇用数据标签服务时应该寻找什么。

1) 数据质量和准确性:数据的质量决定了模型的性能。考虑今天的任务对于你的任务有多么重要,以及随着时间的推移,它会如何发展。重新审视影响机器学习项目数据标记质量的四个员工特征:知识和背景、敏捷性、关系和沟通。考虑您应该如何衡量质量,并确保您可以与数据标签商进行沟通,以便您的团队能够快速将更改或迭代合并到要标记的数据功能中。

请记住,审查,培训和积极管理的团队提供更高的技能水平,参与,责任和质量。当您选择托管团队时,他们越多,他们的数据越多,他们建立的越多,他们就越了解您的模型。这种连续性导致更高效的工作流程和更高质量的培训数据。

2) 比例:为弹性设计您的劳动力模型,这样您就可以根据您的项目和业务需求向上或向下扩展工作,而不会影响数据质量。通常,您会希望为人员分配需要领域主观性、上下文和适应性的任务。让机器完成重复、测量和一致性更好的任务。

如果您使用数据标签服务,请了解您一次可以访问多少工人,以及该服务如何衡量工人的生产力。当您更多地了解模型的性能时,请确保您的劳动力提供者能够提供您迭代流程和数据特性所需的敏捷性。一定要询问客户支持情况,以及你的团队需要花多少时间来管理项目。

3) 定价:数据标签服务用于计算定价的模型可能会影响您的总体成本和数据质量。考虑是否要按小时或任务支付数据标签,以及在内部进行工作是否更具成本效益。

寻找适合您的目的并提供可预测成本结构的定价。了解随着数据标记量的增加,这项工作是否变得更具成本效益。请务必询问您的数据标签服务是否鼓励员工为数据添加高质量或更大容量的标签,以及他们是如何做到的。

4) 保安:数据标签服务应符合监管或其他要求,具体取决于数据所需的安全级别。如果您使用数据标签服务,他们应该为他们的员工、技术、网络和工作区制定一个记录在案的数据安全方法。

请务必查明您的数据标签服务是否将使用您的标签数据来创建或扩充他们提供给第三方的数据集。深入了解并了解他们是如何保护设施和筛选工作人员的。通过这个过程,您将了解他们是否像您的公司那样尊重数据。

5) 工具:选择数据标记工具是一项重要的战略决策,将对标记过程和数据质量产生深远影响。你会建立或购买你的数据标签工具吗?如果您将数据标签外包,请寻找一种能够提供选择和使用数据标签工具的最佳实践的服务。如果他们与工具提供商建立合作关系,并能根据您的用例提出建议,那就更好了。

您准备好讨论您的数据标记操作了吗?

与销售交谈

经常问的问题

在为基于自然语言的应用程序创建培训数据集时,评估贴标机经验水平、语言熟练程度以及不同数据标签解决方案的质量保证过程尤为重要。CloudFactory的工作人员将业务上下文与他们的任务经验结合起来,根据客户独特的规范准确地解析和标记文本。

众包解决方案,如图8,对于出错可能性较低的简单任务是一个很好的选择,但如果您想要高质量的数据输出,则需要任何级别的培训或经验,您将需要经过审查、管理的员工队伍。CloudFactory为您的团队提供了一个扩展,可以让您的数据工作在第一时间就正确进行,提供影响您最重要的业务目标的最高质量的数据工作。

众包只是给数据贴标签的一种方式,但对于需要任何级别培训或经验的任务来说,通常不是最佳解决方案,因为流程效率低下、缺乏管理以及标签商缺乏经验的风险。或者,CloudFactory提供了一个经过审查和管理的数据标签团队,可以提供最高质量的数据工作来支持您的关键业务目标。

最好的结果将来自与合作伙伴的合作,合作伙伴可以提供经过审查和管理的工作人员,帮助您完成数据输入任务。CloudFactory提供灵活的劳动力解决方案,以准确处理大量常规任务和培训数据集,通过计算机视觉、NLP和预测分析应用程序为核心业务提供动力,并将AI带入生活。

标记图像以训练机器学习模型是监督学习中的一个关键步骤。您可以使用不同的方法,但标记数据的人员必须非常注意并了解特定的业务规则,因为每个错误或不准确都会对数据集质量和预测模型的总体性能产生负面影响。为了在不分散内部团队成员对更重要任务的注意力的情况下实现高水平的准确性,您应该利用一个可信赖的合作伙伴,该合作伙伴可以提供经过审查和经验丰富的数据标签,并根据您的特定业务需求进行培训,并为您的预期结果进行投资。

您用于机器学习模型的培训数据集将直接影响预测模型的质量,因此,使用适用于AI计划的数据集并在脑海中标注特定业务需求是极其重要的。而你可以利用其中的一个开源数据集可用,您的结果将偏向于标记数据和标记物质的质量的要求。为了获得最佳结果,您应该收集与您的业务需求对齐的数据集,并使用可信赖的合作伙伴,可以提供培训您的特定业务需求的审核和可扩展的团队。

数据标签需要集合数据点,例如图像,文本或音频以及人员的合格团队,以标记或标记每个输入点,其中包含有意义的信息,该信息将用于培训机器学习模型。标签数据有不同的技术,使用的技术取决于特定的业务应用程序,例如:边界框,语义分段,缩减,多边形,关键点,立方体等。与经验丰富的数据标签合作伙伴接触可以确保基于您的需求和行业最佳实践正确标记您的数据集。

自动驾驶系统需要大量高质量的标记图像、视频、三维点云和/或传感器融合数据。开发这些系统的公司基于操作系统的专有算法在市场上展开竞争,因此他们使用仪表板摄像头和激光雷达传感器收集自己的数据。根据他们设计的系统和使用的位置,他们可以收集一个或多个城市中不同天气条件和时间的多种街道场景类型的数据。

数百人(有时是数千人)组成的团队使用先进的软件将原始数据转换成视频序列,并将其分解以进行标记,有时一帧一帧地进行标记。然后,他们根据设计自动驾驶系统的项目组设定的业务规则,对数据特征进行标注。这些数据被用来训练系统如何驾驶。高质量的培训数据对于设计高性能的自动驾驶汽车系统至关重要,因此许多开发这些系统的公司都使用一种或多种数据标识服务,在测量和维护数据质量方面有着特别高的标准。

市场上有许多图像注释工具。例如:Labelbox、Dataloop、Decept、Foresight、Supervisoly、OnePanel、Annotell、Superb.ai和Graphotate。

许多工具可以帮助开发优秀的目标检测。质量目标检测取决于设计良好的软件/硬件系统中的最佳模型性能。高质量的模型需要高质量的培训数据,这需要人员(劳动力)、流程(注释指南和工作流)和技术(标记工具)。因此,图像标签工具仅仅是达到目的的一种手段。

高质量培训数据的要素包括人员(劳动力)、流程(注释指南和工作流程、质量控制)和技术(输入数据、标签工具)。获取标记图像的一个简单方法是与托管工作人员提供商合作,该提供商可以提供经过审核的团队,该团队经过培训,能够在您的工具和注释参数内工作。

您可以通过API(如Clarif.ai)使用自动图像标记,也可以通过众包或托管员工解决方案使用手动标记。API标记可以最大限度地提高响应速度,但不能针对每个数据集或用例进行定制,从而降低了数据集的总体质量。在某些情况下,可以从众包中获得有用的结果,但受管理的劳动力解决方案将提供最高质量的标签结果,并允许随着时间的推移进行最大程度的定制和调整。

Baidu