在Azavea,我们的使命是创造先进的地理空间技术和研究,以产生公民和社会影响。这项任务把我们带到了一些有趣的地方——我们与世界银行合作努力在全球范围内减少交通事故开源工具将机器学习应用于卫星图像,甚至基于我们对选区划分问题的研究及解决方法.

在我们的工作中以公民和社会影响为目标是我们公司章程的基础,我们已将其写入公司章程。作为一个认证B公司,我们参与每两年一次的审计,从碳足迹到员工薪酬,再到我们在费城当地社区的参与。

Azavea在费城的办公室Azavea在费城的办公室

可以说,为了追求这些崇高的理想,我们发现自己在权衡商业决策时倾向于从长远考虑。。。这个真正地长远来看。事实上,我们的目标是在100年后实现。虽然我们在科技领域与之竞争的大多数公司都沉迷于新事物,但我们更专注于新事物不是吗从长远来看,情况将会改变。一个世纪后,我们认为人们仍然会重视基于证据的见解、卓越的客户服务和令人愉悦的产品体验。要在未来几十年实现这些承诺,我们不可能单枪匹马——因此我们一直在寻找与我们价值观相同、符合我们利益的合作伙伴。

发动机需要燃料,机器学习模型需要标记数据

我们工作的性质常常涉及到大量地理空间数据的争论,从地面雨水径流的测量,到通过空气传播的GPS数据,再到从空间向下传播的卫星图像。我们致力于将这些海量、嘈杂的数据集缩减为客户关心的相关信息源。机器学习的最新进展(以及应用新ML方法的工具)极大地扩大了我们使用这些大型地理空间数据集可以提出的问题的数量,同时减少了提出这些问题的成本和时间。

在过去几年中,我们已经看到项目吞吐量的限制因素从ML工程能力转变为培训数据收集和生成。我把我们的ML工程组织比作一个豪华汽车引擎,它需要高度精炼的燃料才能高效运转……而我们的燃料短缺:缺乏标记的训练数据。

Azavea工程团队Azavea工程团队每日“站立”会议

最初,我们决定从内部创建培训数据开始。虽然拥有标记数据的第一手经验很有帮助,但我们很快意识到,最有效的扩展方式是外包给专家。因此,我们开始认真寻找兼容的标签合作伙伴。

CloudFactory在数据标签公司中脱颖而出

我们采访了几位领导人物数据标签并仔细比较了他们的定价、方法,甚至他们的文化价值观。CloudFactory脱颖而出的原因有很多。

1.任务对齐-CloudFactory的目标是创建一百万个高质量的工作因为发展中国家的人们给我们的印象是既雄心勃勃又激动人心。Azavea的核心价值观之一是确保每位员工真正相信他们的工作“能够为一个更加和平、公正和繁荣的世界做出贡献”。CloudFactory的使命是赋予人们经济上的权力,并将他们与数字经济联系起来,使其与该核心价值观直接一致。他们的使命不仅是全球性的,而且还与我们的团队直接互动。我们开始信任并依赖尼泊尔的项目领导和北卡罗来纳州达勒姆的客户成功经理。我们每天都与项目负责人交谈,每隔一周我们会召集客户和项目负责人进行一次登记电话。通常,一家公司对社会影响的宏伟愿景并不能转化为卓越的客户体验,在CloudFactory的案例中,它绝对可以。

2.相互投资-地理空间数据的一个怪癖是,它的显示相当棘手,文件格式可能…奇怪。我们曾尝试过其他标签工具,但卫星、无人机和航空图像在用户体验中总是让人感觉像二等公民。因此,我们构建了自己的内部工具,CloudFactory不仅热情地同意使用它,而且在我们不断改进产品的过程中,它已成为宝贵的反馈来源。在早期,当我们解决用户体验中的问题时,他们对我们非常耐心,并就错误和最佳实践进行交流。(毕竟,他们使用了所有的注释工具。)有一个愿意投入时间和精力帮助我们改进工具的合作伙伴是一个意想不到的价值,我们现在无法想象没有这个价值。

Azavea的注释工具显示Azavea地理空间图像注释工具的屏幕截图

3.协商办法-令人惊讶的是,CloudFactory是唯一一个与我们交谈的数据标签服务,它严重挑战了我们关于如何组织标签工作的假设。最初,我们要求几位注释员根据我们从自己的内部工作中看到的生产力预测,专门为每周40小时添加标签。然而,CloudFactory建议,对于我们的任务,最好的结构是有一个更大的兼职贴标员团队,基于他们对抗任务疲劳的经验,并使用我们的用例生成更高质量的工作。188金宝搏亚洲官网

这让我们质疑为什么我们没有受到其他团队的任何回击——毕竟,我们不是数据标签专家,他们是!

4.价格-CloudFactory的定价很有竞争力——不是最便宜但也不是最贵的。我们从一开始就知道,我们不是在寻找绝对最便宜的选择,而是我们能够承受的最高质量的选择。我们喜欢随着时间的推移,随着我们的承诺不断增加,我们对定价的可视性。与我们交谈的一些公司是根据注释的数量定价的,我们发现这是不寻常的,因为对于一些需要精确、复杂注释的项目,我们预期每张图像的工作时间为10-15分钟,而其他简单任务可以在30秒内完成。CloudFactory是根据整个团队分配的小时数定价的,这更有意义——至少它是一个受控变量,因此我们可以相信,随着时间的推移,当我们处理新的和不同的项目时,不可避免地会出现一些边缘情况。

当外包数据标签时,考虑长期

当您考虑外包培训数据生成用于您的机器学习工作时,我鼓励您考虑长远。在Azavea,我们相信机器学习的价值主张是使用增量自动化产生短期收益。相反,将从采用机器学习技术中获得最大价值的公司将是那些将ML模型视为随着时间推移变得更有价值的资产的公司,而不是那些在投入生产时就贬值的公司。

如果您正确构建了与ML相关的计划,模型预测将反馈到您创建的标记和验证工作流程中,那么您就有机会随着时间的推移不断重新校准您正在使用的模型,并在理论上提高有效性(因此也就是价值)您正在使用的模型和用于训练它们的基础数据。如果这是你的方向,那么一个临时的兼职注释员市场是没有意义的,他们没有被当作值得信赖的合作伙伴对待。相反,您应该寻找一种承诺的、持久的关系,这种关系可以随着您在ML软件中设计的良性循环而成长和成熟。

要了解更多关于Azavea和我们的解决方案,请访问www.azavea.com.

新的行动呼吁

消息影响源文化与使命数据合作伙伴地理空间

通过订阅我们的博客获取CloudFactory的最新更新

Baidu