cf-blogs-featured-howcftrainnlp-02

“嗨,Siri,”我说。“叫南希。移动。”Siri回答说:“给林赛打电话。移动。”它开始响了。我已经六年没和琳赛合作了。我冲过去拿起手机,及时按下了红色按钮,避免了和她进行一场尴尬的、出乎意料的对话。然后,我思考了NLP开发的复杂性。

自然语言处理(NLP)是人工智能技术发展最快的应用之一。Gartner估计到2020年,50%的分析性查询将通过搜索、NLP、语音或自动化生成。用例是巨188金宝搏亚洲官网大的,预计到2021年,NLP市场的价值将达到160亿美元MarketsAndMarkets研究

由于语言的复杂性和微妙性,NLP也是最难开发的人工智能系统之一。为了训练其智能助手Siri完成与语言相关的任务,比如回答问题或在智能手机上输入文本,苹果使用了单词嵌入技术,在数学上将单词映射到数字向量。苹果公司表示:“这种功能使得找到数字上相似的向量或向量簇非常简单,然后反向映射以获得相关的语言信息。机器学习杂志

我们可能会问Siri的问题决定了苹果的ML工程师如何绘制和分类这些单词,以及他们如何设计应用程序的算法。

正是这种专一性和个性化使得NLP开发如此具有挑战性。例如,如果您正在为一家航空公司创建一个聊天机器人,您将希望主要围绕理解与旅行相关的单词来设计它。如果你是为银行或游戏公司设计聊天机器人,你会采取不同的方法。而且,随着越来越多的用户与你的产品互动,如果你想准确地反映你的品牌的独特声音,你就需要改进和验证你的NLP模型。

有潜力的技术和局限性

受第二次世界大战期间早期(但不成功)的英语密码破译机器辅助翻译的启发,现代NLP有许多局限性,其中许多我们在最近几年的新闻中已经看到。2016年,微软的人工智能聊天机器人Tay部署数小时后就开始了产生攻击性内容的这是它的用户与网上麻烦制造者互动的产物。由于不了解这些话题的领域知识,聊天机器人会模仿被告知的内容,无法区分侮辱内容和知情内容。

另一方面,支持nlp的AI助手支持双工让谷歌I/O 2018的观众惊叹不已当它给发廊打电话预约时,它可以与真人“对话”。在这里,我们真正开始看到使用NLP来创建对话的潜力,以及它与人们更自然地互动的蓬勃发展的力量。

即便如此,Duplex的局限性还是很明显的。谷歌表示,它只能在相关领域进行深度训练后才能进行此类对话——也就是说,由人和复杂的算法对这些对话中可能出现的话题进行训练——因此,它目前还不能进行一般的对话。这一趋势与今天大多数使用NLP的虚拟助理程序是一致的,这些程序往往对少数任务很好,但当涉及到其他任务时就受到限制。

CloudFactory和NLP数据处理

十年来,CloudFactory一直在与一些正在创造产品和创新客户体验的公司合作。我们的管理工人处理和结构NLP模型的数据,解决各种行业的问题,包括金融、保险、安全、商业智能和人力资源。

以下是我们的帮助方式。

1.文本标签以文本形式向非结构化数据添加标记或注释。这是为NLP应用程序准备数据的基本级别,您可以使用工具自动化一些数据,但您可能需要一个参与质量保证的人员。CloudFactory的一个客户端正在构建一个人工智能平台来预测科学材料的行为。我们的工作人员转录文字和光学字符识别(OCR)无法破译的特殊字符。我们的工作人员为另一个客户转录数据,该客户正在开发一种预测引擎,以防止欺诈和费用滥用。

2.文本映射是基于其含义或上下文对数据进行标准化。其中一些可以通过工具实现自动化,但因为它需要理解文本的含义,所以可能需要人工参与。芝加哥法律软件公司Heretik将高效的工作流程与先进的机器学习相结合,使合同审查过程更加智能。我们的工作人员根据Heretik团队的类别说明来注释合同。对于另一个客户,我们的工作人员验证数据,培训其NLP模型,以识别特定行业的潜在买家。

3.文本分类提取用于语义分析的数据。在现有技术的帮助下,这些任务往往更难以实现自动化。总部位于英国的数据科学公司Hivemind是一家软件供应商,帮助企业将杂乱或非结构化的原始数据提取成结构化数据集,用于NLP和传统数据分析技术。hivmind将计算技术与我们的贡献者的标记、映射和分类工作结合起来,然后围绕这一过程提供一个数据质量框架,以确保最终数据集的完整性。

当您从标记转向分类时,任务变得更加困难。CloudFactory的团队可以完成所有的工作,从给单词加标签到从混乱或无意义的文本中提取数据或含义。在此过程中,我们与客户一起迭代和细化输入,以提高模型的准确性和性能。我们的管理团队方法允许我们成为验证高性能ML模型的合作伙伴。

NLP的未来

Siri在学习我的声音和准确回答我的问题方面越来越好。我们可以期待nlp驱动技术的准确性在未来几年得到提高。随着NLP在各个行业(法律、金融、安全等)的应用扩展,每个行业关于语言细微差别的集体领域专业知识将会增长和提高,NLP也将提高准确性。

从我们看到CloudFactory, NLP和相关技术可能会提前,一个虚拟助理将能够处理更广泛的各种各样的任务比聊天机器人更自然的方式调用一个发廊预约的客户端。

事实上,NLP正变得越来越高级和复杂,因为越来越多的企业寻求分析数据的组合,以表面分析,并使它们可供他人使用。在下一篇文章中,我们将讨论NLP的关键需求数据处理劳动力,特别是当质量很重要的时候。

新的文字-动作

数据标签NLP员工的策略人工智能与机器学习

通过订阅我们的博客获得CloudFactory的最新更新

Baidu