Google拥有业界最大的机器学习堆栈,为何并没有那么大的吸引力
Google拥有业界最大的机器学习堆栈之一,目前以其Google Cloud AI和机器学习平台为中心。谷歌几年前将TensorFlow开源,但TensorFlow仍然是最成熟且被广泛引用的深度学习框架。同样,谷歌几年前将Kubernetes剥离,但它仍然是占主导地位的容器管理系统。
Google是开发人员,数据科学家和机器学习专家的最佳工具和基础设施来源之一,但是从历史上看,对于缺乏认真的数据科学或编程背景的业务分析师而言,Google AI的吸引力并不大。
Google Cloud AI和机器学习平台包括AI构建块,AI平台和加速器以及AI解决方案。人工智能解决方案是相当新的,针对的是业务经理,而不是数据科学家。其中可能包括来自Google或其合作伙伴的咨询。
经过预先训练但可自定义的AI构建块可以在不熟悉编程或数据科学的情况下使用。尽管如此,出于实用性的考虑,熟练的数据科学家经常使用它们,从根本上讲,无需大量的模型培训即可完成工作。
AI平台和加速器通常面向认真的数据科学家,需要编码技能,数据准备技术知识和大量培训时间。我建议仅在尝试了相关构建模块之后才去那里。
Google Cloud的AI产品中仍然缺少一些链接,尤其是在数据准备方面。Google Cloud与数据导入和调节服务最接近的是Trifacta的第三方Cloud Dataprep。我在一年前尝试过,但不知所措。但是,内置在Cloud AutoML Tables中的功能工程很有希望,并且对于其他情况提供这种服务将很有用。
AI的阴暗面与道德和责任感(或缺乏道德感)以及持久的模型偏差(通常是由于用于训练的数据偏差)有关。Google于2018年发布了AI原则。这项工作仍在进行中,但这是指导的基础,最近在有关责任AI的博客文章中对此进行了讨论。
AI市场上有很多竞争,而公共云市场上有很多竞争(超过六个可靠的供应商)。为了公平地进行比较,我必须写一篇文章的时间至少是此文章的五倍,所以我讨厌把它们排除在外,因此我不得不省略大多数产品比较。对于最明显的比较,可以总结一下:AWS可以完成Google的大部分工作,并且也非常出色,但是通常收取更高的价格。
Google Cloud的AI构建块不需要太多的机器学习专业知识,而是建立在预先训练的模型和自动训练的基础上。AI平台可让您训练和部署自己的机器学习和深度学习模型。
Google Cloud AI Building Blocks是易于使用的组件,您可以将其合并到自己的应用程序中以添加视觉,语言,对话和结构化数据。许多AI构件都是经过预训练的神经网络,但是如果它们不能满足您的需求,则可以使用传递学习和神经网络搜索进行自定义。AutoML Tables有所不同,因为它可以自动化数据科学家用来为表格数据集找到最佳机器学习模型的过程。
Google Cloud AutoML服务为语言对翻译,文本分类,对象检测,图像分类以及视频对象分类和跟踪提供了定制的深度神经网络。他们需要标记数据进行培训,但不需要大量的深度学习,迁移学习或编程知识。
Google Cloud AutoML可为您的标记数据自定义经过谷歌测试,高精度的深度神经网络。从数据训练模型时,AutoML并非从头开始,而是实现了自动深度传输学习(意味着它从对其他数据进行训练的现有深度神经网络开始)和神经体系结构搜索(意味着它找到了额外的网络层的正确组合) )进行语言对翻译和上面列出的其他服务。
在每个领域,谷歌已经有一个或多个基于深度神经网络和大量标记数据的预训练服务。对于未修改的数据,这些方法很可能会起作用,因此您应该对其进行测试以节省时间和金钱。如果他们没有做您需要的事情,Google Cloud AutoML可以帮助您创建一个可以做的模型,而无需您知道如何执行转移学习或如何设计神经网络。
与从头开始训练神经网络相比,转移学习具有两个主要优点。首先,由于网络的大多数层都已经过良好的训练,因此需要较少的数据进行训练。其次,由于只优化了最后一层,因此训练速度更快。
虽然过去通常将Google Cloud AutoML服务打包在一起提供,但现在列出了这些服务及其基本的经过预先培训的服务。其他大多数公司所说的AutoML是由Google Cloud AutoML Tables执行的。
对于许多回归和分类问题,通常的数据科学过程是创建数据表以进行训练,清理和整理数据,执行特征工程,并尝试在转换后的表上训练所有适当的模型,包括进行优化的步骤最佳模型的超参数。手动识别目标字段后,Google Cloud AutoML Tables可以自动执行整个过程。
AutoML Tables会自动在Google的模型动物园中搜索结构化数据,以找到最适合您的模型,从线性/逻辑回归模型(用于简化数据集)到高级的深度,集成和体系结构搜索方法(用于更大型,更复杂的模型)不等。它可以自动执行各种表格数据原语(例如数字,类,字符串,时间戳和列表)上的特征工程,并帮助您检测和处理缺失值,异常值和其他常见数据问题。
其无代码界面可指导您完成整个端到端机器学习生命周期,使团队中的任何人都可以轻松构建模型并将其可靠地集成到更广泛的应用程序中。AutoML表提供了广泛的输入数据和模型行为可解释性功能,以及用于防止常见错误的护栏。在API和笔记本环境中也可以使用AutoML表。