赐研®网站 > 云计算 >> 南京苹果11ProMax手机进水修理_如何选择云计算机器学习平台

南京苹果11ProMax手机进水修理_如何选择云计算机器学习平台

云计算机器学习平台提供的多种功能可以支持完整的机器学习生命周期。为了创建有效的机器学习和深度学习模型,南京苹果11ProMax手机进水修理组织需要获取大量数据并对其执行特征工程方法,以及在合理的时间内训练数据模型的方法。然后,组织需要一种方法来部署模型,监视模型是否随时间变化以及根据需要对其进行重新培训。

云计算机器学习平台提供的多种功能可以支持完整的机器学习生命周期。

为了创建有效的机器学习和深度学习模型,南京苹果11ProMax手机进水修理组织需要获取大量数据并对其执行特征工程方法,以及在合理的时间内训练数据模型的方法。然后,组织需要一种方法来部署模型,监视模型是否随时间变化以及根据需要对其进行重新培训。

如果组织已经在计算资源和加速器(例如GPU)上进行了投资,则它可以在本地基础结构中完成所有这些操作,但是可能会发现,如果资源足够,它们将空闲许多次。另一方面,有时在云平台上运行整个管道,根据需要使用大量计算资源和加速器,然后释放它们,可能更具成本效益。

主要的云计算提供商(和其他云计算提供商)已投入大量精力来构建其机器学习平台,以支持从计划项目到维护生产模型的完整机器学习生命周期。组织如何确定哪些云平台可以满足其需求?每个端到端机器学习平台应提供以下12个功能。

1.接近自己的数据

如果组织拥有建立准确模型所需的大量数据,则它不希望将其传输到世界各地。这里的问题不是距离,而是时间:数据传输速度最终受光速限制,即使在带宽无限的完美网络上也是如此。长距离意味着更长的等待时间。

对于非常大的数据集,理想的情况是在已经存在数据的情况下构建模型,从而无需传输大量数据。一些数据库在某种程度上支持这一点。

下一个最佳情况是数据和模型构建软件位于同一高速网络上,这通常意味着位于同一数据中心。如果组织拥有TB级或更多的数据,即使数据从云计算可用性区域中的一个数据中心迁移到另一个数据中心,也可能会导致严重的延迟。组织可以通过执行增量更新来缓解这种情况。

在最坏的情况下,组织必须在带宽有限和高延迟的路径上远程移动大量数据。在这方面,澳大利亚为此目的部署的跨太平洋电缆项目是惊人的。

南京苹果11ProMax手机进水修理

2.支持ETL或ELT管道

ETL(导出,转换和加载)和ELT(导出,加载和转换)是数据库字段中的两种常见数据管道配置。机器学习和深度学习扩大了对这些内容的需求,尤其是转换部分。当需要更改转换时,ELT为组织提供更大的灵活性,因为加载阶段通常是大数据最耗时的阶段。

通常,未处理的数据非常嘈杂,需要进行过滤。另外,这些数据的范围也不同:一个变量的最大值可能高达数百万,而另一个变量的范围可能是-0.1到-0.001。对于机器学习,必须将其变量转换为标准化范围,以防止更大范围的变量控制模型。具体的标准化范围取决于模型使用的算法。

3.支持在线环境进行模型构建

传统观点是组织应将数据导入桌面设备以进行模型构建。建立良好的机器学习和深度学习模型所需的大量数据已改变了这种情况:组织可以将一小部分数据样本下载到台式设备以进行探索性数据分析和模型构建,但是对于生产模型,则需要访问完整模型数据。

Jupyter Notebooks,JupyterLab和Apache Zeppelin等基于Web的开发环境非常适合模型构建。如果组织的数据和便携式计算机环境在同一个云平台中,则可以对数据进行分析以大大减少数据移动的时间。

4.支持扩展培训

除了训练模型外,笔记本电池的计算和内存要求通常很小。如果笔记本计算机可以生成在多个大型虚拟机或容器上运行的培训作业,则将大有帮助。如果培训可以访问加速器(例如GPU,TPU和FPGA),那么它也将大有帮助;这些模型可以将数天的训练变成数小时。

如何选择云计算机器学习平台

5.支持AutoML和自动功能工程

并非每个组织都擅长选择机器学习模型,南京苹果11ProMax手机进水修理选择特征(模型使用的变量)以及根据原始观察结果设计新特征。即使组织擅长完成这些任务,它们也很耗时并且可以在很大程度上实现自动化。

AutoML系统经常尝试使用许多模型来查看哪些模型可以产生出色的目标函数值,例如回归问题的最小二乘误差。出色的AutoML系统还可以执行功能工程,并有效地利用其资源来追求具有尽可能多功能集的高质量模型。

6.分支支持高质量的机器学习和深度学习框架

大多数数据科学家都拥有用于机器学习和深度学习技术的最喜欢的框架和编程语言。对于喜欢Python的人来说,Scikit学习通常是机器学习的最爱,而TensorFlow,PyTorch,Keras和MXNet通常是深度学习的首选。在Scala中,Spark MLlib通常是机器学习的首选。在R中,有许多本机机器学习包和与Python的良好接口。在Java中,H2O.ai,Java-ML和Deep Java Library都获得了很高的评价。

云计算机器学习和深度学习平台通常具有自己的算法集,并且它们通常以至少一种语言或作为具有特定入口点的容器来支持外部框架。在某些情况下,组织可以将自己的算法和统计方法与平台的AutoML功能集成在一起,这非常方便。

一些云平台还提供了其主要深度学习框架的调整版本。例如,AWS具有TensorFlow的优化版本,该公司声称可以为深度神经网络训练提供近乎线性的可扩展性。

7.提供预训练的模型并支持转移学习

并非每个人都希望花费时间和资源来训练自己的模型,即使有经过预先训练的模型,他们也不应该。例如,ImageNet数据集非常大,可能需要花费数周的时间为其训练一个更高级的深度神经网络,因此,在可能的情况下使用预先训练的模型是有意义的。

另一方面,经过预训练的模型可能不会始终标识组织关心的对象。转移学习可以帮助组织针对特定数据集定制神经网络的最后几层,而无需花费更多时间和金钱来训练整个网络。

8.提供优化的人工智能服务

主要的云平台不仅为图像识别,还为许多应用程序提供了功能强大且经过优化的人工智能服务。示例包括语言翻译,语音到文本,文本到语音,预测和推荐。

这些服务已经过培训和测试,并且使用的数据量超过了企业通常可用的数据量。它们还已部署在具有足够计算资源(包括加速器)的服务端点上确保在全局负载下有良好的响应时间。

9.管理实验

为有组织的数据集找到好的模型的唯一方法是尝试所有方法,无论是手动还是AutoML。这就留下了另一个问题:管理实验。

一个好的云计算机器学习平台将为组织提供一种查看和比较每个实验的目标函数值(训练集和测试数据)以及模型和混淆矩阵的大小的方法。能够绘制所有这些图表具有某些优势。

10.支持模型部署以进行预测

一旦组织能够根据自己的条件选择出色的实验,就需要一种简单的方法来部署模型。如果组织出于同一目的部署多个模型,则还需要一种在A / b测试中在其中分配流量的方法。

11,监控预测效果

数据随着世界的变化而变化。这意味着组织无法部署模型而忘却它。相反,组织需要监视提交的数据以进行预测。当数据与原始培训数据集的基线相比发生显着变化时,组织需要重新培训模型。

12.控制成本

最后,组织需要一些方法来控制模型成本。部署用于生产推理的模型通常占深度学习成本的90%,而训练仅占成本的10%。

控制预测成本的最佳方法取决于组织的负担和模型的复杂性。南京苹果11ProMax手机进水修理如果负载很高,则可以使用加速器来避免添加更多虚拟机实例。如果负载是可变的,则组织可以随着负载的增加或减少而动态更改实例或容器的大小或数量。此外,如果组织的负载较小,则可以使用带有某些加速器的非常小的实例来处理预测。

本文链接:https://www.zhaoiphone.cn/cloud/991.html
版权声明

本站资讯除标注“原创”外的信息均来自互联网以及网友投稿,版权归属于原始作者,如果有侵犯到您的权益,请联系我们提供您的版权证明和身份证明,我们将在第一时间删除相关侵权信息,谢谢.联系地址:977916607@qq.com

标签列表