Amazon SageMaker Data Wrangler 为开发人员做机器学习数据准备工作提供了快捷而简便的工具。

 

Amazon SageMaker Feature Store 提供一个用于更新、检索和共享机器学习特征的专用数据存储

 

Amazon SageMaker Pipelines 为开发人员提供了首个专为机器学习而构建、方便易用的 CI/CD(持续集成和持续交付)服务

 

Amazon SageMaker Clarify 为开发人员提供了更多的训练数据可见性,以便他们能有效控制机器学习模型的偏差、并对预测作出解释

 

Deep profiling for Amazon SageMaker Debugger 可监控机器学习训练任务,帮助开发人员更快地训练模型

 

Distributed Training on Amazon SageMaker 可以将大型模型的训练速度最高提高 2 倍

 

Amazon SageMaker Edge Manager 监控和管理部署在边缘设备上的机器学习模型,以确保模型正确运行

 

Amazon SageMaker JumpStart 提供了一个查看和检索预训练模型和预构建工作流的开发者门户

 

“近日”,在亚马逊云服务(AWS)举办的年度盛会——AWS re:Invent 上,AWS 宣布为其业界领先的机器学习服务 Amazon SageMaker 推出九项新的功能,使开发人员更容易自动化、规模化的构建端到端的机器学习工作流。今天的发布汇集了多项强大的新功能,包括更易用的数据预处理、专用的特征存储、自动化工作流、更多的训练数据可见性以减少数据倾斜和更好的预测解释、大型模型的分布式训练速度可最多提升两倍,以及监控边缘设备上的模型。要开始使用 Amazon SageMaker,请访问:https://aws.amazon.com/sagemaker。

 

机器学习日益成为主流,但它仍在快速发展。随着机器学习受到广泛关注,机器学习模型的创建似乎应该很简单,但事实并非如此。为了创建一个模型,开发人员需要先准备数据,而数据准备是重度依赖人工手动工作的。然后,他们将数据可视化以进行数据探索,选择合适的算法和框架,训练模型,调整和优化模型训练参数,部署模型,并监控其性能。这个过程需要不断重复,才能确保模型在一段时间内的表现符合预期。在过去,只有最熟练的开发人员才能开展机器学习相关的工作。然而,Amazon SageMaker 已经改变了这一现状。Amazon SageMaker 是一项全托管的服务,它消除了机器学习过程中每个阶段的挑战,使开发人员和数据科学家能够从根本上更轻松、更快速地构建、训练和部署机器学习模型。数以万计的客户利用 Amazon SageMaker 加速了他们的机器学习应用的开发和部署,包括 3M、ADP、阿斯利康、Avis、拜耳、Bundesliga、Capital One、Cerner、Chick-fil-A、Convoy、达美乐比萨、富达投资、GE 医疗、Georgia-Pacific、赫斯特、iFood、iHeartMedia、摩根大通、Intuit、联想、Lyft、国家橄榄球联盟、Nerdwallet、T-Mobile、汤森路透、Vanguard 等等。

 

AWS 在过去一年已经交付了 50 多项 Amazon SageMaker 的新功能。在此基础上,今天的发布使得开发人员和数据科学家更容易准备、构建、训练、部署和管理机器学习模型。

 

Amazon SageMaker Data Wrangler 实现数据准备自动化。Amazon SageMaker Data Wrangler 为机器学习数据准备提供了快速、简便的工具。机器学习的数据准备是一个复杂的过程。这种复杂在于:用于训练机器学习模型的数据字段(也称为特征)通常来自不同的来源,并且格式多样。这意味着开发人员必须花费相当多的时间提取和规范这些数据。客户也可能希望将特征组合成复合特征,以向机器学习模型提供更多有用的输入。例如,客户可能希望创建一个复合特征来描述一组经常消费的客户,结合以前购买的项目、消费金额和购买频率等特征,为他们提供会员奖励。将数据转化为特征的工作称为特征工程,在构建机器学习模型流程中要消耗开发人员大量的时间。Amazon SageMaker Data Wrangler 从根本上简化了数据准备和特征工程的工作。通过 Amazon SageMaker Data Wrangler,客户可以从各种数据存储中选择他们想要的数据,并一键导入。Amazon SageMaker Data Wrangler 包含超过 300 个内置的数据转换器,可以帮助客户在无需编写任何代码的情况下,对特征进行规范化、转换和组合。客户可以通过在 SageMaker Studio(首个用于机器学习的端到端集成开发环境)中查看这些转换,快速预览和检查这些转换是否符合预期。特征设计出来之后,Amazon SageMaker Data Wrangler 会把它们保存在 Amazon SageMaker Feature Store 中,以供重复使用。

 

Amazon SageMaker Feature Store 存储和管理机器学习特征。Amazon SageMaker Feature Store 提供了一个新的存储库,可以轻松地存储、更新、检索和共享用于训练和推理的机器学习特征。当前,客户可以将他们的特征保存到 Amazon Simple Storage Service(S3)。如果只是简简单单把一组特征用于一个模型,这种做法是可行的。但实际情况是,大多数特征并不是只用于一个模型,而是被多个开发人员和数据科学家重复用于多个模型中。当创建了新的特征时,开发人员也希望能够重复使用这些特征。这样就导致需要管理多个 S3 对象,并将变得越来越难以管理。开发人员和数据科学家试图使用电子表格、笔记和电子邮件来解决这个问题。他们甚至要尝试开发一个应用程序来跟踪管理特征,但这个工作量很大,而且容易出错。此外,开发人员和数据科学家不仅需要使用这些相同的特征和所有可用的数据来训练多个模型,这个过程可能耗时长达几个小时,而且还需要在推理时使用这些特征,这需要在几毫秒内返回预测结果,并且往往只使用相关特征的一个子集。例如,开发人员可能希望创建一个预测播放列表中下一首最佳歌曲的模型。要做到这一点,开发人员要在数千首歌曲上训练模型,然后在推理过程中向模型提供最后播放的三首歌曲,以预测下一首歌曲。训练和推理是非常不同的使用场景。在训练过程中,模型可以离线、批量地访问特征,对于推理,模型需要实时的访问特征子集。由于机器学习模型使用一样的特征源,并且需要保持数据的一致性,然而这两种不同的访问模式,使得开发者不容易保持特征的一致性和更新的及时性。Amazon SageMaker Feature Store 解决了这一问题,它提供了一个专门构建的特征库,供开发人员访问和共享特征,使开发人员和数据科学家团队容易协调特征的命名、组织、查找和共享。Amazon SageMaker Feature Store 集成在 Amazon SageMaker Studio 中,它可以为推理提供单毫秒级的低延迟访问。Amazon SageMaker Feature Store 使得开发人员可以简单方便地组织和更新用于训练的大批量特征,以及用于推理的小批量特征子集。这样,就为机器学习模型提供了一致的特征视图,降低生成模型的难度,并提供高精度的预测。

 

Amazon SageMaker Pipelines 实现工作流管理和自动化。Amazon SageMaker Pipelines 是第一个专门为机器学习构建的、易于使用的 CI/CD(持续集成和持续交付)服务。客户在特征工程中可以发现,机器学习包含的多个步骤都可以受益于编排和自动化。这与传统的编程并无二致。在传统编程中,客户有 CI/CD 等工具帮助他们更快地开发和部署应用程序。然而,目前的机器学习中很少使用 CI/CD 工具,因为要么没有这样的工具,要么难以设置、配置和管理。借助 Amazon SageMaker Pipelines,开发人员可以定义端到端机器学习工作流的每一步。这些工作流包括数据加载步骤、用 Amazon SageMaker Data Wrangler 做转换、在 Amazon SageMaker Feature Store 保存特征、训练配置及算法设置、调试步骤,以及优化步骤。通过 Amazon SageMaker Pipelines,开发人员可以轻松地从 Amazon SageMaker Studio 使用相同的设置重复运行端到端工作流,,每次都能获得完全相同的模型,或者,他们可以定期使用新数据重新运行工作流,更新模型。每次运行工作流时,Amazon SageMaker Pipelines 都会记录 Amazon SageMaker Experiments(Amazon SageMaker 的一项功能,用于组织和跟踪机器学习实验和模型版本)中的每个步骤。这有助于开发人员可视化并进行机器学习模型的迭代、训练参数和结果比较。借助 Amazon SageMaker Pipelines,工作流可以在团队之间共享和重复使用,既可以重新创建模型,也可以作为一个通过新的特征、算法或优化改进模型的起点。

 

使用 Amazon SageMaker Clarify 进行偏差检测和模型解释。Amazon SageMaker Clarify 在整个机器学习工作流中提供偏差检测,使开发人员能够在其模型中实现更大的公平性和更高的透明度。一旦开发人员为训练和推理准备了数据,就需要尽量确保数据没有统计偏差,并且模型预测是透明的,以便可以解释模型特征是如何预测的。如今,开发人员有时会尝试使用开源工具检测数据中的统计偏差,但这些工具需要大量的人工编程的工作,而且经常容易出错。借助 Amazon SageMaker Clarify,开发人员现在可以更轻松地检测整个机器学习工作流中的统计偏差,并为其机器学习模型所做的预测提供解释。Amazon SageMaker Clarify 已集成到 Amazon SageMaker Data Wrangler,它运行了一系列基于特征数据的算法,用以识别数据准备过程中的偏差,并且清晰描述可能的偏差来源及其严重程度。这样,开发人员就可以采取措施来减小偏差。Amazon SageMaker Clarify 还与 Amazon SageMaker Experiments 集成,使开发人员更容易地检查训练好的模型是否存在统计偏差。它还详细说明了输入到模型中的每个特征是如何影响预测的。最后,Amazon SageMaker Clarify 与 Amazon SageMaker Model Monitor(Amazon SageMaker 的一项功能,可持续监控正式使用中的机器学习模型的质量)集成,一旦模型特征的重要性发生偏移,导致模型预测质量发生改变,它就会提醒开发人员。

 

用 Deep Profiling for Amazon SageMaker Debugger 做模型训练剖析。Deep Profiling for Amazon SageMaker Debugger 能够自动监控系统资源利用率,为训练瓶颈提供告警,以方便开发者更快地训练模型。当前,开发人员没有一个标准的监控系统利用率的方法(例如 GPU、CPU、网络吞吐量和内存 I/O)以识别和排除训练作业中的瓶颈。因此,开发人员无法以最快的速度、最高的成本效益来训练模型。Amazon SageMaker Debugger 通过最新的 Deep Profiling 功能解决了这一问题,该功能为开发人员提供了在 Amazon SageMaker Studio 中可视化剖析和监控系统资源利用率的能力。这让开发人员更容易寻根问底,减少训练机器学习模型的时间和成本。借助这些新功能,Amazon SageMaker Debugger 扩大了监控系统资源利用率的范围,在 Amazon SageMaker Studio 中或通过 AWS CloudWatch 发送训练期间的问题告警,将使用情况关联到训练作业中的不同阶段,或者训练期间的特定时间点(如训练作业开始后 第 28 分钟)。Amazon SageMaker Debugger 还可以根据告警触发行动(例如,当检测到 GPU 使用情况不正常时,即停止训练作业)。Amazon SageMaker Debugger  Deep Profiling 可以用于 PyTorch、Apache MXNet 和 TensorFlow 的训练任务,自动收集必要的系统和训练指标,无需在训练脚本中更改任何代码。这允许开发人员在 Amazon SageMaker Studio 中可视化其训练期间的系统资源使用情况。

 

用 Distributed Training on Amazon SageMaker 缩短训练时间。Distributed Training on Amazon SageMaker 使得训练大型复杂深度学习模型的速度比当前的方法快两倍。当前,高级的机器学习使用场景,例如智能助手的自然语言处理、自动驾驶车辆的对象检测和分类,以及大规模内容审核的图像分类,需要越来越大的数据集和更多的 GPU (图形处理单元 ) 内存进行训练。然而,其中一些模型太大,无法容纳在单个 GPU 提供的内存中。客户可以尝试在多个 GPU 间拆分模型,但寻找拆分模型的最佳方式和调整训练代码往往需要数周的繁琐实验。为了克服这些挑战,Distributed Training on Amazon SageMaker 提供了两种分布式训练功能,使开发人员能够在不增加成本的情况下,将大型模型的训练速度提高两倍。Distributed Training 与 Amazon SageMake 的 数据并行引擎一起,通过在多个 GPU 间自动分割数据,将训练作业从一个 GPU 扩展到数百个或数千个 GPU,将训练时间缩短多达 40%。之所以能够缩短训练时间,是因为 Amazon SageMaker 的数据并行引擎使用了专门的算法来管理 GPU,充分利用 AWS 基础设施,实现最佳同步,具有近乎线性的扩展效率。Distributed Training 与 Amazon SageMaker 模型并行引擎一起,可以自动剖析和识别分割模型的最佳方式,在多个 GPU 上高效分割具有数十亿参数的大型复杂模型。它们通过使用图分区算法来完成这样工作,优化了平衡计算,最大限度地减少 GPU 之间的通信,从而最少化代码重构,减少 GPU 内存限制造成的错误。

 

使用 Amazon SageMaker Edge Manager 管理边缘设备模型。Amazon SageMaker Edge Manager 可以帮助开发人员优化、保护、监控和维护部署在边缘设备集群上的机器学习模型。目前,客户使用 Amazon SageMaker Neo 为边缘设备优化模型,这使得模型的运行速度可以提高到多达两倍,且内存占用率不到十分之一,准确性也没有损失。然而,在边缘设备上部署后,客户仍然需要管理和监控模型,以确保它们仍然以高精度运行。Amazon SageMaker Edge Manager 可以优化模型,使其在目标设备上运行得更快,并为边缘设备管理模型,以便客户可以在边缘设备集群中准备、运行、监控和更新机器学习模型。客户可以使用 Amazon SageMaker Edge Manager 对其模型进行加密签名,从边缘设备上传预测数据到 Amazon SageMaker 以进行监控和分析,并在 Amazon SageMaker 控制台中查看报表,来跟踪和可视化模型的运行状况。Amazon SageMaker Edge Manager 扩展了以前只能在云端使用的功能,它可以从边缘设备中采样数据,将其发送到 Amazon SageMaker Model Monitor 进行分析,当模型的准确性随着时间的推移而下降时,重新训练模型以便开发人员不断提高模型的质量。

 

通过 Amazon SageMaker JumpStart 开启机器学习之旅。Amazon SageMaker JumpStart 为开发人员提供了一个易于使用、可搜索的界面,用于查找同类最佳解决方案、算法和 notebook 示例。当前,缺乏机器学习经验的客户很难开始机器学习部署,而高级的开发人员发现很难将机器学习应用到所有应用场景。通过 Amazon SageMaker JumpStart,客户现在可以快速找到针对其机器学习场景的相关信息。新接触机器学习的开发人员可以从多个完整的端到端机器学习解决方案中进行选择(例如欺诈检测、客户流失预测或时序预测),并且可以直接部署到 Amazon SageMaker Studio 环境中。有经验的用户则可以从一百多个机器学习模型中选择,快速开始模型构建和训练。

 

AWS 负责亚马逊机器学习的副总裁 Swami Sivasubramanian 表示:"成千上万的开发人员和数据科学家已经使用我们业界领先的机器学习服务 Amazon SageMaker,消除了他们在构建、训练和部署定制化机器学习模型时的障碍。拥有 SageMaker 这样一个广泛采用的服务,最大的好处就是受益于很多客户的建议,为我们的下一套产品的交付提供了动力。今天,我们宣布为 Amazon SageMaker 提供一套工具,使开发人员更容易构建端到端机器学习流程,准备、构建、训练、解释、检查、监控、调试和运行定制化机器学习模型,提供更高的可视性、可解释性和大规模的自动化。"

 

3M 公司在全球 70 个国家运营,并在 200 个国家开展销售业务,公司创造的技术和产品,正在推动着每一家公司的发展,改善每一个家庭的日常生活。"3M 的成功源于我们具有企业家精神的研究人员和我们对科学的持续关注。我们推进产品科学化的一种方式是在 AWS 上使用机器学习技术。"3M 企业系统研究实验室技术总监 David Frazee 说。"利用机器学习,3M 正在改进砂纸这样久经考验的产品,并推动其它一些领域包括医疗保健在内的创新。随着我们计划将机器学习扩展到 3M 的更多领域,我们的数据和模型快速增长,每年翻倍。我们对 Amazon SageMaker 的新功能充满热情,因为它们将帮助我们扩大规模。Amazon SageMaker Data Wrangler 使得为模型训练来准备数据变得更容易,Amazon SageMaker Feature Store 使得我们不需要重复创建相同的模型特征。最后,Amazon SageMaker Pipelines 可以帮助我们将数据准备、模型构建和模型部署,变成自动化的端到端工作流,加速模型上生产的时间。我们的研究人员期待着在 3M 公司利用这些工具,提高科学创新速度。"

 

德勤正在帮助全球各地的组织转型。德勤不断演进其工作方式和看待市场挑战的方式,不断为客户和社区提供可衡量、可持续的成果。德勤 AI 生态系统和平台负责人 Frank Farrall 表示:"Amazon SageMaker Data Wrangler 提供了丰富的数据转换工具,满足了我们数据准备的需求,缩短了新产品上市的时间。反过来,我们的客户也受益于我们规模化部署的速度,使我们能够在几天内、而不是几个月内,提供可衡量、可持续的结果,满足客户需求。"

 

英威达自 2004 年起成为 Koch Industries 的子公司,为市场提供尼龙 6,6 的专有成分,拥有 STAINMASTER、CORDURA 和 ANTRON 等的知名品牌。它是全球最大的化学中间体、聚合物和纤维的综合生产商之一。"在英威达,我们以转型为动力,努力开发出惠及全球客户的产品和技术。"英威达首席数据科学家 Caleb Wilkinson 表示:"我们认为机器学习是改善客户体验的一种方式。但面对数亿条记录的数据集,我们需要一个解决方案来帮助我们准备数据,大规模地开发、部署和管理机器学习模型。为了加快这些流程,我们与 AWS 团队携手开发了一些新特征。通过 Amazon SageMaker Data Wrangler,我们现在可以交互式地选择、清理、探索和有效地理解我们的数据,使我们的数据科学团队有能力创建特征工程管道,可以毫不费力地扩展到跨越数亿条记录的数据集。我们还可以使用 Amazon SageMaker Pipelines 轻松地大规模自动化和管理机器学习工作流,这样我们可以轻松地将机器学习工作流的各个步骤连接在一起。结合 Amazon SageMaker Data Wrangler 和 Amazon SageMaker Pipelines,我们可以更快地运行机器学习工作流。"

 

Snowflake Data Cloud 打破了阻碍不同规模企业从数据中释放真正价值的障碍。Snowflake 产品高级副总裁 Christian Kleinerman 说:"我们的企业客户面临的最大挑战之一是为机器学习项目准备数据。我们对 Amazon SageMaker Data Wrangler 感到很兴奋,它使得企业为机器学习汇总和准备数据变得更加容易。随着 Snowflake 作为数据源加入 Amazon SageMaker Data Wrangler,我们共同的客户很快就能利用 Snowflake 集成的平台能力,以及 Amazon SageMaker 的交互式数据准备和机器学习能力。客户将能够比以前更快地从原始数据中获得机器学习模型和见解。"

 

Databricks 成立于 2013 年,由 Apache Spark™、Delta Lake 和 MLflow 的初创者创立。它将数据工程、数据科学和数据分析汇集在一个开放、统一的平台上,使数据团队能够更快地进行协作和创新。"在 Databricks,我们致力于将数据工程和科学,与数据分析结合在一起,以便数据团队能够更快地协作和创新,"Databricks 产品高级副总裁 Adam Conway 说。"我们期待着在 2021 年继续与 AWS 合作,特别是我们的客户可以无缝的体验到 Amazon SageMaker Data Wrangler。通过这种合作关系,我们的客户可以利用 Delta Lake 与 Amazon SageMaker 来准备训练数据,以创建最准确的机器学习模型。"

 

MongoDB Atlas 是 MongoDB 的完全托管服务,MongoDB 是一种流行的数据库,旨在帮助团队快速建立、扩展和迭代。"我们 MongoDB 的使命是,让数据令人惊叹地易于操作,释放每个人的天赋。MongoDB Atlas 运行着超过 150 万个数据库集群,为客户的关键应用提供动力;我们希望根据这些应用产生的数据,轻松构建、训练和部署机器学习模型。"MongoDB 首席技术官 Mark Porter 说。"我们很高兴,我们的客户现在可以使用 Amazon SageMaker Data Wrangler,为机器学习采集和准备数据的环节提供一种更快的、可视化的方式。在即将到来的 2021 年,我们的客户很快能够在 Amazon SageMaker Data Wrangler 中查询、分析 Amazon S3 和 MongoDB Atlas 中的数据,使他们能够更快地从数据中获得更多价值。"

 

Intuit 是一家使命驱动的全球财务平台公司,创造了引以为豪的产品 TurboTax、QuickBooks 和 Mint。"我们于 2017 年选择在 AWS 上构建 Intuit 新的机器学习平台,将 Amazon SageMaker 在模型开发、训练和托管方面的强大功能,与 Intuit 自身在编排和特征工程方面的能力相结合。"Intuit 数据平台工程副总裁 Mammad Zadeh 表示。"因此,我们大幅缩短了模型开发的生命周期,能够以非常快的速度,将 AI 功能推进到我们的 TurboTax、QuickBooks 和 Mint 产品中。这在过去需要整整六个月的时间,而现在只需要不到一周的时间,在 Amazon SageMaker Feature Store 发布之前,我们与 AWS 进行了密切的协作,我们为全托管特征库的前景感到兴奋,这样我们就不再需要在整个组织中维护多个特征库。我们的数据科学家将能够从一个中央特征库中使用现有的特征,并且推动各团队和模型之间特征的标准化和重用。"

 

Climate Corporation 是拜耳的子公司,也是利用数字工具提高农民生产力、为全球农民带来数字创新的行业领导者。Climate 致力于帮助农民以前所未有的方式了解他们的田地,从农业数据中获得有影响力的建议。"在 Climate,我们相信通过为世界上的农民提供准确的信息,做出数据驱动的决策,可以最大化他们在每一亩土地上的回报,"Climate 数据和分析副总裁 Daniel McCaffrey 说。"为了实现这一目标,我们投资了诸如机器学习工具之类的技术,以使用称为特征的可测量实体(例如种植者的田间产量)来构建模型。有了 Amazon SageMaker Feature Store,我们可以通过集中的特征库加速机器学习模型的开发,多个团队都可以轻松访问和重复使用这些特征。Amazon SageMaker Feature Store 可让我们通过在线特征库实时访问特征,或定期访问离线特征库,以满足不同的使用场景。通过 Amazon SageMaker Feature Store,我们可以更快地开发机器学习模型。"

 

DeNA 是日本领先的移动和在线服务提供商,提供游戏、电子商务和娱乐内容发行。"在 DeNA,我们的使命是利用人工智能和机器学习为客户带来影响和愉悦。提供基于价值的服务是我们的首要目标,我们希望确保我们的业务和服务为实现这一目标做好准备。"DeNA 人工智能系统总经理山田健信说。"我们的关键举措之一是增强我们在人工智能和机器学习方面的能力。Amazon SageMaker 提供广泛的功能来训练和部署精确的模型,帮助我们在众多业务部署机器学习。为我们的工程团队提供方便易用的数据准备并是我们关注的领域。有了 Amazon SageMaker Data Wrangler,我们可以在不需要额外编写代码的情况下,利用丰富的转换工具套件一站式解决问题。随着我们在数据准备方面变得更加高效,我们也希望确保我们不同业务团队在为应用程序构建特征时避免重复劳动。我们希望在整个组织中探索和复用特征,Amazon SageMaker Feature Store 帮助我们以简单有效的方式,为不同的应用程序复用特征。Amazon SageMaker Feature Store 还帮助我们维护标准的特征定义,在我们训练模型并将其部署到实际应用时,保持特征的一致性。借助 Amazon SageMaker 的这些新特性,我们可以更快地训练和部署机器学习模型,让我们继续不断创新,以最佳服务为客户带来愉悦。"

 

iFood 是一家在线食品配送网站,是拉丁美洲最大的食品配送公司之一,为消费者提供优质服务。"在 iFood,我们力求使用机器学习等技术,为客户提供使其满意的服务。"iFood 首席数据科学家 Sandor Caetano 说。"我们一直在使用 Amazon SageMaker 来进行机器学习任务,在整个业务中构建高质量的应用程序。我们进一步扩展机器学习工作的重要内容,就是构建一个完整而无缝的工作流,并在其中开发、训练和部署模型。Amazon SageMaker Pipelines 可帮助我们快速构建多个可扩展的自动化机器学习工作流,使我们能够轻松有效地部署和管理模型,使我们的开发周期更加高效。我们将进一步强化我们在人工智能和机器学习技术的领先地位,通过使用 Amazon SageMaker 所有的新功能,提供卓越的客户服务和效率。"

 

 DFL Deutsche Fußball Liga 是德国顶级足球联赛德甲和德乙的组织者和营销者,于 2020 年 1 月指定 AWS 为其官方技术供应商,通过由 AWS 提供技术支持的 Bundesliga Match Facts (德甲比赛事实),为全球球迷和电视转播商带来先进的体育分析。"Amazon SageMaker Clarify 与德甲比赛事实数字平台的其它部分无缝集成,我们长期战略的关键部分是在 Amazon SageMaker 上实现机器学习工作流标准化。"DFL 集团数字创新执行副总裁 Andreas Heyden 表示。"通过使用 AWS 的机器学习等创新技术,我们提供了更深入的见解,让球迷更好地理解球场上瞬间,德甲比赛事实使观众能够更深入地了解每场比赛中球员的关键决定。"

 

CS DISCO 是一家 SaaS 供应商,提供自动化解决方案简化各种法律任务。"在 CS DISCO,我们已经通过我们用于电子发现的 DISCO AI 平台,彻底改变了审查法律证据的方式,"CS DISCO 首席数据科学家 Alan Lockett 说。"我们一直在努力加快我们高级深度学习模型的训练速度。我们与 AWS 的 Amazon SageMaker 团队协作,利用分布式训练等技术加速我们的 AI 应用场景。"

 

Turbine 是一家以模拟技术为驱动的药物研发公司,为患者提供靶向癌症疗法。"我们基于专有的网络架构使用机器学习来训练我们的生物信息学人类细胞模型,称为 Simulated Cell™。通过准确预测分子水平上的各种干预措施,Simulated Cell™帮助我们发现新的癌症药物,为现有疗法寻找组合方案,"Turbine 的 CTO Kristóf Szalay 说。"我们对细胞模拟的训练是不断迭代的,但在一台机器上,每次训练都需要几天时间,阻碍了我们快速迭代新想法的需求。我们对 Amazon SageMaker 上的分布式训练感到非常兴奋,它能将我们的训练时间减少 90%,并帮助我们专注于主要任务,即为细胞模型训练编写最优的代码。Amazon SageMaker 最终使我们能够更高效地完成我们的主要任务:为患者识别和开发新型癌症药物。"

 

Latent Space 是一家致力于构建全球首个完全 AI 渲染的 3D 游戏引擎的创业公司。"在 Latent Space,我们正在打造一个基于神经渲染的游戏引擎,任何人都可以快速的进行创作。在高级语言建模的推动下,我们正在努力结合对文本和图像的语义理解,以确定生成的内容。"Latent Space 的联合创始人兼首席科学官 Sara Jane 说。"我们目前的重点是利用信息检索,加强大规模的模型训练,为此我们有复杂的机器学习流程。这种设置为分布式训练带来了挑战,因为有多个数据源,以及多个模型同时进行训练。因此,我们正在利用 Amazon SageMaker 的分布式训练功能,高效地扩展大型生成模型的训练。"

 

联想是全球最大的个人电脑制造商。联想设计和制造的设备包括记事本电脑、平板电脑、智能手机和各种智能物联网设备。"在联想,我们不仅仅是一家硬件供应商,还致力于成为客户值得信赖的合作伙伴,改变客户使用设备的体验,实现客户的业务目标。联想 Device Intelligence 就是我们使用 Amazon SageMaker 来增强机器学习能力的一个很好的例证。"联想个人电脑和智能设备部门云与软件副总裁 Igor Bergman 说。"通过联想 Device Intelligence,IT 管理员可以主动诊断个人电脑问题,提前预测潜在的系统故障,减少宕机时间,提高员工的工作效率。结合 Amazon SageMaker Neo,我们已经实质性的提高了设备预测模型的效果,从而促使我们在未来几周内进一步采用 Amazon SageMaker Edge Manager。Amazon SageMaker Edge Manager 将有助于消除模型部署后进行优化、监控和持续改进所需的人工工作。基于此,预计我们的模型将比其它同类机器学习平台运行得更快,消耗的内存更少。随着我们将人工智能扩展到联想整个服务组合中的新应用,我们将继续采用高性能的机器学习管道,在云端和数百万边缘设备上灵活扩展。这正是我们选择 Amazon SageMaker 平台的原因。凭借其丰富的从边缘到云端和 CI/CD 工作流的能力,我们可以有效地将我们的机器学习模型带入任何设备工作流,从而大大提高生产力。"

 

Basler AG 是一家领先的高品质数码相机及配件制造商,其产品适用于工业、医疗、交通和其它各种领域。"Basler AG 为各个行业提供智能计算机视觉解决方案,包括制造、医疗和零售应用。我们很高兴通过 Amazon SageMaker Edge Manager 实现的新功能,扩展我们的软件产品,"Basler 软件解决方案主管 Mark Hebbel 说。"为了确保我们机器学习解决方案的性能和可靠性,我们需要一个可扩展的、边云结合的 MLOps 工具,使我们能够持续监控、维护和改进边缘设备上的机器学习模型。Amazon SageMaker Edge Manager 允许我们在边缘自动采样数据,将其安全地发送到云端,在部署后持续监控每个设备上每个模型的质量。这使我们能够在全球范围内远程监控、改进和更新边缘设备上的模型,同时也节省了我们和客户的时间和成本。"

 

Mission Automate 帮助他们全球的客户设计软件解决方案。"我们不断寻找新的解决方案为客户提供最优质的软件,但作为一个小型组织,我们没有像其它组织一样有细分专业领域的能力,"Mission Automate 的首席执行官 Alex Panait 说。"Amazon SageMaker JumpStart 现在为我们提供了更快地开始使用机器学习的方法,包括我们可以在自己的工作流中使用的新技术、以增加我们的服务产品、并且降低成本。从流行的模型库中选择机器学习模型和算法,使我们能够快速训练定制的机器学习模型,帮助我们的客户更快地进入市场。得益于 Amazon SageMaker JumpStart,我们能够在几天内推出机器学习解决方案,更快、更可靠地满足机器学习预测需求。"

 

MyCase 提供了一款功能强大的法律业务管理软件,帮助律师事务所从任何地方高效运行,提供卓越的客户体验,轻松跟踪事务所的业绩。"我们有几个业务和产品元素可以通过机器学习来改进,"MyCase 的软件工程师 Gus Nguyen 说。"Amazon SageMaker JumpStart 使我们能够一键开启端到端解决方案,获取一系列 notebooks,帮助我们更深入地了解客户,并通过预测更好地满足他们的需求。通过 Amazon SageMaker JumpStart,让我们可以有更高的起点,使得我们可以把为自己的使用场景部署机器学习解决方案从三到四个月缩短到四到六周内。"