Caicloud Clever v1.3.0发布:开发、生产无缝衔接的AI DevOps
2019-01-17 16:28:10爱云资讯阅读量:659
现如今,人工智能在学术界和工业界屡现重大突破,而Kubernetes 作为一个容器编排平台,也在短短几年间迎来了迅速崛起。在许多专家看来,它们的结合似乎可以为企业业务创新带来无穷的可能性 -- 智慧城市、联网汽车、智慧医疗……它们不仅能为企业提供利用技术抢占未来市场的机遇,也为整个社会接入智慧文明提供了初步尝试。
但是,开发、部署机器学习产品也意味着大规模的复杂性,以下图某500 强企业的供应链预测项目为例:
可以发现,模型训练代码只是很小的一部分,企业在开发过程中还需对海量数据进行预处理,对模型进行持续评估,并进行迭代更新。而除去复杂的开发环节,企业还要兼顾开发进度监控和最实际的落地部署,这些都对传统操作系统提出了严峻挑战。
事实上,这也是业界看好Kubernetes 和AI “联姻”的原因。容器为流程运行提供了紧凑的环境,它们易于扩展,能在各种环境中移植 -- 从开发到测试再到生产 -- 可以将大型完整应用程序分解为有针对性、易于维护的微服务,完美契合AI 应用开发的各个阶段。
针对以上背景,基于Kubernetes 的人工智能云平台Caicloud Clever 在新发布的1.3.0 版本中做了大量优化,新增AI DevOps 支持,致力于解决企业AI 模型开发、上线的诸多痛点。
亮点一:精准化资源调度
AI 产品本质上是由数据驱动的,为了保证模型的准确度和鲁棒性,海量计算资源不可或缺。但鉴于计算资源成本高昂,企业也在迫切地寻找高效合理利用资源的有效解决方案。
得益于Caicloud Compass 强大的资源管理能力(基于Kubernetes 原生能力优化),Caicloud Clever 可以自动按需调度包括GPU 在内的计算资源,让用户可以在不关注物理资源的情况下托管训练任务、应用服务等。它还支持基于Workspace 的资源隔离,允许用户针对不同项目、团队定制Workspace 资源,按策略最大化资源利用率。
亮点二:模块化开发集成
除了计算资源,AI 产品开发的挑战还在于需要将许多不同的软件库集合在一起,也就是构建完整的软件生态系统。针对这方面的需求,Caicloud Clever 也做了大量优化,提供多种预定义任务模板,支持多语言多框架开发环境,大大降低了企业进入门槛:
- 支持一键托管 Jupyter 等开发环境;
- Caicloud Clever Jupyter 预置 TensorFlow、PyTorch、MXNet、Caffe 等框架;
- 支持 Python、Shell 等脚本开发及自定义开发环境;
- 开发环境可与任务模块关联,用户可从任务模块直接进入对应开发环境;
- Caicloud Clever 细粒度引导,方便工程师快速上手训练。
亮点三:版本化数据运维
对于机器学习/深度学习模型的“粮食” -- 数据,Caicloud Clever 提供数据仓库、模型仓库等集装式版本化数据管理,进一步简化数据的调用、共享方式,让数据能以更有效的方式在AI 模块中流动。
在任务模块,用户可以通过点选把目标数据集用于数据清洗或训练;在模型仓库中,各类模型可以按版本快速部署;在工程流中,Caicloud Clever 也提供按条件更新服务的支持。真正实现了AI 流程中的各个模块以数据相互连接。
亮点四:可视化训练管理
而为了方便算法科学家、服务运维者、项目管理者等不同角色从不同角度审视任务表状态,把控任务进度。Caicloud Clever 支持可视化创建TensorFlow、PyTorch 等框架的分布式多卡集群训练任务,支持实时训练日志及GPU 等资源实时监控。保障项目的顺利进行和按时完成,促进团队合作。
亮点五:工程化AI 全流程安排
考虑到AI 产品开发涉及多个步骤,每个步骤所需的技能各异。Caicloud Clever 以工程流图连接模块、数据以及人,提高团队协作力及工程效率,加速工程化。
在Caicloud Clever 平台上,用户可以创建从数据清洗、模型训练到模型服务等不同阶段的任务模块,涵盖AI 全流程。工程师、科学家可以在任务模块上进行开发,架构师、项目经理可自由编排AI 模块至工程流图,快速将功能模块拼接成工程项目。
亮点六:自动化生产部署
此外,Caicloud Clever 也支持工程流图一键式发布为生产流水线,所见即所得,无缝衔接AI 工程开发与生产落地。用户可基于工程流图持续迭代开发,在不同迭代发布不同版本的流水线,流水线按条件触发流图流程,实现AI 工程实验到生产的自动化部署。
把握创新机遇,敏态成就商机
随着AI 技术和云计算的蓬勃发展,Kubernetes 愈发呈现出向上支持高并发、数据类和AI 类应用业务的趋势 -- 越来越多公司正在把Kubernetes 作为运行其工作负载的平台,而AI 类业务正是一项日益重要的工作负载。
面对变化,寻找方向迈出第一步往往是最难的。AI 为企业提供了降低运营成本、改善决策和服务客户的新形式,而像Caicloud Clever 这样基于Kubernetes 的平台,势必会成为帮助企业采用AI 和机器学习的首选协同平台。所以,你选好你的第一步了吗?