基石智算打造智能AI算力管理新范式,发布AI智算平台2.0
2024-06-05 23:04:08爱云资讯阅读量:10,482
基石智算全新升级的AI 智算平台2.0 正式发布!
AI 智算平台致力于让 AI 算力管理像本地资源管理一样简单。2.0 新版全面拥抱云原生,实现从 AI 基础设施到 AI 开发训练推理的全流程高效管理。
功能升级,重塑算力管理体验
异构算力管理与调度,灵活高效
平台通过统一的集群管理,实现对 NVIDIA、国产 GPU 等多种异构算力的高效调度。无论是高速 IB、RoCE 网络建设,还是并行文件存储集群管理,平台均能提供从物理机到容器的全方位管理。新版平台支持共享 GPU、单卡、多卡、多节点的算力调度,用户可根据实际业务需求按需申请使用,极大地提高了算力资源的使用效率。
细致监控,全面守护 AI 基础设施
基石智算(coreshub.cn)AI 智算平台2.0 新增节点监控、任务监控、容器组监控、高速网络监控和 GPU 监控等功能,提供从硬件故障处理到资源使用情况的全方位监控,及时发现并解决潜在问题。同时,可视化的自定义告警配置支持邮件、企微、webhook等多种通知渠道,确保用户随时掌握 AI 基础设施的运行状态。
集群监控
网络监控
自定义告警配置
丰富的 AI 业务支持,加速创新
在算力调度的基础上,平台支持自定义镜像仓库,同时内置 TensorFlow、PyTorch、MPI、DeepSpeed 等常用计算框架,支持一键创建开发机、分布式任务,自动挂载并行文件存储等常用 AI 业务流程。用户只需上传代码,即可快速启动多机多节点的分布式训练,系统将自动调度到可用 GPU 进行计算,任务完成后自动释放资源。这种自动化的算力调度分发与回收机制,让算法工程师能够更专注于 AI 模型本身,加速科研成果的创新。
常用分布式计算环境与框架
快速启动分布式任务
资源总览
便捷模型服务,一键部署,轻松推理
模型服务功能的优化,让用户可以一键部署在线推理服务,极大地提升了模型开发和部署的效率。无论是公开模型还是用户上传的自有模型,均可在线推理,满足各类业务需求。
模型服务-模型广场
自动化运营,计量计费服务
借助基石智算专区运营经验,平台提供规格定价、在线充值、购买产品的全流程自服务管理,减少运营的技术人员、管理人员投入,同时减少客户试用沟通和准备环境的时间,加快算力中心资源售卖,提升资源运营效率。
费用中心
构建高效智能的 AI 基础设施
简化算力建设,跨越技术鸿沟
如同管理本地资源一样,AI 智算平台让用户即使面对复杂的 AI 基础设施,也能轻松上手。无论是硬件配置、异构计算资源、网络架构还是存储资源,一切尽在掌握,大大降低了 AI 算力建设的技术门槛。
成本与效率双轮驱动
通过精细化监控与智能调度,平台能够根据实际负载自动调整算力资源,避免资源浪费,同时提供财务管理工具,不仅支持价格设定,还支持详尽的用户消费查询与账单统计,能有效控制成本,提升整体运营效率。
低门槛,模型全周期护航
从模型开发、训练到部署推理,平台提供了一站式解决方案。AI 智算平台的大模型服务支持模型的快速训练、版本管理、在线推理服务,以及灵活的资源组配置,让模型管理变得简单高效,加速 AI 应用的商业化进程。
运维效率与稳定性提升
自动化运维体系减少人工干预,自动执行和处理日常运维任务,如资源分配、故障处理等,确保系统的高可用性和稳定性,让团队更加聚焦于业务创新与优化。
借助 AI 智算平台2.0,企业可以轻松应对 AI 算力建设与运营的挑战,实现高效、灵活的 AI 算力管理,降低成本,提高竞争力。