项目背景
Shengzhi是一家人工智能公司,核心方向聚焦于通用大模型与多模态模型技术的研发与工程落地,推出了自研的 AI 模型平台“模态魔方”。平台以千亿参数大模型为底座,支持图文、语音、视频等多模态能力,服务于工业制造、医疗健康、教育等多个行业客户。
在实际业务中,晟智需要频繁进行多类型大模型的训练、评估与部署,每日训练任务上百次,调用量级达数千万次,并同时支持 SaaS 与私有化交付。如何高效调度大规模异构资源、降低训练与部署成本、提升模型推理效率、统一支撑多类型客户需求,是其面临的主要挑战。
核心业务挑战
1. 模型训练规模大,资源需求高
晟智平台需要频繁对图文、语音、视频等多模态模型进行训练与调优,训练任务规模普遍在百亿 Token 以上,单任务常常需要上千张 GPU 卡运行数小时甚至数天,显著推高训练成本,对底层资源调度与管理提出极高要求。
2. 模型推理调用量大,需高并发高可用
随着模型应用规模扩大,平台每日推理请求量超过千万次,尤其在接入多个行业客户后,推理任务种类多、并发波动大,需保证低延迟、强稳定和快速响应。
3. 全流程资源管理复杂,调度效率亟待提升
从训练、评估、测试到部署、监控,AI 任务生命周期涉及多个阶段和大量 GPU 资源。客户希望构建统一的资源调度系统,实现不同阶段资源共享与复用,提升整体利用率并降低成本。
4. 部署形态复杂,需支持 SaaS 与私有化
平台需支持多租户、公有云 SaaS、客户私有化等多种部署方式,资源配置、部署流程和交付效率需要统一管理。
5. 工程与运维负担大,影响业务敏捷性
由于 AI 基础设施运维复杂,占用了大量研发与工程资源,客户希望通过自动化工具与托管服务简化底层管理,把更多精力投入到模型构建和产品创新上。
解决方案:构建端到端大模型平台架构
我们基于 AWS 的弹性计算资源和 AI 服务能力,帮助晟智搭建了一套高性能、可扩展、统一的 AI 基础设施平台,支持从模型训练、推理部署到全流程监控与资源调度管理,全面提升开发效率与业务支撑能力。
模型训练:高性能 + 自动调度
-
Amazon SageMaker:用于调度训练任务与分布式训练,支持 Spot 实例及多节点并行训练,有效降低训练成本;
-
Amazon FSx for Lustre + Amazon S3:训练数据和模型 checkpoint 分别存储于高性能文件系统与对象存储,实现快速加载与高吞吐;
-
训练资源统一调度平台:自研调度器结合 AWS 弹性伸缩能力,自动分配训练任务至空闲 GPU 节点,支持队列优先级与资源隔离。
推理部署:弹性伸缩 + 高并发响应
-
Amazon EC2 + Auto Scaling:关键推理服务运行在 GPU 实例上,结合负载变化动态扩缩容;
-
Amazon EKS + 自研 GPU Operator:容器化管理推理任务,提升部署一致性,支持横向扩展;
-
Application Load Balancer:按业务请求流量智能路由,提高请求处理能力与高可用性;
-
服务跨 AZ 部署:确保业务稳定,提升容灾能力与 SLA 水平。
全流程监控与治理能力
-
Amazon CloudWatch + Prometheus + Grafana:实现模型训练与推理全链路指标采集、告警通知与可视化分析;
-
统一日志系统:日志集中采集,支持模型异常定位与 SLA 回溯;
-
模型注册与版本管理:利用 SageMaker Model Registry 实现模型全生命周期管理与灰度上线。
实施成效
经过平台部署与运行优化后,晟智在多个核心指标上取得显著提升:
关键指标 | 优化效果 |
---|---|
模型训练成本 | 降低约 60% |
训练时长 | 缩短 30%-50% |
推理请求响应 | P95 响应低于 100ms |
推理资源利用率 | 提升 3 倍以上 |
私有化部署效率 | 提升约 5 倍 |
GPU 资源碎片率 | 显著下降 |
运维人力成本 | 大幅减少 |
客户现在可以在不新增运维人力的前提下,持续扩展大模型平台能力,更加专注于算法与业务的创新落地。
客户评价
“AWS 提供的弹性计算资源和自动化调度能力,帮助我们解决了大模型训练与推理过程中最核心的基础设施问题,显著降低成本并提升上线效率。”
—— 晟智技术负责人
“从多模态模型训练到千亿级参数模型推理部署,AWS 提供了全面的服务支持,让我们的 AI 平台可以快速适配各类客户需求。”
—— 平台架构负责人
展望未来
随着生成式 AI 的发展,晟智计划在以下方向进一步加强与 AWS 的合作:
-
多模态大模型统一训练与分布式调度优化;
-
推理服务支持低成本边缘部署;
-
SaaS + 私有化平台一体化交付;
-
跨区域多客户的资源统一管理与合规审计。
借助 AWS 强大的云原生能力和 AI 技术栈,晟智将持续拓展大模型应用边界,助力更多行业客户实现智能升级。