客户案例-Shengzhi

项目背景

Shengzhi是一家人工智能公司,核心方向聚焦于通用大模型与多模态模型技术的研发与工程落地,推出了自研的 AI 模型平台“模态魔方”。平台以千亿参数大模型为底座,支持图文、语音、视频等多模态能力,服务于工业制造、医疗健康、教育等多个行业客户。

在实际业务中,晟智需要频繁进行多类型大模型的训练、评估与部署,每日训练任务上百次,调用量级达数千万次,并同时支持 SaaS 与私有化交付。如何高效调度大规模异构资源、降低训练与部署成本、提升模型推理效率、统一支撑多类型客户需求,是其面临的主要挑战。

 

核心业务挑战

1. 模型训练规模大,资源需求高

晟智平台需要频繁对图文、语音、视频等多模态模型进行训练与调优,训练任务规模普遍在百亿 Token 以上,单任务常常需要上千张 GPU 卡运行数小时甚至数天,显著推高训练成本,对底层资源调度与管理提出极高要求。

2. 模型推理调用量大,需高并发高可用

随着模型应用规模扩大,平台每日推理请求量超过千万次,尤其在接入多个行业客户后,推理任务种类多、并发波动大,需保证低延迟、强稳定和快速响应。

3. 全流程资源管理复杂,调度效率亟待提升

从训练、评估、测试到部署、监控,AI 任务生命周期涉及多个阶段和大量 GPU 资源。客户希望构建统一的资源调度系统,实现不同阶段资源共享与复用,提升整体利用率并降低成本。

4. 部署形态复杂,需支持 SaaS 与私有化

平台需支持多租户、公有云 SaaS、客户私有化等多种部署方式,资源配置、部署流程和交付效率需要统一管理。

5. 工程与运维负担大,影响业务敏捷性

由于 AI 基础设施运维复杂,占用了大量研发与工程资源,客户希望通过自动化工具与托管服务简化底层管理,把更多精力投入到模型构建和产品创新上。

解决方案:构建端到端大模型平台架构

我们基于 AWS 的弹性计算资源和 AI 服务能力,帮助晟智搭建了一套高性能、可扩展、统一的 AI 基础设施平台,支持从模型训练、推理部署到全流程监控与资源调度管理,全面提升开发效率与业务支撑能力。

 

模型训练:高性能 + 自动调度

  • Amazon SageMaker:用于调度训练任务与分布式训练,支持 Spot 实例及多节点并行训练,有效降低训练成本;

  • Amazon FSx for Lustre + Amazon S3:训练数据和模型 checkpoint 分别存储于高性能文件系统与对象存储,实现快速加载与高吞吐;

  • 训练资源统一调度平台:自研调度器结合 AWS 弹性伸缩能力,自动分配训练任务至空闲 GPU 节点,支持队列优先级与资源隔离。

 

推理部署:弹性伸缩 + 高并发响应

  • Amazon EC2 + Auto Scaling:关键推理服务运行在 GPU 实例上,结合负载变化动态扩缩容;

  • Amazon EKS + 自研 GPU Operator:容器化管理推理任务,提升部署一致性,支持横向扩展;

  • Application Load Balancer:按业务请求流量智能路由,提高请求处理能力与高可用性;

  • 服务跨 AZ 部署:确保业务稳定,提升容灾能力与 SLA 水平。

 

全流程监控与治理能力

  • Amazon CloudWatch + Prometheus + Grafana:实现模型训练与推理全链路指标采集、告警通知与可视化分析;

  • 统一日志系统:日志集中采集,支持模型异常定位与 SLA 回溯;

  • 模型注册与版本管理:利用 SageMaker Model Registry 实现模型全生命周期管理与灰度上线。

 

实施成效

经过平台部署与运行优化后,晟智在多个核心指标上取得显著提升:

关键指标 优化效果
模型训练成本 降低约 60%
训练时长 缩短 30%-50%
推理请求响应 P95 响应低于 100ms
推理资源利用率 提升 3 倍以上
私有化部署效率 提升约 5 倍
GPU 资源碎片率 显著下降
运维人力成本 大幅减少

客户现在可以在不新增运维人力的前提下,持续扩展大模型平台能力,更加专注于算法与业务的创新落地。

 

客户评价

“AWS 提供的弹性计算资源和自动化调度能力,帮助我们解决了大模型训练与推理过程中最核心的基础设施问题,显著降低成本并提升上线效率。”
—— 晟智技术负责人

“从多模态模型训练到千亿级参数模型推理部署,AWS 提供了全面的服务支持,让我们的 AI 平台可以快速适配各类客户需求。”
—— 平台架构负责人

 

展望未来

随着生成式 AI 的发展,晟智计划在以下方向进一步加强与 AWS 的合作:

  • 多模态大模型统一训练与分布式调度优化;

  • 推理服务支持低成本边缘部署;

  • SaaS + 私有化平台一体化交付;

  • 跨区域多客户的资源统一管理与合规审计。

借助 AWS 强大的云原生能力和 AI 技术栈,晟智将持续拓展大模型应用边界,助力更多行业客户实现智能升级。

Recent posts

客户案例-花笙书城

南京花笙书城网络科技有限公司是一家专注于数字阅读和在线书籍销售的互联网科技企业,业务涵盖书城分销、热剧分销、小说APP和短视频平台等。原先公司所有核心业务系统均部署于本地数据中心,涵盖MySQL数据库、应用服务器及业务数据分析平台。

Read More →

客户案例-Shengzhi

Shengzhi是一家人工智能公司,核心方向聚焦于通用大模型与多模态模型技术的研发与工程落地,推出了自研的 AI 模型平台“模态魔方”。平台以千亿参数大模型为底座,支持图文、语音、视频等多模态能力,服务于工业制造、医疗健康、教育等多个行业客户。

Read More →

客户案例-Be Rounder Co., Limited

Be Rounder Co., Limited是一家专注于海外社交游戏开发与发行的科技公司,面向欧美、东南亚等国际市场提供高互动性的移动端和网页端游戏产品。其核心产品是一款融合社交元素与角色扮演的多人在线游戏,用户可在虚拟世界中结识朋友、组建社群、参与任务与活动。为提升用户粘性与沉浸式体验,客户计划引入基于生成式AI技术的智能NPC角色,使NPC能够进行自然语言交流、引导剧情发展、主动发起社交互动,从而为玩家创造更加丰富、真实的虚拟社交环境。该需求对AI模型的响应速度、上下文理解能力及可扩展性提出了较高要求,同时需要云端具备良好的弹性资源调度能力以应对游戏高峰时段的访问负载。

Read More →

客户案例-樂君科技

客户背景 香港樂君科技有限公司是一家专注于智能互动 …

Read More →

客户案例-科沃斯

项目介绍 公司介绍 科沃斯机器人有限公司(ECOV …

Read More →

Amazon Lightsail 全解析:中小企业上云

在企业数字化转型的浪潮中,越来越多的中小企业、创业团队和个人开发者开始寻求更简单、成本更可控的云服务解决方案。但面对 AWS 上丰富而复杂的产品矩阵,许多用户常常望而却步。

正因如此,AWS 推出了专为轻量应用打造的一站式云服务平台——Amazon Lightsail。它集计算、存储、网络、数据库、容器等能力于一体,以极低的学习成本和固定月费的定价模式,帮助用户快速启动并管理 Web 项目、API 服务、数据库应用等。

Read More →