首页 > 电商资讯 > 行业动态 >

京东云推出vGPU池化方案

发布时间：2023-08-16 08:32:14

8月15日消息，京东云全新发布vGPU池化方案，提供一站式GPU算力池化解决方案，GPU利用率最高提升70%，大幅降低大模型推理成本。

京东云自主研发的混合多云操作系统云舰，在原有支持混合多云CPU算力池化能力基础上，针对大模型训练所需的泛算力池化能力，进一步增加了针对AI应用所需的调度管理能力，包括卡管理、节点管理、异构资源调度管理等，为包括大模型训练在内的多种AI应用，提供一站式算力池化解决方案，从而全面提升资源利用率。

具体而言，包括四大核心优势：支持任意比例切分和动态调整机制，可实现按显卡算力、显存做细粒度切分，一张物理卡可供多个容器使用，与整卡算力相比，性能衰减在2%以内；支持灵活的配额管理，按显卡型号/label 配额，有效保障资源按需分配，提升推理稳定性和训练性能；适配主流CUDA版本和不同GPU芯片适配，支持TensorFlows、Pytorch等行业主流的AI训练框架；支持节点虚拟分组和节点组指定应用使用，全面提升大模型训练效率。

针对使用大模型算力的成本和效率问题，京东云vGPU池化解决方案，支持本地+远端的GPU资源调用，基于多活能力提升训练任务可靠性，并与现有云平台打通，实现CPU、GPU云算网协同，并在京东自身大模型场景进行打磨，大幅降低大模型推理成本。

在使用场景中，开发者可以根据卡型号申请资源，按算力和显存切分，统一由控制器根据用户指定的调度策略调整。仅在训练、微调和推理任务启动时进行动态分配，在任务结束即可以释放，支持多任务算力隔离和任务冷启动。

从实践效果看，通过GPU异构资源池化，AI运行效率显著提高，整体GPU利用率提升70%。结合任意切分和按需分配，在同等GPU数量的前提下，实现了数倍业务量扩展和资源共享，降低了硬件采购成本，使用更少的AI芯片支撑了更多的训练和推理任务。

据悉，在7月13日举行的2023京东全球科技探索者大会暨京东云峰会上，京东全面推出言犀大模型、言犀AI开发计算平台、升级支撑大模型落地行业的产品及解决方案。据介绍，京东大模型“源于产业、服务产业”，融合70%通用数据与30%数智供应链原生数据，具有“更高产业属性、更强泛化能力、更多安全保障”的优势，致力于深入零售、物流、金融、健康、政务等知识密集型、任务型产业场景，解决真实产业问题。

京东制定了大模型“三步走”的明确规划。目前，京东云已经基于内部实践构建了通用大模型；到今年年底这段时间，京东将经由高复杂场景大规模锤炼，迭代出扎实的产业服务；预计在2024年初，会将大模型能力向外部严肃商业场景开放。

————————————————

原文作者：柏纳

转自链接：https://www.dsb.cn/225294.html

上一篇：药师帮上半年收入79.69亿元
下一篇：百世快运举办2023年中述职暨旺季准备大会