建设目的

1) 面向本科生/研究生开设大模型实验课,学生基于平台进行大模型的研发、训练、推理等实验操作

2) 面向课题组师生,提供大模型相关研究的开发、部署、运行、试验环境;


平台架构和功能

1教学实验平台基于K8S技术,集成了大模型相关科研和教学实验所需要的相关能力,为科研教学提供一套高度灵活开放、简单易用的基础环境。

平台功能结构如下图所示,在K8S容器集群基础上,平台集成了:

1)统一权限认证体系,实现了多用户的资源分离;

2)AI大模型常用算法、镜像、工具链;

3)高可用应用路由和证书管理机制,便于大模型应用的部署发布;

4)私有镜像库;

5)提供统一鉴权的图形管理界面和命令行两种操作界面,适用于不同场景;

6)分布式存储、GPU、高速网络等驱动和基础组件;

7)实验教学辅助工具,帮助教职人员在课程前批量创建用户、配置用户资源、配置案例,以及在课程结束后批量清理学生占用资源。



典型教学实验场景

场景流程

1. 实验课程内容
1.1. 课前准备

• 学生在课程中进行大模型的微调训练,部署推理服务。

1.2. 课前准备

• 课前任课老师做如下准备:

• 根据学生名单,利用平台“实验教学辅助工具”中的脚本,批量创建学生用户账户、批量配置学生用户的资源配额(CPU、GPU、内存、硬盘的使用限额);并将学生用户账户通过邮件发送给学生;

• 准备大模型训练运行环境和推理运行环境的容器镜像,上传至平台的“私有镜像库”,设置所有用户共享;

• 在平台分布式存储的”共享数据“区域放入大模型参数文件、微调训练数据。

2. 课程中学生操作

• 课程中,学生可以在自己的终端(笔记本电脑或PC机),按照自己账号登录平台,进行基于K8S集群的大模型微调训练和推理服务启动相关操作。

• 学生用户只能访问账号所关联的“命名空间”,这一机制实现了用户间的数据和资源的隔离;

• 平台对每个用户关联的命名空间进行了资源配额的限制,用户无法占用超额的资源,这样避免学生用户的误操作或其他行为影响到其他用户的使用。

• 学生用户可以从“私有镜像库”拉取任课老师准备的镜像来创建运行环境容器;私有镜像库搭建在内网集群中,利用高速网络与集群服务器连接,这样在实验课程中不会出现大量并发互联网访问导致镜像下载过慢的问题;

• 镜像可以挂载分布式存储的共享数据区域,在操作中可以拿到共享的模型或数据;同时平台也可为每个用户分配了一块用户私有的数据存储区域,挂载到容器中存储用户个人使用的数据;

• 平台提供了图形界面操作方式,可以直观地配置容器运行参数、查看容器的运行情况、查看运行日志、查看资源占用情况等;

• 平台也提供了命令行操作方式,可以让学生用户从更底层了解大模型的相关操作和细节;

• 图形界面和命令行两种操作方式都被限定在统一的用户权限体系和资源配合限制下。

3. 课程结束后的清理

• 课程结束后,任课老师需要将学生数据进行清理,以腾出计算、存储资源,供后续其他人使用。

• 平台提供了批量清理脚本,按照用户列表,对用户相关的容器、命名空间、存储资源进行清理,可以帮助任课老师高效完成资源清理工作。


平台价值

大模型教学实验平台在该案例场景下,发挥的作用包括:

1)为大模型相关的教学科研工作提供了基础运行环境,包括存储、网络、GPU的驱动,AI运行时环境,常用工具链,以及容器云平台;

2)为多用户共用集群提供了统一的用户鉴权和登录界面;

3)为教学科研工作提供了用户资源隔离,避免了用户之间的干扰;

4)为大模型教学实验提供了实验操作所需要的工具链,包括私有镜像库、分布式存储管理、模型库引擎等等;

5)为教学实验提供了辅助工具集,帮助教职人员高效、快速、准确地准备和清理课程实验的环境。