蚂蚁集团联合北京大学发布大语言模型评测基准
发布时间:2023-11-03 09:16:52
11月2日消息,蚂蚁集团联合北京大学发布了首个面向DevOps领域的大模型评测基准DevOps-Eval,以帮助开发者跟踪DevOps领域大模型的进展,并了解各个DevOps领域大模型的优势与不足。
据了解,大语言模型在各类NLP下游任务上取得了显著进展。然而在DevOps领域,由于缺乏专门用于大型语言模型的评测基准,在有效评估和比较该领域大语言模型的能力方面存在严重不足,而DevOps-Eval的发布正是为解决这一不足。
图源:CodeFuse公众号
DevOps-Eval根据DevOps全流程进行划分,包含计划、编码、构建、测试、发布、部署、运维和监控这8个类别,包含4850道选择题。此外,DevOps-Eval还特别对运维/监控类别做了细分,添加日志解析、时序异常检测、时序分类和根因分析等常见的AIOps任务。由于DevOps-Eval根据场景对评测样本做了详尽的细分,因此除了DevOps领域大模型,也方便对特定领域大模型进行评测,如AIOps领域等。
目前,第一期的评测榜单已经,首批评测大模型包含OpsGpt、Qwen、Baichuan、Internlm等开源大语言模型。
蚂蚁集团表示,DevOps-Eval相关论文也在紧锣密鼓地撰写中。此外,蚂蚁集团称,“欢迎相关从业者一起来共建DevOps-Eval项目,持续丰富DevOps领域评测题目或大模型,我们也会定期更新题库和评测榜单。”
数据细分类别 图源:CodeFuse公众号
据了解,9月8日,蚂蚁集团在外滩大会上首次公开蚂蚁金融大模型“1+1+2”矩阵:一个金融大模型,一个Fin-Eval金融AI任务评测集,个人金融助理支小宝2.0和专家业务助理支小助。
其中,蚂蚁金融大模型基于蚂蚁自研基础大模型,针对金融产业深度定制,底层算力集群达到万卡规模。蚂蚁金融大模型聚焦真实的金融场景需求,在“认知、生成、专业知识、专业逻辑、合规性”五大维度28类金融专属任务中表现突出,目前已在蚂蚁集团的财富、保险平台上全面内测。
图源:蚂蚁集团公众号