From 8dcf68fa613b777715f174d2dad2cd148a273a3d Mon Sep 17 00:00:00 2001 From: SillyXu Date: Thu, 1 Feb 2024 09:14:18 +0800 Subject: [PATCH] Update README.md --- README.md | 22 ++++++++++++++++------ 1 file changed, 16 insertions(+), 6 deletions(-) diff --git a/README.md b/README.md index 8de66ed..81c246b 100644 --- a/README.md +++ b/README.md @@ -61,17 +61,26 @@ XXXXXX #### 评测设置 由于大模型评测难以统一,且大量评测也没有公开的prompt和测试代码,对于具体评测方式,我们只能尽量做到适合各类模型。 + 整体而言,我们测试时采用统一的prompt输入,并按照各模型对应的模板进行输入调整。 + **评测脚本及prompt已开源在我们的Github仓库中,也欢迎更多开发者来不断改进我们的评测方式。** #### 部署模式 因为MiniCPM采用Mup的结构,与现有模型在具体计算上有细微差别,我们是基于vllm=0.2.2版本进行了我们模型的实现。 + **对于非MiniCPM模型,我们直接采样了vllm=0.2.7的最新版本进行推理。** #### 评测度量 -对于QA任务(选择题任务),我们选用两种方式进行测试:第一种是PPL:将选项作为题目生成的延续,并根据各个选项的PPL来进行答案选择;第二种是直接生成答案选项。对于不同模型,这两种方式得到的结果差异较大。MiniCPM两种模式上的结果较为接近,而Mistral-7B-v0.1等模型在PPL上表现较好,直接生成上效果较差。在具体评测时,我们以两种评测方式得分的最高者为最终结果,以此保证对比的公平性。 +对于QA任务(选择题任务),我们选用两种方式进行测试: +* PPL:将选项作为题目生成的延续,并根据各个选项的PPL来进行答案选择; +* 第二种是直接生成答案选项。 + +对于不同模型,这两种方式得到的结果差异较大。MiniCPM两种模式上的结果较为接近,而Mistral-7B-v0.1等模型在PPL上表现较好,直接生成上效果较差。 + +在具体评测时,我们以两种评测方式得分的最高者为最终结果,以此保证对比的公平性。 #### 评测结果 @@ -131,6 +140,7 @@ XXXXXX ### 部署步骤 对于不同的操作系统,我们进行了不同的适配。 + **注意:当前开源框架对手机支持还在完善,并非所有芯片与操作系统版本均能成功运行MLC-LLM或LLMFarm。** * Android、Harmony @@ -147,11 +157,14 @@ XXXXXX #### 部署性能 -* 文本模型 - 我们未针对手机推理模型进行深度优化和系统测试,仅验证MiniCPM使用手机芯片进行推理的可行性。 + +此前尚未有工作尝试在手机上部署多模态大模型。我们此次在MLC-LLM上验证了手机部署MiniCPM-V的可行性,能够正常输入输出,但也存在图片处理时间较长的问题,需要进一步优化。 + **我们也欢迎更多开发者进一步调优并更新下面的测试列表,不断提升端侧大模型在手机上的推理性能。** +* 文本模型 + |手机型号|操作系统|处理器|Memory(GB)|推理吞吐(token/s)| |-|-|-|-|-| |OPPO Find N3|Android 13|snapdragon 8 Gen2|12|6.5| @@ -175,9 +188,6 @@ XXXXXX * 多模态模型 -此前尚未有工作尝试在手机上部署多模态大模型。 -我们此次在MLC-LLM上验证了手机部署MiniCPM-V的可行性,能够正常输入输出,但也存在图片处理时间较长的问题,需要进一步优化。 - todo