Update README.md

This commit is contained in:
SillyXu 2024-02-01 09:14:18 +08:00 committed by GitHub
parent 5f237d744b
commit 8dcf68fa61
No known key found for this signature in database
GPG Key ID: B5690EEEBB952194

View File

@ -61,17 +61,26 @@ XXXXXX
#### 评测设置
由于大模型评测难以统一且大量评测也没有公开的prompt和测试代码对于具体评测方式我们只能尽量做到适合各类模型。
整体而言我们测试时采用统一的prompt输入并按照各模型对应的模板进行输入调整。
**评测脚本及prompt已开源在我们的Github仓库中也欢迎更多开发者来不断改进我们的评测方式。**
#### 部署模式
因为MiniCPM采用Mup的结构与现有模型在具体计算上有细微差别我们是基于vllm=0.2.2版本进行了我们模型的实现。
**对于非MiniCPM模型我们直接采样了vllm=0.2.7的最新版本进行推理。**
#### 评测度量
对于QA任务选择题任务我们选用两种方式进行测试第一种是PPL将选项作为题目生成的延续并根据各个选项的PPL来进行答案选择第二种是直接生成答案选项。对于不同模型这两种方式得到的结果差异较大。MiniCPM两种模式上的结果较为接近而Mistral-7B-v0.1等模型在PPL上表现较好直接生成上效果较差。在具体评测时我们以两种评测方式得分的最高者为最终结果以此保证对比的公平性。
对于QA任务选择题任务我们选用两种方式进行测试
* PPL将选项作为题目生成的延续并根据各个选项的PPL来进行答案选择
* 第二种是直接生成答案选项。
对于不同模型这两种方式得到的结果差异较大。MiniCPM两种模式上的结果较为接近而Mistral-7B-v0.1等模型在PPL上表现较好直接生成上效果较差。
在具体评测时,我们以两种评测方式得分的最高者为最终结果,以此保证对比的公平性。
#### 评测结果
@ -131,6 +140,7 @@ XXXXXX
### 部署步骤
对于不同的操作系统,我们进行了不同的适配。
**注意当前开源框架对手机支持还在完善并非所有芯片与操作系统版本均能成功运行MLC-LLM或LLMFarm。**
* Android、Harmony
@ -147,11 +157,14 @@ XXXXXX
#### 部署性能
* 文本模型
我们未针对手机推理模型进行深度优化和系统测试仅验证MiniCPM使用手机芯片进行推理的可行性。
此前尚未有工作尝试在手机上部署多模态大模型。我们此次在MLC-LLM上验证了手机部署MiniCPM-V的可行性能够正常输入输出但也存在图片处理时间较长的问题需要进一步优化。
**我们也欢迎更多开发者进一步调优并更新下面的测试列表,不断提升端侧大模型在手机上的推理性能。**
* 文本模型
|手机型号|操作系统|处理器|MemoryGB|推理吞吐token/s|
|-|-|-|-|-|
|OPPO Find N3|Android 13|snapdragon 8 Gen2|12|6.5|
@ -175,9 +188,6 @@ XXXXXX
* 多模态模型
此前尚未有工作尝试在手机上部署多模态大模型。
我们此次在MLC-LLM上验证了手机部署MiniCPM-V的可行性能够正常输入输出但也存在图片处理时间较长的问题需要进一步优化。
todo
<p id="5"></p>