Update README.md

2026-01-19 12:53:36 +08:00 · 2024-02-01 09:14:18 +08:00 · 2024-02-01 09:14:18 +08:00 · 8dcf68fa61
commit 8dcf68fa61
parent 5f237d744b
1 changed files with 16 additions and 6 deletions
--- a/README.md
+++ b/README.md
@ -61,17 +61,26 @@ XXXXXX
 #### 评测设置

 由于大模型评测难以统一，且大量评测也没有公开的prompt和测试代码，对于具体评测方式，我们只能尽量做到适合各类模型。
+
 整体而言，我们测试时采用统一的prompt输入，并按照各模型对应的模板进行输入调整。
+
 **评测脚本及prompt已开源在我们的Github仓库中，也欢迎更多开发者来不断改进我们的评测方式。**

 #### 部署模式

 因为MiniCPM采用Mup的结构，与现有模型在具体计算上有细微差别，我们是基于vllm=0.2.2版本进行了我们模型的实现。
+
 **对于非MiniCPM模型，我们直接采样了vllm=0.2.7的最新版本进行推理。**

 #### 评测度量

-对于QA任务（选择题任务），我们选用两种方式进行测试：第一种是PPL：将选项作为题目生成的延续，并根据各个选项的PPL来进行答案选择；第二种是直接生成答案选项。对于不同模型，这两种方式得到的结果差异较大。MiniCPM两种模式上的结果较为接近，而Mistral-7B-v0.1等模型在PPL上表现较好，直接生成上效果较差。在具体评测时，我们以两种评测方式得分的最高者为最终结果，以此保证对比的公平性。
+对于QA任务（选择题任务），我们选用两种方式进行测试：
+* PPL：将选项作为题目生成的延续，并根据各个选项的PPL来进行答案选择；
+* 第二种是直接生成答案选项。
+
+对于不同模型，这两种方式得到的结果差异较大。MiniCPM两种模式上的结果较为接近，而Mistral-7B-v0.1等模型在PPL上表现较好，直接生成上效果较差。
+
+在具体评测时，我们以两种评测方式得分的最高者为最终结果，以此保证对比的公平性。

 #### 评测结果

@ -131,6 +140,7 @@ XXXXXX
 ### 部署步骤

 对于不同的操作系统，我们进行了不同的适配。
+
 **注意：当前开源框架对手机支持还在完善，并非所有芯片与操作系统版本均能成功运行MLC-LLM或LLMFarm。**

 * Android、Harmony
@ -147,11 +157,14 @@ XXXXXX

 #### 部署性能

-* 文本模型
-
 我们未针对手机推理模型进行深度优化和系统测试，仅验证MiniCPM使用手机芯片进行推理的可行性。
+
+此前尚未有工作尝试在手机上部署多模态大模型。我们此次在MLC-LLM上验证了手机部署MiniCPM-V的可行性，能够正常输入输出，但也存在图片处理时间较长的问题，需要进一步优化。
+
 **我们也欢迎更多开发者进一步调优并更新下面的测试列表，不断提升端侧大模型在手机上的推理性能。**

+* 文本模型
+
 |手机型号|操作系统|处理器|Memory（GB）|推理吞吐（token/s）|
 |-|-|-|-|-|
 |OPPO Find N3|Android 13|snapdragon 8 Gen2|12|6.5|
@ -175,9 +188,6 @@ XXXXXX

 * 多模态模型

-此前尚未有工作尝试在手机上部署多模态大模型。
-我们此次在MLC-LLM上验证了手机部署MiniCPM-V的可行性，能够正常输入输出，但也存在图片处理时间较长的问题，需要进一步优化。
-
 todo

 <p id="5"></p>