From 8dcf68fa613b777715f174d2dad2cd148a273a3d Mon Sep 17 00:00:00 2001
From: SillyXu <thu.hanxu13@gmail.com>
Date: Thu, 1 Feb 2024 09:14:18 +0800
Subject: [PATCH] Update README.md

---
 README.md | 22 ++++++++++++++++------
 1 file changed, 16 insertions(+), 6 deletions(-)
diff --git a/README.md b/README.md
index 8de66ed..81c246b 100644
--- a/README.md
+++ b/README.md
@@ -61,17 +61,26 @@ XXXXXX
 #### 评测设置
 
 由于大模型评测难以统一，且大量评测也没有公开的prompt和测试代码，对于具体评测方式，我们只能尽量做到适合各类模型。
+
 整体而言，我们测试时采用统一的prompt输入，并按照各模型对应的模板进行输入调整。
+
 **评测脚本及prompt已开源在我们的Github仓库中，也欢迎更多开发者来不断改进我们的评测方式。**
 
 #### 部署模式
 
 因为MiniCPM采用Mup的结构，与现有模型在具体计算上有细微差别，我们是基于vllm=0.2.2版本进行了我们模型的实现。
+
 **对于非MiniCPM模型，我们直接采样了vllm=0.2.7的最新版本进行推理。**
 
 #### 评测度量
 
-对于QA任务（选择题任务），我们选用两种方式进行测试：第一种是PPL：将选项作为题目生成的延续，并根据各个选项的PPL来进行答案选择；第二种是直接生成答案选项。对于不同模型，这两种方式得到的结果差异较大。MiniCPM两种模式上的结果较为接近，而Mistral-7B-v0.1等模型在PPL上表现较好，直接生成上效果较差。在具体评测时，我们以两种评测方式得分的最高者为最终结果，以此保证对比的公平性。
+对于QA任务（选择题任务），我们选用两种方式进行测试：
+* PPL：将选项作为题目生成的延续，并根据各个选项的PPL来进行答案选择；
+* 第二种是直接生成答案选项。
+
+对于不同模型，这两种方式得到的结果差异较大。MiniCPM两种模式上的结果较为接近，而Mistral-7B-v0.1等模型在PPL上表现较好，直接生成上效果较差。
+
+在具体评测时，我们以两种评测方式得分的最高者为最终结果，以此保证对比的公平性。
 
 #### 评测结果
 
@@ -131,6 +140,7 @@ XXXXXX
 ### 部署步骤
 
 对于不同的操作系统，我们进行了不同的适配。
+
 **注意：当前开源框架对手机支持还在完善，并非所有芯片与操作系统版本均能成功运行MLC-LLM或LLMFarm。**
 
 * Android、Harmony
@@ -147,11 +157,14 @@ XXXXXX
 
 #### 部署性能
 
-* 文本模型
-
 我们未针对手机推理模型进行深度优化和系统测试，仅验证MiniCPM使用手机芯片进行推理的可行性。
+
+此前尚未有工作尝试在手机上部署多模态大模型。我们此次在MLC-LLM上验证了手机部署MiniCPM-V的可行性，能够正常输入输出，但也存在图片处理时间较长的问题，需要进一步优化。
+
 **我们也欢迎更多开发者进一步调优并更新下面的测试列表，不断提升端侧大模型在手机上的推理性能。**
 
+* 文本模型
+
 |手机型号|操作系统|处理器|Memory（GB）|推理吞吐（token/s）|
 |-|-|-|-|-|
 |OPPO Find N3|Android 13|snapdragon 8 Gen2|12|6.5|
@@ -175,9 +188,6 @@ XXXXXX
 
 * 多模态模型
 
-此前尚未有工作尝试在手机上部署多模态大模型。
-我们此次在MLC-LLM上验证了手机部署MiniCPM-V的可行性，能够正常输入输出，但也存在图片处理时间较长的问题，需要进一步优化。
-
 todo
 
 <p id="5"></p>