Update README.md

2026-07-22 18:41:39 +08:00 · 2024-02-01 16:58:08 +08:00 · 2024-02-01 16:58:08 +08:00 · 4389f1e977
commit 4389f1e977
parent aeaa4524ca
1 changed files with 26 additions and 21 deletions
--- a/README.md
+++ b/README.md
@ -35,10 +35,10 @@ MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的

 ### 局限性：

- 受限于模型规模，模型可能出现幻觉性问题。其中由于DPO模型生成的回复内容更长，更容易出现幻觉。我们也将持续进行MiniCPM模型的迭代改进。
- 为了保证在学术研究用途上模型的通用性，我们未对模型进行任何身份认同训练。同时由于我们用ShareGPT开源语料作为部分训练数据，模型可能会输出类似GPT系列模型的身份认同信息。
- 受限于模型规模，模型的输出受到提示词（prompt）的影响较大，可能多次尝试产生不一致的结果。
- 受限于模型容量，模型的知识记忆较不准确，后续我们将结合RAG方法来增强模型的知识记忆能力。
+- 受限于模型规模，模型可能出现**幻觉性问题**。其中由于DPO模型生成的回复内容更长，更容易出现幻觉。我们也将持续进行MiniCPM模型的迭代改进。
+- 为了保证在学术研究用途上模型的通用性，我们**未对模型进行任何身份认同训练**。同时由于我们用ShareGPT开源语料作为部分训练数据，模型可能会输出类似GPT系列模型的身份认同信息。
+- 受限于模型规模，模型的**输出受到提示词（prompt）的影响较大**，可能多次尝试产生不一致的结果。
+- 受限于模型容量，模型的**知识记忆较不准确**，后续我们将结合RAG方法来增强模型的知识记忆能力。

 ## 目录

@ -187,7 +187,7 @@ print(res)
 #### 部署模式

 * 因为MiniCPM采用Mup的结构，与现有模型在具体计算上有细微差别，我们是基于vllm=0.2.2版本进行了我们模型的实现。
-* **对于非MiniCPM模型，我们直接采样了vllm=0.2.7的最新版本进行推理。**
+* **对于非MiniCPM模型，我们采用了vllm=0.2.7的最新版本进行推理。**

 #### 评测度量

@ -197,8 +197,9 @@ print(res)
 * 对于不同模型，这两种方式得到的结果差异较大。MiniCPM两种模式上的结果较为接近，而Mistral-7B-v0.1等模型在PPL上表现较好，直接生成上效果较差。
 * 在具体评测时，我们以两种评测方式得分的最高者为最终结果，以此保证对比的公平性(以下表格中*号表示采用PPL)。

-#### 文本评测
+#### 文本模型评测

+**越级比较:**
 |模型|平均分|英文均分|中文均分|C-Eval|CMMLU|MMLU|HumanEval|MBPP|GSM8K|MATH|BBH|ARC-E|ARC-C|HellaSwag|
 |-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
 |Llama2-7B|35.40|36.21|31.765|32.42|31.11|44.32|12.2|27.17|13.57|1.8|33.23|75.25|42.75|75.62*|
@ -210,6 +211,7 @@ print(res)
 |Falcon-40B|43.62|44.21|40.93|40.29|41.57|53.53|24.39|36.53|22.44|1.92|36.24|81.94*|57.68|83.26*|
 |MiniCPM-2B|52.33|52.6|51.1|51.13|51.07|53.46|50.00|47.31|53.83|10.24|36.87|85.44|68.00|68.25|

+**同级比较：**
 |模型|平均分|英文均分|中文均分|C-Eval|CMMLU|MMLU|HumanEval|MBPP|GSM8K|MATH|BBH|ARC-E|ARC-C|HellaSwag|
 |-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
 |TinyLlama-1.1B|25.36|25.55|24.525|25.02|24.03|24.3|6.71|19.91|2.27|0.74|28.78|60.77*|28.15*|58.33*|Qwen-1.8B|34.72|31.87|47.565|49.81|45.32|43.37|7.93|17.8|19.26|2.42|29.07|63.97*|43.69|59.28*|
@ -219,6 +221,7 @@ print(res)
 |Phi-2-2B|48.84|54.41|23.775|23.37|24.18|52.66|47.56|55.04|57.16|3.5|43.39|86.11|71.25|73.07*|
 |MiniCPM-2B|52.33|52.6|51.1|51.13|51.07|53.46|50.00|47.31|53.83|10.24|36.87|85.44|68.00|68.25|

+**Chat模型比较：**
 |模型|平均分|英文均分|中文均分|C-Eval|CMMLU|MMLU|HumanEval|MBPP|GSM8K|MATH|BBH|ARC-E|ARC-C|HellaSwag|
 |-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
 |ChatGLM2-6B|37.98|35.17|50.63|52.05|49.21|45.77|10.37|9.38|22.74|5.96|32.6|74.45|56.82|58.48*|
@ -231,7 +234,23 @@ print(res)
 |Llama2-7B-Chat|38.16|39.17|33.59|34.54|32.64|47.64|14.02|27.4|21.15|2.08|35.54|74.28|54.78|75.65*|
 |MiniCPM-2B|52.33|52.6|51.1|51.13|51.07|53.46|50.00|47.31|53.83|10.24|36.87|85.44|68.00|68.25|

-#### 多模态评测
+**DPO后模型比较：**
+
+|模型|MT-bench|
+|---|---|
+|GPT-4-turbo|9.32|
+|GPT-3.5-turbo|8.39|
+|Mistral-8*7b-Instruct-v0.1|8.30|
+|Claude-2.1|8.18|
+|Zephyr-7B-beta|7.34|
+|**MiniCPM-2B**|**7.25**|
+|Vicuna-33B|7.12|
+|Zephyr-7B-alpha|6.88|
+|LLaMA-2-70B-chat|6.86|
+|Mistral-7B-Instruct-v0.1|6.84|
+|MPT-34B-instruct|6.39|
+
+#### 多模态模型评测

 <div align="left">

@ -307,21 +326,7 @@ print(res)

 </div>

-#### DPO评测

-|模型|MT-bench|
-|---|---|
-|GPT-4-turbo|9.32|
-|GPT-3.5-turbo|8.39|
-|Mistral-8*7b-Instruct-v0.1|8.30|
-|Claude-2.1|8.18|
-|Zephyr-7B-beta|7.34|
-|**MiniCPM-2B**|**7.25**|
-|Vicuna-33B|7.12|
-|Zephyr-7B-alpha|6.88|
-|LLaMA-2-70B-chat|6.86|
-|Mistral-7B-Instruct-v0.1|6.84|
-|MPT-34B-instruct|6.39|

 <p id="4"></p>