mirror of
https://github.com/RYDE-WORK/MiniCPM.git
synced 2026-01-24 07:29:12 +08:00
Update README.md
This commit is contained in:
parent
aeaa4524ca
commit
4389f1e977
47
README.md
47
README.md
@ -35,10 +35,10 @@ MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的
|
||||
|
||||
### 局限性:
|
||||
|
||||
- 受限于模型规模,模型可能出现幻觉性问题。其中由于DPO模型生成的回复内容更长,更容易出现幻觉。我们也将持续进行MiniCPM模型的迭代改进。
|
||||
- 为了保证在学术研究用途上模型的通用性,我们未对模型进行任何身份认同训练。同时由于我们用ShareGPT开源语料作为部分训练数据,模型可能会输出类似GPT系列模型的身份认同信息。
|
||||
- 受限于模型规模,模型的输出受到提示词(prompt)的影响较大,可能多次尝试产生不一致的结果。
|
||||
- 受限于模型容量,模型的知识记忆较不准确,后续我们将结合RAG方法来增强模型的知识记忆能力。
|
||||
- 受限于模型规模,模型可能出现**幻觉性问题**。其中由于DPO模型生成的回复内容更长,更容易出现幻觉。我们也将持续进行MiniCPM模型的迭代改进。
|
||||
- 为了保证在学术研究用途上模型的通用性,我们**未对模型进行任何身份认同训练**。同时由于我们用ShareGPT开源语料作为部分训练数据,模型可能会输出类似GPT系列模型的身份认同信息。
|
||||
- 受限于模型规模,模型的**输出受到提示词(prompt)的影响较大**,可能多次尝试产生不一致的结果。
|
||||
- 受限于模型容量,模型的**知识记忆较不准确**,后续我们将结合RAG方法来增强模型的知识记忆能力。
|
||||
|
||||
## 目录
|
||||
|
||||
@ -187,7 +187,7 @@ print(res)
|
||||
#### 部署模式
|
||||
|
||||
* 因为MiniCPM采用Mup的结构,与现有模型在具体计算上有细微差别,我们是基于vllm=0.2.2版本进行了我们模型的实现。
|
||||
* **对于非MiniCPM模型,我们直接采样了vllm=0.2.7的最新版本进行推理。**
|
||||
* **对于非MiniCPM模型,我们采用了vllm=0.2.7的最新版本进行推理。**
|
||||
|
||||
#### 评测度量
|
||||
|
||||
@ -197,8 +197,9 @@ print(res)
|
||||
* 对于不同模型,这两种方式得到的结果差异较大。MiniCPM两种模式上的结果较为接近,而Mistral-7B-v0.1等模型在PPL上表现较好,直接生成上效果较差。
|
||||
* 在具体评测时,我们以两种评测方式得分的最高者为最终结果,以此保证对比的公平性(以下表格中*号表示采用PPL)。
|
||||
|
||||
#### 文本评测
|
||||
#### 文本模型评测
|
||||
|
||||
**越级比较:**
|
||||
|模型|平均分|英文均分|中文均分|C-Eval|CMMLU|MMLU|HumanEval|MBPP|GSM8K|MATH|BBH|ARC-E|ARC-C|HellaSwag|
|
||||
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
|
||||
|Llama2-7B|35.40|36.21|31.765|32.42|31.11|44.32|12.2|27.17|13.57|1.8|33.23|75.25|42.75|75.62*|
|
||||
@ -210,6 +211,7 @@ print(res)
|
||||
|Falcon-40B|43.62|44.21|40.93|40.29|41.57|53.53|24.39|36.53|22.44|1.92|36.24|81.94*|57.68|83.26*|
|
||||
|MiniCPM-2B|52.33|52.6|51.1|51.13|51.07|53.46|50.00|47.31|53.83|10.24|36.87|85.44|68.00|68.25|
|
||||
|
||||
**同级比较:**
|
||||
|模型|平均分|英文均分|中文均分|C-Eval|CMMLU|MMLU|HumanEval|MBPP|GSM8K|MATH|BBH|ARC-E|ARC-C|HellaSwag|
|
||||
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
|
||||
|TinyLlama-1.1B|25.36|25.55|24.525|25.02|24.03|24.3|6.71|19.91|2.27|0.74|28.78|60.77*|28.15*|58.33*|Qwen-1.8B|34.72|31.87|47.565|49.81|45.32|43.37|7.93|17.8|19.26|2.42|29.07|63.97*|43.69|59.28*|
|
||||
@ -219,6 +221,7 @@ print(res)
|
||||
|Phi-2-2B|48.84|54.41|23.775|23.37|24.18|52.66|47.56|55.04|57.16|3.5|43.39|86.11|71.25|73.07*|
|
||||
|MiniCPM-2B|52.33|52.6|51.1|51.13|51.07|53.46|50.00|47.31|53.83|10.24|36.87|85.44|68.00|68.25|
|
||||
|
||||
**Chat模型比较:**
|
||||
|模型|平均分|英文均分|中文均分|C-Eval|CMMLU|MMLU|HumanEval|MBPP|GSM8K|MATH|BBH|ARC-E|ARC-C|HellaSwag|
|
||||
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
|
||||
|ChatGLM2-6B|37.98|35.17|50.63|52.05|49.21|45.77|10.37|9.38|22.74|5.96|32.6|74.45|56.82|58.48*|
|
||||
@ -231,7 +234,23 @@ print(res)
|
||||
|Llama2-7B-Chat|38.16|39.17|33.59|34.54|32.64|47.64|14.02|27.4|21.15|2.08|35.54|74.28|54.78|75.65*|
|
||||
|MiniCPM-2B|52.33|52.6|51.1|51.13|51.07|53.46|50.00|47.31|53.83|10.24|36.87|85.44|68.00|68.25|
|
||||
|
||||
#### 多模态评测
|
||||
**DPO后模型比较:**
|
||||
|
||||
|模型|MT-bench|
|
||||
|---|---|
|
||||
|GPT-4-turbo|9.32|
|
||||
|GPT-3.5-turbo|8.39|
|
||||
|Mistral-8*7b-Instruct-v0.1|8.30|
|
||||
|Claude-2.1|8.18|
|
||||
|Zephyr-7B-beta|7.34|
|
||||
|**MiniCPM-2B**|**7.25**|
|
||||
|Vicuna-33B|7.12|
|
||||
|Zephyr-7B-alpha|6.88|
|
||||
|LLaMA-2-70B-chat|6.86|
|
||||
|Mistral-7B-Instruct-v0.1|6.84|
|
||||
|MPT-34B-instruct|6.39|
|
||||
|
||||
#### 多模态模型评测
|
||||
|
||||
<div align="left">
|
||||
|
||||
@ -307,21 +326,7 @@ print(res)
|
||||
|
||||
</div>
|
||||
|
||||
#### DPO评测
|
||||
|
||||
|模型|MT-bench|
|
||||
|---|---|
|
||||
|GPT-4-turbo|9.32|
|
||||
|GPT-3.5-turbo|8.39|
|
||||
|Mistral-8*7b-Instruct-v0.1|8.30|
|
||||
|Claude-2.1|8.18|
|
||||
|Zephyr-7B-beta|7.34|
|
||||
|**MiniCPM-2B**|**7.25**|
|
||||
|Vicuna-33B|7.12|
|
||||
|Zephyr-7B-alpha|6.88|
|
||||
|LLaMA-2-70B-chat|6.86|
|
||||
|Mistral-7B-Instruct-v0.1|6.84|
|
||||
|MPT-34B-instruct|6.39|
|
||||
|
||||
<p id="4"></p>
|
||||
|
||||
|
||||
Loading…
x
Reference in New Issue
Block a user