diff --git a/README.md b/README.md index 52bd7f5..73927b8 100644 --- a/README.md +++ b/README.md @@ -35,10 +35,10 @@ MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的 ### 局限性: -- 受限于模型规模,模型可能出现幻觉性问题。其中由于DPO模型生成的回复内容更长,更容易出现幻觉。我们也将持续进行MiniCPM模型的迭代改进。 -- 为了保证在学术研究用途上模型的通用性,我们未对模型进行任何身份认同训练。同时由于我们用ShareGPT开源语料作为部分训练数据,模型可能会输出类似GPT系列模型的身份认同信息。 -- 受限于模型规模,模型的输出受到提示词(prompt)的影响较大,可能多次尝试产生不一致的结果。 -- 受限于模型容量,模型的知识记忆较不准确,后续我们将结合RAG方法来增强模型的知识记忆能力。 +- 受限于模型规模,模型可能出现**幻觉性问题**。其中由于DPO模型生成的回复内容更长,更容易出现幻觉。我们也将持续进行MiniCPM模型的迭代改进。 +- 为了保证在学术研究用途上模型的通用性,我们**未对模型进行任何身份认同训练**。同时由于我们用ShareGPT开源语料作为部分训练数据,模型可能会输出类似GPT系列模型的身份认同信息。 +- 受限于模型规模,模型的**输出受到提示词(prompt)的影响较大**,可能多次尝试产生不一致的结果。 +- 受限于模型容量,模型的**知识记忆较不准确**,后续我们将结合RAG方法来增强模型的知识记忆能力。 ## 目录 @@ -187,7 +187,7 @@ print(res) #### 部署模式 * 因为MiniCPM采用Mup的结构,与现有模型在具体计算上有细微差别,我们是基于vllm=0.2.2版本进行了我们模型的实现。 -* **对于非MiniCPM模型,我们直接采样了vllm=0.2.7的最新版本进行推理。** +* **对于非MiniCPM模型,我们采用了vllm=0.2.7的最新版本进行推理。** #### 评测度量 @@ -197,8 +197,9 @@ print(res) * 对于不同模型,这两种方式得到的结果差异较大。MiniCPM两种模式上的结果较为接近,而Mistral-7B-v0.1等模型在PPL上表现较好,直接生成上效果较差。 * 在具体评测时,我们以两种评测方式得分的最高者为最终结果,以此保证对比的公平性(以下表格中*号表示采用PPL)。 -#### 文本评测 +#### 文本模型评测 +**越级比较:** |模型|平均分|英文均分|中文均分|C-Eval|CMMLU|MMLU|HumanEval|MBPP|GSM8K|MATH|BBH|ARC-E|ARC-C|HellaSwag| |-|-|-|-|-|-|-|-|-|-|-|-|-|-|-| |Llama2-7B|35.40|36.21|31.765|32.42|31.11|44.32|12.2|27.17|13.57|1.8|33.23|75.25|42.75|75.62*| @@ -210,6 +211,7 @@ print(res) |Falcon-40B|43.62|44.21|40.93|40.29|41.57|53.53|24.39|36.53|22.44|1.92|36.24|81.94*|57.68|83.26*| |MiniCPM-2B|52.33|52.6|51.1|51.13|51.07|53.46|50.00|47.31|53.83|10.24|36.87|85.44|68.00|68.25| +**同级比较:** |模型|平均分|英文均分|中文均分|C-Eval|CMMLU|MMLU|HumanEval|MBPP|GSM8K|MATH|BBH|ARC-E|ARC-C|HellaSwag| |-|-|-|-|-|-|-|-|-|-|-|-|-|-|-| |TinyLlama-1.1B|25.36|25.55|24.525|25.02|24.03|24.3|6.71|19.91|2.27|0.74|28.78|60.77*|28.15*|58.33*|Qwen-1.8B|34.72|31.87|47.565|49.81|45.32|43.37|7.93|17.8|19.26|2.42|29.07|63.97*|43.69|59.28*| @@ -219,6 +221,7 @@ print(res) |Phi-2-2B|48.84|54.41|23.775|23.37|24.18|52.66|47.56|55.04|57.16|3.5|43.39|86.11|71.25|73.07*| |MiniCPM-2B|52.33|52.6|51.1|51.13|51.07|53.46|50.00|47.31|53.83|10.24|36.87|85.44|68.00|68.25| +**Chat模型比较:** |模型|平均分|英文均分|中文均分|C-Eval|CMMLU|MMLU|HumanEval|MBPP|GSM8K|MATH|BBH|ARC-E|ARC-C|HellaSwag| |-|-|-|-|-|-|-|-|-|-|-|-|-|-|-| |ChatGLM2-6B|37.98|35.17|50.63|52.05|49.21|45.77|10.37|9.38|22.74|5.96|32.6|74.45|56.82|58.48*| @@ -231,7 +234,23 @@ print(res) |Llama2-7B-Chat|38.16|39.17|33.59|34.54|32.64|47.64|14.02|27.4|21.15|2.08|35.54|74.28|54.78|75.65*| |MiniCPM-2B|52.33|52.6|51.1|51.13|51.07|53.46|50.00|47.31|53.83|10.24|36.87|85.44|68.00|68.25| -#### 多模态评测 +**DPO后模型比较:** + +|模型|MT-bench| +|---|---| +|GPT-4-turbo|9.32| +|GPT-3.5-turbo|8.39| +|Mistral-8*7b-Instruct-v0.1|8.30| +|Claude-2.1|8.18| +|Zephyr-7B-beta|7.34| +|**MiniCPM-2B**|**7.25**| +|Vicuna-33B|7.12| +|Zephyr-7B-alpha|6.88| +|LLaMA-2-70B-chat|6.86| +|Mistral-7B-Instruct-v0.1|6.84| +|MPT-34B-instruct|6.39| + +#### 多模态模型评测