From dae9354e96cbbe0af3dd03627ca0758d667dcdc9 Mon Sep 17 00:00:00 2001 From: root <403644786@qq.com> Date: Mon, 1 Jul 2024 16:56:39 +0800 Subject: [PATCH] =?UTF-8?q?=E6=A0=B9=E6=8D=AEautogptq=E7=A4=BA=E4=BE=8B?= =?UTF-8?q?=E4=BF=AE=E6=94=B9=E4=BA=86autogptq=E7=9A=84readme?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 1c7c5cd..2d5be8f 100644 --- a/README.md +++ b/README.md @@ -287,9 +287,10 @@ print(model.response("<用户>山东省最高的山是哪座山, 它比黄山高 pip install e . ``` 3. 前往[模型下载](#1)下载未量化的MiniCPM仓库下所有文件放至本地同一文件夹下,1b、2b模型均可,训练后模型亦可。 -4. 在./AutoGPTQ/examples/quantization路径下输入以下命令,其中no_quantized_path是第3步模型下载路径,save_path是量化模型保存路径,--bits 为量化位数可以选择输入4或者8 +4. 命令行输入以下命令,其中no_quantized_model_path是第3步模型下载路径,save_path是量化模型保存路径,--bits 为量化位数可以选择输入4或者8 ``` - python quant_with_alpaca.py --pretrained_model_dir no_quantized_path --quantized_model_dir save_path --bits 4 + cd Minicpm/quantize + python gptq_quantize.py --pretrained_model_dir no_quant_model_path --quantized_model_dir quant_save_path --bits 4 ``` 5. 可以使用./AutoGPTQ/examples/quantization/inference.py进行推理,也可以参考前文使用vllm对量化后的模型,单卡4090下minicpm-1b-int4模型vllm推理在2000token/s左右。