Merge pull request #122 from zRzRzRzRzRzRzR/main

OpenAI API Support
2026-02-02 13:15:44 +08:00 · 2024-06-21 11:03:55 +08:00 · 2024-06-21 11:03:55 +08:00 · cf9a5be5be
commit cf9a5be5be
parent cab7c75b56 18efe83dbe
5 changed files with 406 additions and 34 deletions
--- a/demo/hf_based_demo.py
+++ b/demo/hf_based_demo.py
@ -1,7 +1,4 @@
 from typing import Dict
 from typing import List
 from typing import Tuple
 import argparse
 import gradio as gr
 import torch
@ -16,7 +13,7 @@ import warnings
 warnings.filterwarnings('ignore', category=UserWarning, message='TypedStorage is deprecated')
 parser = argparse.ArgumentParser()
-parser.add_argument("--model_path", type=str, default="")
+parser.add_argument("--model_path", type=str, default="openbmb/MiniCPM-2B-dpo-fp16")
 parser.add_argument("--torch_dtype", type=str, default="bfloat16", choices=["float32", "bfloat16", "float16"])
 parser.add_argument("--server_name", type=str, default="127.0.0.1")
 parser.add_argument("--server_port", type=int, default=7860)
@ -55,7 +52,7 @@ def hf_gen(dialog: List, top_p: float, temperature: float, repetition_penalty: f
        str: real-time generation results of hf model
    """
    inputs = tokenizer.apply_chat_template(dialog, tokenize=False, add_generation_prompt=False)
-    enc = tokenizer(inputs, return_tensors="pt").to("cuda")
+    enc = tokenizer(inputs, return_tensors="pt").to(next(model.parameters()).device)
    streamer = TextIteratorStreamer(tokenizer)
    generation_kwargs = dict(
        enc,
--- a/demo/openai_api_demo/openai_api_request_demo.py
+++ b/demo/openai_api_demo/openai_api_request_demo.py
@ -0,0 +1,55 @@
 """
 这是一个简单的OpenAI接口代码,由于 MiniCPM-2B的限制，该脚本：
 1. 没有工具调用功能
 2. 没有System Prompt
 3. 最大支持文本 4096 长度
 运行本代码需要：
 1. 启动本地服务，本方案使用的是 AutoModelForCausalLM.from_pretrained 读入模型，没有进行优化，可以根据需要自行修改。
 2. 通过此代码进行请求。
 """
 from openai import OpenAI
 base_url = "http://127.0.0.1:8000/v1/"
 client = OpenAI(api_key="MiniCPM-2B", base_url=base_url)
 def chat(use_stream=True):
    messages = [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
    response = client.chat.completions.create(
        model="MiniCPM-2B",
        messages=messages,
        stream=use_stream,
        max_tokens=4096,  # need less than 4096 tokens
        temperature=0.8,
        top_p=0.8
    )
    if response:
        if use_stream:
            for chunk in response:
                print(chunk.choices[0].delta.content)
        else:
            content = response.choices[0].message.content
            print(content)
    else:
        print("Error:", response.status_code)
 def embedding():
    response = client.embeddings.create(
        model="bge-m3",
        input=["hello, I am MiniCPM-2B"],
    )
    embeddings = response.data[0].embedding
    print("Embedding_Success：", len(embeddings))
 if __name__ == "__main__":
    chat(use_stream=True)
--- a/demo/openai_api_demo/openai_api_server_demo.py
+++ b/demo/openai_api_demo/openai_api_server_demo.py
@ -0,0 +1,296 @@
 import gc
 import json
 import os
 import time
 from threading import Thread
 import tiktoken
 import torch
 import uvicorn
 from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from contextlib import asynccontextmanager
 from typing import List, Literal, Optional, Union
 from pydantic import BaseModel, Field
 from transformers import AutoTokenizer, TextIteratorStreamer, AutoModelForCausalLM
 from sentence_transformers import SentenceTransformer
 from loguru import logger
 from sse_starlette.sse import EventSourceResponse
 EventSourceResponse.DEFAULT_PING_INTERVAL = 1000
 MODEL_PATH = os.environ.get('MODEL_PATH', 'openbmb/MiniCPM-2B-dpo-fp16')
 TOKENIZER_PATH = os.environ.get("TOKENIZER_PATH", MODEL_PATH)
 EMBEDDING_PATH = os.environ.get('EMBEDDING_PATH', 'BAAI/bge-m3')
@asynccontextmanager
 async def lifespan(app: FastAPI):
    yield
    # clean cache
    if torch.cuda.is_available():
        torch.cuda.empty_cache()
        torch.cuda.ipc_collect()
 app = FastAPI(lifespan=lifespan)
 app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"],
 )
 class ModelCard(BaseModel):
    id: str
    object: str = "model"
    created: int = Field(default_factory=lambda: int(time.time()))
    owned_by: str = "owner"
    root: Optional[str] = None
    parent: Optional[str] = None
    permission: Optional[list] = None
 class ModelList(BaseModel):
    object: str = "list"
    data: List[ModelCard] = []
 class FunctionCallResponse(BaseModel):
    name: Optional[str] = None
    arguments: Optional[str] = None
 class ChatMessage(BaseModel):
    role: Literal["user", "assistant", "system", "function"]
    content: str = None
    name: Optional[str] = None
 class DeltaMessage(BaseModel):
    role: Optional[Literal["user", "assistant", "system"]] = None
    content: Optional[str] = None
 class EmbeddingRequest(BaseModel):
    input: List[str]
    model: str
 class CompletionUsage(BaseModel):
    prompt_tokens: int
    completion_tokens: int
    total_tokens: int
 class EmbeddingResponse(BaseModel):
    data: list
    model: str
    object: str
    usage: CompletionUsage
 class UsageInfo(BaseModel):
    prompt_tokens: int = 0
    total_tokens: int = 0
    completion_tokens: Optional[int] = 0
 class ChatCompletionRequest(BaseModel):
    model: str
    messages: List[ChatMessage]
    temperature: Optional[float] = 0.8
    top_p: Optional[float] = 0.8
    max_tokens: Optional[int] = None
    stream: Optional[bool] = False
    tools: Optional[Union[dict, List[dict]]] = None
    repetition_penalty: Optional[float] = 1.1
 class ChatCompletionResponseChoice(BaseModel):
    index: int
    message: ChatMessage
    finish_reason: Literal["stop", "length"]
 class ChatCompletionResponseStreamChoice(BaseModel):
    delta: DeltaMessage
    finish_reason: Optional[Literal["stop", "length"]]
    index: int
 class ChatCompletionResponse(BaseModel):
    model: str
    id: str
    object: Literal["chat.completion", "chat.completion.chunk"]
    choices: List[Union[ChatCompletionResponseChoice, ChatCompletionResponseStreamChoice]]
    created: Optional[int] = Field(default_factory=lambda: int(time.time()))
    usage: Optional[UsageInfo] = None
@app.get("/v1/models", response_model=ModelList)
 async def list_models():
    model_card = ModelCard(
        id="MiniCPM-2B"
    )
    return ModelList(
        data=[model_card]
    )
 def generate_minicpm(model: AutoModelForCausalLM, tokenizer: AutoTokenizer, params: dict):
    messages = params["messages"]
    temperature = float(params.get("temperature", 1.0))
    repetition_penalty = float(params.get("repetition_penalty", 1.0))
    top_p = float(params.get("top_p", 1.0))
    max_new_tokens = int(params.get("max_tokens", 256))
    inputs = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
    enc = tokenizer(inputs, return_tensors="pt").to(model.device)
    input_echo_len = len(enc["input_ids"][0])
    if input_echo_len >= model.config.max_length:
        logger.error(f"Input length larger than {model.config.max_length}")
        return
    streamer = TextIteratorStreamer(tokenizer)
    generation_kwargs = {
        **enc,
        "do_sample": True if temperature > 1e-5 else False,
        "top_k": 0,
        "top_p": top_p,
        "temperature": temperature,
        "repetition_penalty": repetition_penalty,
        "max_new_tokens": max_new_tokens,
        "pad_token_id": tokenizer.eos_token_id,
        "streamer": streamer,
    }
    eos_token = tokenizer.eos_token
    thread = Thread(target=model.generate, kwargs=generation_kwargs)
    thread.start()
    response = ""
    for new_text in streamer:
        new_text = new_text.split(eos_token)[0] if eos_token in new_text else new_text
        response += new_text
        current_length = len(new_text)
        yield {
            "text": response[5 + len(inputs):],
            "usage": {
                "prompt_tokens": input_echo_len,
                "completion_tokens": current_length - input_echo_len,
                "total_tokens": len(response),
            },
            "finish_reason": "",
        }
    thread.join()
    gc.collect()
    torch.cuda.empty_cache()
@app.post("/v1/embeddings", response_model=EmbeddingResponse)
 async def get_embeddings(request: EmbeddingRequest):
    embeddings = [embedding_model.encode(text) for text in request.input]
    embeddings = [embedding.tolist() for embedding in embeddings]
    def num_tokens_from_string(string: str) -> int:
        encoding = tiktoken.get_encoding('cl100k_base')
        num_tokens = len(encoding.encode(string))
        return num_tokens
    response = {
        "data": [
            {
                "object": "embedding",
                "embedding": embedding,
                "index": index
            }
            for index, embedding in enumerate(embeddings)
        ],
        "model": request.model,
        "object": "list",
        "usage": CompletionUsage(
            prompt_tokens=sum(len(text.split()) for text in request.input),
            completion_tokens=0,
            total_tokens=sum(num_tokens_from_string(text) for text in request.input),
        )
    }
    return response
@app.post("/v1/chat/completions", response_model=ChatCompletionResponse)
 async def create_chat_completion(request: ChatCompletionRequest):
    global model, tokenizer
    if len(request.messages) < 1 or request.messages[-1].role == "assistant":
        raise HTTPException(status_code=400, detail="Invalid request")
    gen_params = dict(
        messages=request.messages,
        temperature=request.temperature,
        top_p=request.top_p,
        max_tokens=request.max_tokens or 2048,
        echo=False,
        repetition_penalty=request.repetition_penalty,
        tools=request.tools,
    )
    logger.debug(f"==== request ====\n{gen_params}")
    input_tokens = sum(len(tokenizer.encode(msg.content)) for msg in request.messages)
    if request.stream:
        async def stream_response():
            previous_text = ""
            for new_response in generate_minicpm(model, tokenizer, gen_params):
                delta_text = new_response["text"][len(previous_text):]
                previous_text = new_response["text"]
                delta = DeltaMessage(content=delta_text, role="assistant")
                choice_data = ChatCompletionResponseStreamChoice(
                    index=0,
                    delta=delta,
                    finish_reason=None
                )
                chunk = {
                    "model": request.model,
                    "id": "",
                    "choices": [choice_data.dict(exclude_none=True)],
                    "object": "chat.completion.chunk"
                }
                yield json.dumps(chunk) + "\n"
        return EventSourceResponse(stream_response(), media_type="text/event-stream")
    else:
        generated_text = ""
        for response in generate_minicpm(model, tokenizer, gen_params):
            generated_text = response["text"]
        generated_text = generated_text.strip()
        output_tokens = len(tokenizer.encode(generated_text))
        usage = UsageInfo(
            prompt_tokens=input_tokens,
            completion_tokens=output_tokens,
            total_tokens=output_tokens + input_tokens
        )
        message = ChatMessage(role="assistant", content=generated_text)
        logger.debug(f"==== message ====\n{message}")
        choice_data = ChatCompletionResponseChoice(
            index=0,
            message=message,
            finish_reason="stop",
        )
        return ChatCompletionResponse(
            model=request.model,
            id="",
            choices=[choice_data],
            object="chat.completion",
            usage=usage
        )
 if __name__ == "__main__":
    tokenizer = AutoTokenizer.from_pretrained(TOKENIZER_PATH)
    model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, torch_dtype=torch.bfloat16, device_map="auto",
                                                 trust_remote_code=True)
    embedding_model = SentenceTransformer(EMBEDDING_PATH, device="cuda")
    uvicorn.run(app, host='0.0.0.0', port=8000, workers=1)
--- a/demo/vllm_based_demo.py
+++ b/demo/vllm_based_demo.py
@ -1,36 +1,46 @@
 from typing import Dict
 from typing import List
 from typing import Tuple
 import argparse
 import gradio as gr
 from vllm import LLM, SamplingParams
-
+import torch
 from transformers import AutoTokenizer
 parser = argparse.ArgumentParser()
-parser.add_argument("--model_path", type=str, default="")
+parser.add_argument("--model_path", type=str, default="openbmb/MiniCPM-1B-sft-bf16")
 parser.add_argument("--torch_dtype", type=str, default="bfloat16", choices=["float32", "bfloat16"])
 parser.add_argument("--server_name", type=str, default="127.0.0.1")
 parser.add_argument("--server_port", type=int, default=7860)
-args = parser.parse_args()
+parser.add_argument("--max_tokens", type=int, default=2048)
 # for MiniCPM-1B and MiniCPM-2B  model, max_tokens should be set to 2048
 args = parser.parse_args()
 # init model torch dtype
 torch_dtype = args.torch_dtype
-if torch_dtype =="" or torch_dtype == "bfloat16":
+if torch_dtype == "" or torch_dtype == "bfloat16":
-    torch_dtype = "bfloat16"
+    torch_dtype = torch.bfloat16
 elif torch_dtype == "float32":
-    torch_dtype = "float32"
+    torch_dtype = torch.float32
 elif torch_dtype == "float16":
    torch_dtype = torch.float16
 else:
    raise ValueError(f"Invalid torch dtype: {torch_dtype}")
 # init model and tokenizer
 path = args.model_path
-llm = LLM(model=path, tensor_parallel_size=1, dtype=torch_dtype)
+llm = LLM(
    model=path,
    tensor_parallel_size=1,
    dtype=torch_dtype,
    trust_remote_code=True,
    gpu_memory_utilization=0.9,
    max_model_len=args.max_tokens
 )
 tokenizer = AutoTokenizer.from_pretrained(args.model_path, trust_remote_code=True)
 server_name = args.server_name
 server_port = args.server_port
 # init gradio demo host and port
 server_name=args.server_name
 server_port=args.server_port
 def vllm_gen(dialog: List, top_p: float, temperature: float, max_dec_len: int):
    """generate model output with huggingface api
@ -43,19 +53,14 @@ def vllm_gen(dialog: List, top_p: float, temperature: float, max_dec_len: int):
    Yields:
        str: real-time generation results of hf model
-    """    
+    """
    prompt = ""
    assert len(dialog) % 2 == 1
-    for info in dialog:
+    prompt = tokenizer.apply_chat_template(dialog, tokenize=False, add_generation_prompt=False)
-        if info["role"] == "user":
+    token_ids = tokenizer.convert_tokens_to_ids(["<|im_end|>"])
            prompt += "<用户>" + info["content"]
        else:
            prompt += "<AI>" + info["content"]
    prompt += "<AI>"
    params_dict = {
        "n": 1,
        "best_of": 1,
-        "presence_penalty": 1.0,    
+        "presence_penalty": 1.0,
        "frequency_penalty": 0.0,
        "temperature": temperature,
        "top_p": top_p,
@ -63,8 +68,8 @@ def vllm_gen(dialog: List, top_p: float, temperature: float, max_dec_len: int):
        "use_beam_search": False,
        "length_penalty": 1,
        "early_stopping": False,
-        "stop": None,
+        "stop": "<|im_end|>",
-        "stop_token_ids": None,
+        "stop_token_ids": token_ids,
        "ignore_eos": False,
        "max_tokens": max_dec_len,
        "logprobs": None,
@ -89,7 +94,7 @@ def generate(chat_history: List, query: str, top_p: float, temperature: float, m
    Yields:
        List: [[q_1, a_1], [q_2, a_2], ..., [q_n, a_n], [q_n+1, a_n+1]]. chat_history + QA of current round.
-    """    
+    """
    assert query != "", "Input must not be empty!!!"
    # apply chat template
    model_input = []
@ -114,7 +119,7 @@ def regenerate(chat_history: List, top_p: float, temperature: float, max_dec_len
    Yields:
        List: [[q_1, a_1], [q_2, a_2], ..., [q_n, a_n]]. chat_history
-    """    
+    """
    assert len(chat_history) >= 1, "History is empty. Nothing to regenerate!!"
    # apply chat template
    model_input = []
@ -133,7 +138,7 @@ def clear_history():
    Returns:
        List: empty chat history
-    """    
+    """
    return []
@ -145,7 +150,7 @@ def reverse_last_round(chat_history):
    Returns:
        List: [[q_1, a_1], [q_2, a_2], ..., [q_n-1, a_n-1]]. chat_history without last round.
-    """    
+    """
    assert len(chat_history) >= 1, "History is empty. Nothing to reverse!!"
    return chat_history[:-1]
@ -158,7 +163,7 @@ with gr.Blocks(theme="soft") as demo:
        with gr.Column(scale=1):
            top_p = gr.Slider(0, 1, value=0.8, step=0.1, label="top_p")
            temperature = gr.Slider(0.1, 2.0, value=0.5, step=0.1, label="temperature")
-            max_dec_len = gr.Slider(1, 1024, value=1024, step=1, label="max_dec_len")
+            max_dec_len = gr.Slider(1, args.max_tokens, value=args.max_tokens, step=1, label="max_tokens")
        with gr.Column(scale=5):
            chatbot = gr.Chatbot(bubble_full_width=False, height=400)
            user_input = gr.Textbox(label="User", placeholder="Input your query here!", lines=8)
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,19 @@
 # for MiniCPM-2B hf inference
 torch>=2.0.0
 transformers>=4.36.2
 gradio>=4.26.0
 # for vllm inference
 # vllm>=0.4.0.post1
 # for openai api inference
 openai>=1.17.1
 tiktoken>=0.6.0
 loguru>=0.7.2
 sentence_transformers>=2.6.1
 sse_starlette>=2.1.0
 # for MiniCPM-V hf inference
 Pillow>=10.3.0
 timm>=0.9.16
 sentencepiece>=0.2.0