From 690abcce0e390ef6647cbda2ba042dadead22f18 Mon Sep 17 00:00:00 2001
From: czl <2225115210@qq.com>
Date: Wed, 11 Sep 2024 15:43:36 +0800
Subject: [PATCH 1/2] =?UTF-8?q?=E5=A4=9A=E7=AF=87=E6=96=87=E4=BB=B6?=
 =?UTF-8?q?=E7=94=9F=E6=88=90=E7=BB=BC=E8=BF=B0=E8=BF=9B=E8=A1=8C=E5=AF=B9?=
 =?UTF-8?q?=E6=AF=94=E5=92=8Capi=20key=E9=9A=90=E8=97=8F?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 file_paper_analysis.py |  6 +--
 file_paper_summary.py  | 92 ++++++++++++++++++++++++++++++++++++++++++
 2 files changed, 95 insertions(+), 3 deletions(-)
 create mode 100644 file_paper_summary.py

diff --git a/file_paper_analysis.py b/file_paper_analysis.py
index 4bd9700..d195f1f 100644
--- a/file_paper_analysis.py
+++ b/file_paper_analysis.py
@@ -42,7 +42,7 @@ def process_file(api_key, file_path, messages,question_types):
 def main(api_key, file_path_or_folder, output_excel):
     print("===========================开始处理文件===========================")
 
-
+   
     # 获取绝对路径
     file_path_or_folder = os.path.abspath(file_path_or_folder)
     output_excel = os.path.abspath(output_excel)
@@ -61,7 +61,7 @@ def main(api_key, file_path_or_folder, output_excel):
         "实验的表现",
         "论文所做的工作",
     ]
-
+    
     # 对应的 message_content，分析每篇论文
     messages = [
         "你是人工智能领域的专家，请对\n{file_content}\n的内容进行分析，并撰写一份论文摘要。",
@@ -116,4 +116,4 @@ def main(api_key, file_path_or_folder, output_excel):
 
 if __name__ == "__main__":
     # API Key, 待解析文件路径, 输出文件路径
-    main("0cd086fce44e6e97600730e6c537ea5b.6zsWw3PpQHAFrOye", "/home/czl/pythonProject/FileChat/analysis", "/home/czl/pythonProject/FileChat/analysis_result.xlsx")
+    main("API Key", "待解析文件路径", "输出文件路径")
diff --git a/file_paper_summary.py b/file_paper_summary.py
new file mode 100644
index 0000000..d7e8911
--- /dev/null
+++ b/file_paper_summary.py
@@ -0,0 +1,92 @@
+import os
+import json
+import time
+import pandas as pd  # 用于将结果保存到Excel
+from zhipuai import ZhipuAI  # 假设你已经安装并配置好ZhipuAI
+
+def process_file(api_key, file_path, messages):
+    # 初始化ZhipuAI客户端
+    client = ZhipuAI(api_key=api_key)
+   
+    try:
+        with open(file_path, 'rb') as uploaded_file:
+            file_object = client.files.create(file=uploaded_file, purpose="file-extract")
+            file_content = json.loads(client.files.content(file_id=file_object.id).content)["content"]
+            client.files.delete(file_id=file_object.id)
+            for i, message_template in enumerate(messages):
+                message_content = message_template.format(file_content=file_content)
+                response = client.chat.completions.create(
+                    model="glm-4-long",
+                    temperature=0.0,
+                    messages=[{"role": "user", "content": message_content}],
+                    max_tokens=4095 # 限制最大生成长度
+                )
+                answer = response.choices[0].message.content
+            # print(answer)
+            return answer  # 返回每个分析结果
+    except Exception as e:
+        print(f"处理文件 {os.path.basename(file_path)} 时出错: {e}")
+        return {}
+
+def generate_summary_from_files(api_key, file_content):
+    client = ZhipuAI(api_key=api_key)
+    try:
+        message_content = file_content
+        response = client.chat.completions.create(
+            model="glm-4-long",
+            temperature=0.0,
+            messages=[{"role": "user", "content": message_content}],
+            max_tokens=4095
+        )
+        summary = response.choices[0].message.content
+        return summary  # 返回综述结果
+    except Exception as e:
+        print(f"文件比较出错时出错: {e}")
+        return {}
+def main(api_key, file_path_or_folder):
+    print("===========================开始处理文件===========================")
+
+    # 获取绝对路径
+    file_path_or_folder = os.path.abspath(file_path_or_folder)
+
+    # 对应的 message_content，分析每篇论文
+    messages = [
+        """
+        你是人工智能领域的专家，以下内容是一篇论文：\n\n{file_content}\n\n请以这篇论文的内容为依据和回答的背景知识，逐条回复以下问题。请确保每个问题的回答独立分段，并按顺序提供。
+        **第一个问题**：请对论文的内容进行摘要总结，包含研究背景与问题、研究目的、方法、主要结果和结论，字数要求在150-300字之间，使用论文中的术语和概念。
+        **第二个问题**：请提取论文的摘要原文，摘要一般在Abstract之后，Introduction之前。
+        **第三个问题**：请列出论文的全部作者，按照以下格式：\n```\n作者1, 作者2, 作者3\n```。
+        **第四个问题**：请直接告诉我这篇论文发表在哪个会议或期刊，请不要推理或提供额外信息。
+        **第五个问题**：请详细描述这篇论文主要解决的核心问题，并用简洁的语言概述。
+        **第六个问题**：请告诉我这篇论文提出了哪些方法，请用最简洁的方式概括每个方法的核心思路。
+        **第七个问题**：请告诉我这篇论文所使用的数据集，包括数据集的名称和来源。
+        **第八个问题**：请列举这篇论文评估方法的所有指标，并简要说明这些指标的作用。
+        **第九个问题**：请总结这篇论文实验的表现，包含具体的数值表现和实验结论。
+        **第十个问题**：请清晰地描述论文所作的工作，分别列举出动机和贡献点以及主要创新之处。
+        """
+    ]
+
+    summary_question = "你是人工智能领域的专家,以下是对多篇论文的信息提取与内容总结：" # 用于生成综述
+    # 遍历源文件夹中的所有文件
+    for root, dirs, files in os.walk(file_path_or_folder):
+        for i, filename in enumerate(files):
+            if filename.lower().endswith(".pdf"):  # 确保只处理PDF文件
+                file_path = os.path.join(root, filename)
+                print(f"正在处理文件: {filename}")
+                try:
+                    analysis_results = process_file(api_key, file_path, messages)
+                    if analysis_results:
+                        summary_question+=f"第{i+1}篇论文：{analysis_results}\n\n"
+                except Exception as e:
+                    print(f"处理文件 {filename} 时出错: {e}")
+            else:
+                print(f"文件 {os.path.basename(file_path_or_folder)} 不是PDF文件，跳过处理")
+
+        summary_question+="请你根据以上不同论文及其内容，对这些论文生成一个综述，比较每篇论文提出方法的优劣，包括采用相同指标相同数据集所进行的实验结果的比较，讨论各方法的实际表现；最后，总结每篇论文的研究动机和贡献点，比较各论文在创新和实用性方面的不同之处，概括下这些研究在该领域中的地位和影响。"
+        # 生成综述
+        summary_result = generate_summary_from_files(api_key,summary_question)
+        # print(summary_result)
+    print("===========================处理完成===========================")
+
+if __name__ == "__main__":
+    main("API Key", "待解析文件路径")

From 1cf906b75aaece797670380b51805dec8e710fa4 Mon Sep 17 00:00:00 2001
From: czl <2225115210@qq.com>
Date: Wed, 11 Sep 2024 16:05:50 +0800
Subject: [PATCH 2/2] =?UTF-8?q?=E5=A4=9A=E7=AF=87=E8=AE=BA=E6=96=87?=
 =?UTF-8?q?=E7=94=9F=E6=88=90=E7=BB=BC=E8=BF=B0=E8=BF=9B=E8=A1=8C=E5=AF=B9?=
 =?UTF-8?q?=E6=AF=94?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 file_paper_analysis.py | 119 -----------------------------------------
 file_paper_summary.py  |  19 ++++++-
 requirements.txt       |   1 +
 3 files changed, 18 insertions(+), 121 deletions(-)
 delete mode 100644 file_paper_analysis.py

diff --git a/file_paper_analysis.py b/file_paper_analysis.py
deleted file mode 100644
index d195f1f..0000000
--- a/file_paper_analysis.py
+++ /dev/null
@@ -1,119 +0,0 @@
-import os
-import json
-import pandas as pd  # 用于将结果保存到Excel
-from zhipuai import ZhipuAI  # 假设你已经安装并配置好ZhipuAI
-
-# 定义保存结果到Excel的函数
-def append_to_excel(results, output_file, column_names):
-    df = pd.DataFrame(results, columns=column_names)
-    if os.path.exists(output_file):
-        # 如果文件已存在，则追加数据
-        existing_df = pd.read_excel(output_file)
-        df = pd.concat([existing_df, df], ignore_index=True)
-    df.to_excel(output_file, index=False)
-    print(f"结果已保存到 {output_file}")
-
-def process_file(api_key, file_path, messages,question_types):
-    # 初始化ZhipuAI客户端
-    client = ZhipuAI(api_key=api_key)
-    try:
-        with open(file_path, 'rb') as uploaded_file:
-            file_object = client.files.create(file=uploaded_file, purpose="file-extract")
-            file_content = json.loads(client.files.content(file_id=file_object.id).content)["content"]
-            client.files.delete(file_id=file_object.id)
-
-            # 存储每个message的结果
-            results = {}
-            for i, message_template in enumerate(messages):
-                message_content = message_template.format(file_content=file_content)
-                response = client.chat.completions.create(
-                    model="glm-4-long",
-                    temperature=0.0,
-                    messages=[{"role": "user", "content": message_content}],
-                )
-                answer = response.choices[0].message.content.strip()
-                question = question_types[i+1] 
-                results[question] = answer  # 将答案存储到results字典中
-            return results  # 返回每个分析结果
-    except Exception as e:
-        print(f"处理文件 {os.path.basename(file_path)} 时出错: {e}")
-        return {}
-
-def main(api_key, file_path_or_folder, output_excel):
-    print("===========================开始处理文件===========================")
-
-   
-    # 获取绝对路径
-    file_path_or_folder = os.path.abspath(file_path_or_folder)
-    output_excel = os.path.abspath(output_excel)
-
-    # 定义每个问题的类型，作为Excel中的列标题
-    question_types = [
-        "文件名",
-        "撰写摘要",
-        "摘要",
-        "作者",
-        "会议/期刊",
-        "主要解决的问题",
-        "提出的方法",
-        "所使用数据集",
-        "评估方法的指标",
-        "实验的表现",
-        "论文所做的工作",
-    ]
-    
-    # 对应的 message_content，分析每篇论文
-    messages = [
-        "你是人工智能领域的专家，请对\n{file_content}\n的内容进行分析，并撰写一份论文摘要。",
-        "你是人工智能领域的专家，请对\n{file_content}\n的内容进行分析,提取论文的摘要原文,摘要在Abstract之后,Introduction之前。",
-        "请对\n{file_content}\n的内容进行分析,告诉我全部作者是谁，按以下格式列出：\n```\n作者1, 作者2, 作者3\n```。",
-        "请对\n{file_content}\n的内容进行分析,告诉我这篇论文发表在哪个会议/期刊,不需要推理过程,直接回答。",
-        "你是人工智能领域的专家，请对\n{file_content}\n的内容进行分析,只告诉我主要解决的问题有哪些,其他内容不需要。",
-        "你是人工智能领域的专家，请对\n{file_content}\n的内容进行分析,只告诉我提出的方法有哪些,其他内容不需要。",
-        "你是人工智能领域的专家，请对\n{file_content}\n的内容进行分析,只告诉我所使用数据集有哪些,其他内容不需要。",
-        "你是人工智能领域的专家，请对\n{file_content}\n的内容进行分析,只告诉我评估方法的指标有哪些,其他内容不需要。",
-        "你是人工智能领域的专家，请对\n{file_content}\n的内容进行分析,只告诉我实验的表现,其他内容不需要。",
-        "你是人工智能领域的专家，请对\n{file_content}\n的内容进行分析,总结论文所做的工作，包括动机、贡献点等,其他内容不需要。",
-    ]
-
-    # 检查或创建 Excel 文件
-    if not os.path.exists(output_excel):
-        # 如果文件不存在，则创建并写入标题行
-        pd.DataFrame(columns=question_types).to_excel(output_excel, index=False)
-    if os.path.isfile(file_path_or_folder):
-        if file_path_or_folder.lower().endswith(".pdf"):  # 确保只处理PDF文件
-            # 处理单个文件
-            file_path = file_path_or_folder
-            print(f"正在处理文件: {os.path.basename(file_path)}")
-            try:
-                analysis_results = process_file(api_key, file_path, messages,question_types)
-                if analysis_results:
-                    result = {"文件名": os.path.basename(file_path)}
-                    result.update(analysis_results)  # 将每个问题的分析结果加入字典
-                    append_to_excel([result], output_excel, question_types)
-            except Exception as e:
-                print(f"处理文件 {os.path.basename(file_path)} 时出错: {e}")
-        else:
-            print(f"文件 {os.path.basename(file_path_or_folder)} 不是PDF文件，跳过处理")
-    elif os.path.isdir(file_path_or_folder):
-        # 遍历源文件夹中的所有文件
-        for root, dirs, files in os.walk(file_path_or_folder):
-            for filename in files:
-                if filename.lower().endswith(".pdf"):  # 确保只处理PDF文件
-                    file_path = os.path.join(root, filename)
-                    print(f"正在处理文件: {filename}")
-                    try:
-                        analysis_results = process_file(api_key, file_path, messages,question_types)
-                        if analysis_results:
-                            result = {"文件名": filename}
-                            result.update(analysis_results)  # 将每个问题的分析结果加入字典
-                            append_to_excel([result], output_excel, question_types)
-                    except Exception as e:
-                        print(f"处理文件 {filename} 时出错: {e}")
-                else:
-                    print(f"文件 {os.path.basename(file_path_or_folder)} 不是PDF文件，跳过处理")
-    print("===========================处理完成===========================")
-
-if __name__ == "__main__":
-    # API Key, 待解析文件路径, 输出文件路径
-    main("API Key", "待解析文件路径", "输出文件路径")
diff --git a/file_paper_summary.py b/file_paper_summary.py
index d7e8911..7cdc473 100644
--- a/file_paper_summary.py
+++ b/file_paper_summary.py
@@ -3,6 +3,15 @@ import json
 import time
 import pandas as pd  # 用于将结果保存到Excel
 from zhipuai import ZhipuAI  # 假设你已经安装并配置好ZhipuAI
+# file-name:print_name.py
+import argparse
+import dotenv
+
+def get_parser():
+    parser = argparse.ArgumentParser(description="Demo of argparse")
+    parser.add_argument('--path', default='Great')
+    
+    return parser
 
 def process_file(api_key, file_path, messages):
     # 初始化ZhipuAI客户端
@@ -85,8 +94,14 @@ def main(api_key, file_path_or_folder):
         summary_question+="请你根据以上不同论文及其内容，对这些论文生成一个综述，比较每篇论文提出方法的优劣，包括采用相同指标相同数据集所进行的实验结果的比较，讨论各方法的实际表现；最后，总结每篇论文的研究动机和贡献点，比较各论文在创新和实用性方面的不同之处，概括下这些研究在该领域中的地位和影响。"
         # 生成综述
         summary_result = generate_summary_from_files(api_key,summary_question)
-        # print(summary_result)
+        print(summary_result)
     print("===========================处理完成===========================")
 
 if __name__ == "__main__":
-    main("API Key", "待解析文件路径")
+    dotenv.load_dotenv()
+    parser = get_parser()
+    args = parser.parse_args()
+    path = args.path
+
+    # API Key, 待解析文件路径, 输出文件路径
+    main(os.environ.get("API_Key"), path)
diff --git a/requirements.txt b/requirements.txt
index 14345c8..f9b23fd 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -34,6 +34,7 @@ pydeck==0.9.1
 Pygments==2.18.0
 PyJWT==2.8.0
 python-dateutil==2.9.0.post0
+python-dotenv==1.0.1
 pytz==2024.1
 referencing==0.35.1
 requests==2.32.3