中文生成式聊天评估基准(CGCE)

arXiv2023-05-24 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2305.14471v1

下载链接

链接失效反馈

官方服务：

资源简介：

中文生成式聊天评估基准(CGCE)是由度小满创建的一个专注于中文生成式聊天模型的评估数据集。该数据集包含350个问题，分为200个通用领域问题和150个金融领域专业问题。通用领域问题涵盖数学计算、场景写作、逻辑推理等13个维度，而金融领域则涉及金融术语理解、市场评论、数据分析等多个专业方面。数据集通过人工评分，评估模型的准确性、连贯性、表达清晰度和完整性。CGCE旨在为研究人员提供一个标准化的评估框架，以评估和比较中文生成式聊天模型的性能，推动自然语言生成(NLG)领域的研究进展。

The Chinese Generative Chatbot Evaluation Benchmark (CGCE) is an evaluation dataset dedicated to Chinese generative chat models, developed by Du Xiaoman. This dataset comprises 350 queries, categorized into 200 general-domain questions and 150 professional financial-domain questions. The general-domain queries cover 13 dimensions including mathematical computation, scenario writing, logical reasoning, and more, while the financial-domain questions involve multiple professional aspects such as financial terminology comprehension, market commentary, data analysis and other related fields. The dataset utilizes manual scoring to evaluate the accuracy, coherence, clarity of expression and completeness of the models' generated outputs. CGCE aims to provide researchers with a standardized evaluation framework for assessing and comparing the performance of Chinese generative chat models, thus advancing research in the field of natural language generation (NLG).

提供机构：

度小满

创建时间：

2023-05-24

搜集汇总

数据集介绍

构建方式

中文生成式聊天评估基准（CGCE）的构建旨在填补现有评估基准在生成式聊天模型，尤其是中文和特定领域模型评估方面的空白。该基准涵盖了广泛的任务，包括通用领域的200个问题和金融领域的150个专业问题。这些问题分布在多个维度，如数学计算、情景写作、逻辑推理和文本摘要等。金融领域则聚焦于金融术语理解、金融市场评论、金融数据分析和金融新闻解读。通过手动评分，评估因素包括答案的准确性、逻辑连贯性、表达清晰度和完整性，确保对模型性能的多维度评估。

特点

CGCE基准的显著特点在于其针对性和全面性。首先，它专注于中文生成式聊天模型，填补了现有基准的空白。其次，该基准不仅涵盖通用领域，还特别关注金融领域，提供了专业化的评估任务。此外，CGCE采用手动评分，确保评估的细致和准确，涵盖了从答案准确性到表达清晰度等多个维度，为研究人员提供了一个全面且细致的评估框架。

使用方法

CGCE基准的使用方法简便且直观。研究人员可以通过提供的评估问题集，对生成式聊天模型进行测试，并根据基准的评分标准进行手动评分。此外，CGCE还计划提供一个网页界面，展示当前聊天模型的评估结果，便于研究人员进行模型性能的比较和分析。通过这些方法，研究人员可以全面评估模型在不同任务和领域中的表现，识别其优势和不足，从而推动生成式聊天模型的进一步发展。

背景与挑战

背景概述

在自然语言生成（NLG）领域，基于GPT的语言模型如ChatGPT和GPT-4的引入，极大地推动了生成式聊天模型的发展。然而，针对中文生成式聊天模型的标准化评估基准的缺失，成为该领域发展的一大障碍。为填补这一空白，由百度金融（Du Xiaoman）的Xuanyu Zhang、Bingbing Li和Qing Yang领导的团队，于2023年推出了中文生成式聊天评估基准（CGCE）。该基准专注于通用和金融领域，包含200个通用领域问题和150个金融领域专业问题，通过手动评分评估模型的准确性、连贯性、表达清晰度和完整性。CGCE的推出为研究人员提供了一个标准化的框架，以评估和比较中文生成式聊天模型的性能，推动NLG研究的进步。

当前挑战

CGCE数据集在构建过程中面临多重挑战。首先，设计涵盖广泛领域和专业知识的多样化问题集，确保评估的全面性和准确性，是一项复杂任务。其次，手动评分过程中，如何确保评分的客观性和一致性，避免主观偏见，是一个重要挑战。此外，随着生成式聊天模型的快速发展，如何持续更新和扩展评估基准，以保持其时效性和适用性，也是一项持续的挑战。最后，跨领域的评估标准统一，如何在通用和金融领域之间找到平衡，确保评估结果的公平性和可比性，是CGCE面临的另一大挑战。

常用场景

经典使用场景

中文生成式聊天评估基准（CGCE）在自然语言生成（NLG）领域中，被广泛用于评估和比较中文生成式聊天模型的性能。该基准涵盖了通用领域和金融领域的多样化任务，包括数学计算、场景写作、逻辑推理、文本摘要、金融术语解释、金融市场评论、金融数据分析和金融新闻理解等。通过这些任务，CGCE为研究人员提供了一个标准化的框架，以全面评估模型在不同领域和任务中的表现。

解决学术问题

CGCE数据集解决了中文生成式聊天模型缺乏标准化评估基准的问题。在自然语言生成领域，尤其是针对中文和特定领域的模型，缺乏统一的评估标准严重阻碍了模型的评估和进步。CGCE通过提供一个包含多样化任务和多维度评分标准的基准，为研究人员提供了一个可靠的工具，用于评估和比较不同模型的性能，从而推动了NLG研究的发展。

衍生相关工作

CGCE数据集的推出激发了大量相关研究工作。研究人员基于CGCE基准，开发了多种改进的中文生成式聊天模型，这些模型在准确性、连贯性和表达清晰度等方面取得了显著提升。此外，CGCE还促进了跨领域的研究合作，如结合金融数据和自然语言处理技术，开发出更智能的金融聊天机器人。这些衍生工作不仅丰富了NLG领域的研究内容，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集