Skywork/ChineseDomainModelingEval

Name: Skywork/ChineseDomainModelingEval
Creator: Skywork
Published: 2023-11-02 03:51:43
License: 暂无描述

Hugging Face2023-11-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Skywork/ChineseDomainModelingEval

下载链接

链接失效反馈

官方服务：

资源简介：

Skywork/ChineseDomainModelingEval是中文领域建模能力评测数据集，我们对多个领域筛选出2023年9月份-2023年10月份新发布的几百到上千篇高质量文章，并人工进行了核对。测试数据的来源也足够广泛，质量也高。我们可以选取当前最新的文章评测不同模型的Perplexity，模型很难作弊。并且我们会持续按照最新数据评测各个模型效果，动态更新各个模型能力。

Skywork/ChineseDomainModelingEval is a Chinese-language domain modeling capability evaluation dataset. We selected hundreds to thousands of high-quality articles newly published between September and October 2023 across multiple domains, and conducted manual quality checks. The test data covers sufficiently diverse sources and maintains high overall quality. Researchers can leverage the most recent articles in this dataset to assess the perplexity of different models, as it is difficult for models to cheat during this evaluation. Moreover, we will continuously evaluate model performance using newly updated data and dynamically update the capability standings of all evaluated models.

提供机构：

Skywork

原始信息汇总

数据介绍

Skywork/ChineseDomainModelingEval是中文领域建模能力评测数据集，包含2023年9月份至10月份新发布的数百到数千篇高质量文章，经过人工核对。数据来源广泛，质量高，用于评测不同模型的Perplexity，并持续更新以评测各个模型的效果。

文件介绍

zh_finance.jsonl：金融领域评估数据
zh_game.jsonl：游戏领域评估数据
zh_government.jsonl：政务领域评估数据
zh_movie.jsonl：电影领域评估数据
zh_tech.jsonl：技术领域评估数据
zh_general.jsonl：综合领域评估数据

协议

SkyPile数据集的使用需遵守Skywork社区许可证，支持商业用途。使用Skywork模型或其衍生品进行商业活动时，需遵守Skywork社区许可证及Apache 2.0许可证的条款。

引用

如需引用该数据集，请参考以下论文：

@misc{wei2023skywork, title={Skywork: A More Open Bilingual Foundation Model}, author={Tianwen Wei and Liang Zhao and Lichang Zhang and Bo Zhu and Lijie Wang and Haihua Yang and Biye Li and Cheng Cheng and Weiwei Lü and Rui Hu and Chenxia Li and Liu Yang and Xilin Luo and Xuejie Wu and Lunan Liu and Wenjun Cheng and Peng Cheng and Jianhao Zhang and Xiaoyu Zhang and Lei Lin and Xiaokun Wang and Yutuan Ma and Chuanhai Dong and Yanqi Sun and Yifu Chen and Yongyi Peng and Xiaojuan Liang and Shuicheng Yan and Han Fang and Yahui Zhou}, year={2023}, eprint={2310.19341}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，对模型进行跨领域能力评估至关重要。Skywork/ChineseDomainModelingEval数据集的构建过程体现了严谨的学术态度，研究团队从金融、游戏、政务、电影和技术等多个关键领域中，精心筛选了2023年9月至10月期间新发布的数百至上千篇高质量文章。这些文本均经过人工核对，确保了来源的广泛性与内容的高质量，从而为模型在最新语料上的困惑度（Perplexity）评测提供了可靠基础，有效防止了模型通过记忆旧数据而“作弊”的现象。

特点

该数据集的核心特点在于其时效性与领域专精性。通过聚焦于特定时间段内产生的最新文本，它能够动态反映语言模型对新兴话题和术语的理解能力。数据覆盖了金融、政务、技术等六个具有代表性的垂直领域，每个领域均以独立的JSONL文件呈现，结构清晰，便于进行细粒度的领域建模分析。这种设计使得评测不仅关注模型的通用语言能力，更能深入检验其在专业语境下的适应性与知识更新速度。

使用方法

使用本数据集进行模型评估时，研究者可针对特定领域或综合表现展开分析。典型流程是加载相应的JSONL文件，例如zh_finance.jsonl用于金融领域评估，利用其中的文本序列计算模型的困惑度指标。通过对比模型在不同领域文件上的表现，可以系统评估其领域建模能力的均衡性与强项。数据集将持续更新，鼓励研究社区将其作为基准，跟踪和比较不同模型在中文最新语料上的动态演进能力。

背景与挑战

背景概述

随着大语言模型在中文自然语言处理领域的广泛应用，对其领域建模能力的评估需求日益凸显。Skywork/ChineseDomainModelingEval数据集由SkyworkAI团队于2023年创建，旨在系统评测模型在金融、游戏、政务、电影、技术及综合等多个专业领域的语言建模性能。该数据集精选了2023年9月至10月间发布的高质量文章，经过人工核对，确保了数据的时效性与权威性，为核心研究问题——即模型在新兴领域文本上的困惑度评估——提供了可靠的基准，推动了中文大模型在垂直领域的应用与发展。

当前挑战

该数据集致力于解决中文大语言模型在领域适应性评估中的挑战，即模型在面对专业性强、时效性高的文本时，其语言建模能力往往难以准确衡量，传统评估方法易受数据泄露或过时信息干扰。在构建过程中，挑战主要集中于数据采集与处理：需从广泛来源中筛选出数百至上千篇最新高质量文章，并确保各领域覆盖的均衡性与代表性，同时通过人工核对保障数据准确性，以构建一个难以作弊、动态更新的评估体系，为模型性能提供真实反映。

常用场景

经典使用场景

在自然语言处理领域，领域建模能力是评估语言模型泛化性能的关键指标。Skywork/ChineseDomainModelingEval数据集通过精选金融、游戏、政务、电影、技术和综合等多个领域的高质量中文文本，为研究者提供了一个标准化的评测平台。该数据集最经典的使用场景在于计算模型在不同领域文本上的困惑度（Perplexity），从而量化模型对特定领域语言模式的理解程度。这种评估方式不仅避免了模型通过训练数据记忆而作弊，还支持动态更新，确保了评测结果的时效性和可靠性。

实际应用

在实际应用中，Skywork/ChineseDomainModelingEval数据集为企业和开发者在部署中文语言模型时提供了重要参考。例如，在金融科技领域，该数据集可用于测试模型对财经新闻或报告的理解能力，确保模型生成内容的准确性与专业性；在游戏行业，则能评估模型对玩家社区语言和术语的掌握程度。通过动态更新评测数据，它支持持续监控模型性能，助力实际系统在多变场景中保持稳定输出，提升用户体验和业务效率。

衍生相关工作

基于Skywork/ChineseDomainModelingEval数据集，已衍生出多项经典研究工作。例如，在论文《Skywork: A More Open Bilingual Foundation Model》中，作者利用该数据集评估了双语基础模型在不同中文领域的建模效果，为模型优化提供了实证依据。此外，该数据集还激发了后续研究关注领域自适应预训练、多领域困惑度对比分析等方向，推动了中文自然语言处理社区在领域特异性评测方法上的进步，为更广泛的模型比较和基准建设奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集