GunA-SD/DataX

Name: GunA-SD/DataX
Creator: GunA-SD
Published: 2024-04-11 19:14:22
License: 暂无描述

Hugging Face2024-04-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GunA-SD/DataX

下载链接

链接失效反馈

官方服务：

资源简介：

数据集DataX是一个结合了大型语言模型生成的数据和从维基百科抓取的信息的精选集合。它涵盖了广泛的主题，为文本生成、文本到文本生成、摘要和对话模型等任务提供了丰富的资源。数据集包含超过170万个样本，是训练和评估机器学习模型的重要资产。未来的更新可能包括增加验证和测试集、扩展主题覆盖范围以及增强元数据。数据集主要用于自然语言处理和机器学习领域的学术研究和实际应用。然而，数据集的时间背景仅限于2023年之前，且目前仅支持英语，这可能限制了其在多语言或非英语项目中的适用性。此外，数据集的编译涉及从维基百科抓取内容和使用大型语言模型生成数据，用户在使用时应考虑潜在的偏见和多样性的代表性问题。

提供机构：

GunA-SD

原始信息汇总

数据集概述

数据集信息

特征:
- Unnamed: 0: 数据类型为 int64
- Topic: 数据类型为 string
- Content: 数据类型为 string
分割:
- train: 字节数为 5397321128，样本数为 1720117
下载大小: 3148810475 字节
数据集大小: 5397321128 字节

配置

默认配置:
- 数据文件路径: data/train-*

任务类别

文本生成
摘要生成
问答

语言

英语

数据集大小类别

1M < n < 10M

描述

"DataX" 数据集是一个精心策划的集合，结合了大型语言模型（LLMs）生成的数据和从维基百科抓取的信息。它涵盖了广泛的主题，为文本生成、文本到文本生成、摘要和对话模型等任务提供了丰富的资源。该数据集包含超过 170 万个样本，是训练健壮和多样化机器学习及深度学习模型的重要资产。

完整性和未来工作

尽管该数据集目前提供了大量的数据，但仍在努力扩大其范围和实用性。未来的更新可能包括额外的验证和测试分割、更广泛的主题覆盖以及增强的元数据，以实现更丰富的模型训练可能性。

预期用途

"DataX" 数据集旨在用于自然语言处理（NLP）和机器学习（ML）领域的学术研究和实际应用。它特别适合在各种任务上训练和评估模型。鼓励研究人员和开发人员利用此数据集探索创新的 NLP 技术，并在多种情境下对模型的性能进行基准测试。

限制

该数据集虽然广泛，但仅代表截至 2023 年的信息快照。用户在使用该数据集应用于当代模型和研究时应意识到其时间上下文。此外，该数据集的语言覆盖目前仅限于英语，这可能会限制其在多语言或非英语项目中的适用性。

伦理考虑

该数据集的编制涉及收集 LLMs 生成的数据和从维基百科抓取的内容。尽管已尽一切努力确保数据集遵循伦理准则并尊重版权法，用户仍应考虑数据中潜在的偏见和多样性视角的表示。此外，用户应评估数据集对其特定研究或应用需求的适用性，特别是在敏感或受监管的领域。

使用方法

可以使用 Hugging Face 数据集库或其他相关方法加载此数据集。

引用

如果在您的研究中使用了此数据集，请在出版物中引用：

@misc{DataX, title = {DataX: A Mixture of LLM Generated and Wiki Scraped Data}, author = {Gunasekar}, year = {2023}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/GunA-SD/DataX} }

许可证

该数据集在 Apache-2.0 许可证下发布。完整许可证文本可在 LICENSE 获取。

5,000+

优质数据集

54 个

任务类型

进入经典数据集