GunA-SD/DataX
收藏数据集概述
数据集信息
- 特征:
Unnamed: 0: 数据类型为int64Topic: 数据类型为stringContent: 数据类型为string
- 分割:
train: 字节数为 5397321128,样本数为 1720117
- 下载大小: 3148810475 字节
- 数据集大小: 5397321128 字节
配置
- 默认配置:
- 数据文件路径:
data/train-*
- 数据文件路径:
任务类别
- 文本生成
- 摘要生成
- 问答
语言
- 英语
数据集大小类别
- 1M < n < 10M
描述
"DataX" 数据集是一个精心策划的集合,结合了大型语言模型(LLMs)生成的数据和从维基百科抓取的信息。它涵盖了广泛的主题,为文本生成、文本到文本生成、摘要和对话模型等任务提供了丰富的资源。该数据集包含超过 170 万个样本,是训练健壮和多样化机器学习及深度学习模型的重要资产。
完整性和未来工作
尽管该数据集目前提供了大量的数据,但仍在努力扩大其范围和实用性。未来的更新可能包括额外的验证和测试分割、更广泛的主题覆盖以及增强的元数据,以实现更丰富的模型训练可能性。
预期用途
"DataX" 数据集旨在用于自然语言处理(NLP)和机器学习(ML)领域的学术研究和实际应用。它特别适合在各种任务上训练和评估模型。鼓励研究人员和开发人员利用此数据集探索创新的 NLP 技术,并在多种情境下对模型的性能进行基准测试。
限制
该数据集虽然广泛,但仅代表截至 2023 年的信息快照。用户在使用该数据集应用于当代模型和研究时应意识到其时间上下文。此外,该数据集的语言覆盖目前仅限于英语,这可能会限制其在多语言或非英语项目中的适用性。
伦理考虑
该数据集的编制涉及收集 LLMs 生成的数据和从维基百科抓取的内容。尽管已尽一切努力确保数据集遵循伦理准则并尊重版权法,用户仍应考虑数据中潜在的偏见和多样性视角的表示。此外,用户应评估数据集对其特定研究或应用需求的适用性,特别是在敏感或受监管的领域。
使用方法
可以使用 Hugging Face 数据集库或其他相关方法加载此数据集。
引用
如果在您的研究中使用了此数据集,请在出版物中引用:
@misc{DataX, title = {DataX: A Mixture of LLM Generated and Wiki Scraped Data}, author = {Gunasekar}, year = {2023}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/GunA-SD/DataX} }
许可证
该数据集在 Apache-2.0 许可证下发布。完整许可证文本可在 LICENSE 获取。



