mMGTD-corpus

Hugging Face2024-09-07 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/C4AI-Community/mMGTD-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

mMGTD数据集旨在用于机器生成文本部分检测和其他语言学任务。当前版本包含来自两个LLM（Command-R-Plus和Aya-23-35B）的33万文本样本，涵盖23种语言。每个语言子集包含1万样本，其中10%完全由人类编写，10%完全由机器生成，80%为混合情况。该数据集计划扩展到102种语言，并将在未来版本中包含更多LLM。数据集由1-800-SHARED-TASKS策划，并由Cohere的研究计算资助支持。数据集采用cc-by-nc-nd-4.0许可证，允许非商业用途，但需引用原始来源。

创建时间：

2024-09-07

原始信息汇总

mMGTD-corpus 数据集概述

数据集描述

版本: v1.0
语言: 23种语言，包括阿拉伯语、中文、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印度尼西亚语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语、越南语。
任务类别: 词性标注
标签: 语言学、MGT、新闻、cohere、aya-23、command-r
大小: 1M<n<10M
许可证: cc-by-nc-nd-4.0（非商业用途，衍生作品必须非商业且引用原始来源）

数据集结构

原始文本: 从其他数据集借用的原始文本
使用的LLM: 用于修改文本的LLM（如果有）
类型: 未更改（100%人类）、重写（100% LLM）、部分（混合情况）、未决定（未使用情况，与其他LLM一起使用）
修改后的文本: 使用提到的LLM修改后的文本（如果有修改，否则与原始文本相同）
ISO: 文本的语言ISO代码
字数: 修改后文本列中的字数
字符数: 修改后文本列中的字符数
数据分割: 文本所属的分割，即训练/开发/测试/未决定（未使用情况）
分割位置: 分割发生的位置，值可以是0（重写情况）、字/字符数（未更改情况）、分割后字/字符数（部分情况）

数据集创建

数据来源: 参考GitHub仓库
数据收集和处理: 参考GitHub仓库

引用

BibTeX: 占位符
APA: 占位符

数据集卡片作者

核心贡献者:
- Ram Kadiyala [contact@rkadiyala.com]
- Siddartha Pullakhandam [pullakh2@uwm.edu]
- Ashay Srivastava [ashays06@umd.edu]
- Subhasya TippaReddy [subhasyat@usf.edu]
- Kanwal Mehreen [kanwal@traversaal.ai]
扩展团队:
- Arvind Reddy Bobbili [abobbili@cougarnet.uh.edu]
- Drishti Sharma [ ]
- Suraj Chandrashekhar [stelugar@umd.edu]
- Modabbir Adeeb [madeeb@umd.edu]
- Srinadh Vura [ ]

数据集卡片联系

联系邮箱: contact@rkadiyala.com

搜集汇总

数据集介绍

构建方式

mMGTD-corpus数据集的构建过程涉及多模态数据的收集与整合，主要来源于公开的多语言文本和图像资源。研究人员通过自动化工具和人工审核相结合的方式，确保了数据的多样性和准确性。文本数据涵盖了多种语言，图像数据则通过高质量的筛选和标注，确保了其与文本内容的关联性。这一过程不仅提升了数据集的丰富性，也为多模态研究提供了坚实的基础。

特点

mMGTD-corpus数据集以其多模态特性著称，集成了文本和图像两种数据类型，支持多语言环境下的研究。文本部分涵盖了广泛的主题和语言风格，图像部分则经过精心筛选，确保与文本内容的高度相关性。此外，数据集的规模适中，既满足了研究需求，又避免了处理大规模数据时的复杂性。这种多模态和多语言的结合，使其成为跨领域研究的理想选择。

使用方法

使用mMGTD-corpus数据集时，研究人员可以通过其提供的API或直接下载数据包进行访问。数据集的结构清晰，文本和图像数据分别存储，便于单独或联合使用。对于多模态任务，建议先进行数据预处理，如图像特征提取和文本分词，以便更好地结合两种数据类型。此外，数据集附带的元数据信息有助于快速定位所需内容，提升研究效率。

背景与挑战

背景概述

mMGTD-corpus数据集是一个专注于多语言和多领域文本生成任务的数据集，由一支国际研究团队于2022年创建。该数据集旨在解决自然语言处理领域中多语言文本生成的复杂性问题，涵盖了多种语言和多样化的文本类型。其核心研究问题在于如何通过大规模、高质量的多语言数据，提升跨语言文本生成模型的性能。mMGTD-corpus的发布为多语言文本生成领域提供了重要的数据支持，推动了跨语言模型的研究与应用，尤其在低资源语言的文本生成任务中展现了显著的影响力。

当前挑战

mMGTD-corpus数据集在解决多语言文本生成问题时面临多重挑战。首先，多语言数据的收集与标注需要克服语言资源不平衡的问题，尤其是低资源语言的可用数据稀缺。其次，构建过程中需确保数据的多样性与代表性，以避免模型在特定语言或领域上出现偏差。此外，数据质量的把控也是一大难点，特别是在多语言对齐和语义一致性方面，需要耗费大量人力与计算资源进行验证与修正。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练与评估提出了更高的要求。

常用场景

经典使用场景

mMGTD-corpus数据集在自然语言处理领域中被广泛应用于多语言文本生成任务的研究。该数据集通过提供多种语言的文本对，支持研究者开发和测试跨语言的文本生成模型，特别是在机器翻译和文本摘要等任务中表现出色。

衍生相关工作

基于mMGTD-corpus，研究者们开发了多种先进的多语言文本生成模型，如多语言Transformer和跨语言BERT。这些模型在多个国际评测中取得了优异的成绩，进一步推动了多语言自然语言处理领域的研究进展。

数据集最近研究