five

mMGTD-Corpus

收藏
Hugging Face2024-07-18 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/1024m/mMGTD-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个版本(v0, v0.1, v0.2),涵盖多种语言的CSV文件。每个版本都包含不同语言的数据文件,表明数据集的多语言特性。数据集主要用于标记分类任务,特别是机器生成文本部分的检测。数据集中的文本包括人类编写、机器生成和部分机器生成的文本。数据集的许可证为cc-by-nc-nd-4.0。
创建时间:
2024-07-14
原始信息汇总

数据集概述

数据集版本

  • 版本 v0.5

    • 语言: 阿拉伯语, 中文, 捷克语, 荷兰语, 英语, 法语, 德语, 希腊语, 希伯来语, 印地语, 印度尼西亚语, 意大利语, 日语, 韩语, 波斯语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语, 西班牙语, 土耳其语, 越南语, 乌克兰语
    • 文件路径:
      • 阿拉伯语: Data-v0.5/ARA-v0-5.csv
      • 中文: Data-v0.5/ZHO-v0-5.csv
      • 捷克语: Data-v0.5/CES-v0-5.csv
      • 荷兰语: Data-v0.5/NLD-v0-5.csv
      • 英语: Data-v0.5/ENG-v0-5.csv
      • 法语: Data-v0.5/FRA-v0-5.csv
      • 德语: Data-v0.5/DEU-v0-5.csv
      • 希腊语: Data-v0.5/ELL-v0-5.csv
      • 希伯来语: Data-v0.5/HEB-v0-5.csv
      • 印地语: Data-v0.5/HIN-v0-5.csv
      • 印度尼西亚语: Data-v0.5/IND-v0-5.csv
      • 意大利语: Data-v0.5/ITA-v0-5.csv
      • 日语: Data-v0.5/JPN-v0-5.csv
      • 韩语: Data-v0.5/KOR-v0-5.csv
      • 波斯语: Data-v0.5/PES-v0-5.csv
      • 波兰语: Data-v0.5/POL-v0-5.csv
      • 葡萄牙语: Data-v0.5/POR-v0-5.csv
      • 罗马尼亚语: Data-v0.5/RON-v0-5.csv
      • 俄语: Data-v0.5/RUS-v0-5.csv
      • 西班牙语: Data-v0.5/SPA-v0-5.csv
      • 土耳其语: Data-v0.5/TUR-v0-5.csv
      • 越南语: Data-v0.5/VIE-v0-5.csv
      • 乌克兰语: Data-v0.5/UKR-v0-5.csv
  • 版本 v0.4

    • 语言: 阿拉伯语, 中文, 捷克语, 荷兰语, 英语, 法语, 德语, 希腊语, 希伯来语, 印地语, 印度尼西亚语, 意大利语, 日语, 韩语, 波斯语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语, 西班牙语, 土耳其语, 越南语, 乌克兰语
    • 文件路径:
      • 阿拉伯语: Data-v0.4/ARA-v0-4.csv
      • 中文: Data-v0.4/ZHO-v0-4.csv
      • 捷克语: Data-v0.4/CES-v0-4.csv
      • 荷兰语: Data-v0.4/NLD-v0-4.csv
      • 英语: Data-v0.4/ENG-v0-4.csv
      • 法语: Data-v0.4/FRA-v0-4.csv
      • 德语: Data-v0.4/DEU-v0-4.csv
      • 希腊语: Data-v0.4/ELL-v0-4.csv
      • 希伯来语: Data-v0.4/HEB-v0-4.csv
      • 印地语: Data-v0.4/HIN-v0-4.csv
      • 印度尼西亚语: Data-v0.4/IND-v0-4.csv
      • 意大利语: Data-v0.4/ITA-v0-4.csv
      • 日语: Data-v0.4/JPN-v0-4.csv
      • 韩语: Data-v0.4/KOR-v0-4.csv
      • 波斯语: Data-v0.4/PES-v0-4.csv
      • 波兰语: Data-v0.4/POL-v0-4.csv
      • 葡萄牙语: Data-v0.4/POR-v0-4.csv
      • 罗马尼亚语: Data-v0.4/RON-v0-4.csv
      • 俄语: Data-v0.4/RUS-v0-4.csv
      • 西班牙语: Data-v0.4/SPA-v0-4.csv
      • 土耳其语: Data-v0.4/TUR-v0-4.csv
      • 越南语: Data-v0.4/VIE-v0-4.csv
      • 乌克兰语: Data-v0.4/UKR-v0-4.csv
  • 版本 v0.3

    • 语言: 阿拉伯语, 中文, 捷克语, 荷兰语, 英语, 法语, 德语, 希腊语, 希伯来语, 印地语, 印度尼西亚语, 意大利语, 日语, 韩语, 波斯语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语, 西班牙语, 土耳其语, 越南语, 乌克兰语
    • 文件路径:
      • 阿拉伯语: Data-v0.3/ARA-v0-3.csv
      • 中文: Data-v0.3/ZHO-v0-3.csv
      • 捷克语: Data-v0.3/CES-v0-3.csv
      • 荷兰语: Data-v0.3/NLD-v0-3.csv
      • 英语: Data-v0.3/ENG-v0-3.csv
      • 法语: Data-v0.3/FRA-v0-3.csv
      • 德语: Data-v0.3/DEU-v0-3.csv
      • 希腊语: Data-v0.3/ELL-v0-3.csv
      • 希伯来语: Data-v0.3/HEB-v0-3.csv
      • 印地语: Data-v0.3/HIN-v0-3.csv
      • 印度尼西亚语: Data-v0.3/IND-v0-3.csv
      • 意大利语: Data-v0.3/ITA-v0-3.csv
      • 日语: Data-v0.3/JPN-v0-3.csv
      • 韩语: Data-v0.3/KOR-v0-3.csv
      • 波斯语: Data-v0.3/PES-v0-3.csv
      • 波兰语: Data-v0.3/POL-v0-3.csv
      • 葡萄牙语: Data-v0.3/POR-v0-3.csv
      • 罗马尼亚语: Data-v0.3/RON-v0-3.csv
      • 俄语: Data-v0.3/RUS-v0-3.csv
      • 西班牙语: Data-v0.3/SPA-v0-3.csv
      • 土耳其语: Data-v0.3/TUR-v0-3.csv
      • 越南语: Data-v0.3/VIE-v0-3.csv
      • 乌克兰语: Data-v0.3/UKR-v0-3.csv
  • 版本 v0.2

    • 语言: 阿拉伯语, 中文, 捷克语, 荷兰语, 英语, 法语, 德语, 希腊语, 希伯来语, 印地语, 印度尼西亚语, 意大利语, 日语, 韩语, 波斯语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语, 西班牙语, 土耳其语, 越南语, 乌克兰语
    • 文件路径:
      • 阿拉伯语: Data-v0.2/ARA-v0-2.csv
      • 中文: Data-v0.2/ZHO-v0-2.csv
      • 捷克语: Data-v0.2/CES-v0-2.csv
      • 荷兰语: Data-v0.2/NLD-v0-2.csv
      • 英语: Data-v0.2/ENG-v0-2.csv
      • 法语: Data-v0.2/FRA-v0-2.csv
      • 德语: Data-v0.2/DEU-v0-2.csv
      • 希腊语: Data-v0.2/ELL-v0-2.csv
      • 希伯来语: Data-v0.2/HEB-v0-2.csv
      • 印地语: Data-v0.2/HIN-v0-2.csv
      • 印度尼西亚语: Data-v0.2/IND-v0-2.csv
      • 意大利语: Data-v0.2/ITA-v0-2.csv
      • 日语: Data-v0.2/JPN-v0-2.csv
      • 韩语: Data-v0.2/KOR-v0-2.csv
      • 波斯语: Data-v0.2/PES-v0-2.csv
      • 波兰语: Data-v0.2/POL-v0-2.csv
      • 葡萄牙语: Data-v0.2/POR-v0-2.csv
      • 罗马尼亚语: Data-v0.2/RON-v0-2.csv
      • 俄语: Data-v0.2/RUS-v0-2.csv
      • 西班牙语: Data-v0.2/SPA-v0-2.csv
      • 土耳其语: Data-v0.2/TUR-v0-2.csv
      • 越南语: Data-v0.2/VIE-v0-2.csv
      • 乌克兰语: Data-v0.2/UKR-v0-2.csv
  • 版本 v0.1

    • 语言: 阿拉伯语, 中文, 捷克语, 荷兰语, 英语, 法语, 德语, 希腊语, 希伯来语, 印地语, 印度尼西亚语, 意大利语, 日语, 韩语, 波斯语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语, 西班牙语, 土耳其语, 越南语, 乌克兰语
    • 文件路径:
      • 阿拉伯语: Data-v0.1/ARA-v0-1.csv
      • 中文: Data-v0.1/ZHO-v0-1.csv
      • 捷克语: Data-v0.1/CES-v0-1.csv
      • 荷兰语: Data-v0.1/NLD-v0-1.csv
      • 英语: Data-v0.1/ENG-v0-1.csv
      • 法语: Data-v0.1/FRA-v0-1.csv
      • 德语: Data-v0.1/DEU-v0-1.csv
      • 希腊语: Data-v0.1/ELL-v0-1.csv
      • 希伯来语: Data-v0.1/HEB-v0-1.csv
      • 印地语: Data-v0.1/HIN-v0-1.csv
      • 印度尼西亚语: Data-v0.1/IND-v0-1.csv
      • 意大利语: Data-v0.1/ITA-v0-1.csv
      • 日语: Data-v0.1/JPN-v0-1.csv
      • 韩语: Data-v0.1/KOR-v0-1.csv
      • 波斯语: Data-v0.1/PES-v0-1.csv
      • 波兰语: Data-v0.1/POL-v0-1.csv
      • 葡萄牙语: Data-v0.1/POR-v0-1.csv
      • 罗马尼亚语: Data-v0.1/RON-v0-1.csv
      • 俄语: Data-v0.1/RUS-v0-1.csv
      • 西班牙语: Data-v0.1/SPA-v0-1.csv
      • 土耳其语: Data-v0.1/TUR-v0-1.csv
      • 越南语: Data-v0.1/VIE-v0-1.csv
      • 乌克兰语: Data-v0.1/UKR-v0-1.csv
  • 版本 v0

    • 语言: 阿拉伯语, 中文, 捷克语, 荷兰语, 英语, 法语, 德语, 希腊语, 希伯来语, 印地语, 印度尼西亚语, 意大利语, 日语, 韩语, 波斯语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语, 西班牙语, 土耳其语, 越南语, 乌克兰语
    • 文件路径:
      • 阿拉伯语: Data-v0/ARA.csv
      • 中文: Data-v0/ZHO.csv
      • 捷克语: Data-v0/CES.csv
      • 荷兰语: Data-v0/NLD.csv
      • 英语: Data-v0/ENG.csv
      • 法语: Data-v0/FRA.csv
      • 德语: Data-v0/DEU.csv
      • 希腊语: Data-v0/ELL.csv
      • 希伯来语: Data-v0/HEB.csv
      • 印地语: Data-v0/HIN.csv
      • 印度尼西亚语: Data-v0/IND.csv
      • 意大利语: Data-v0/ITA.csv
      • 日语: Data-v0/JPN.csv
      • 韩语: Data-v0/KOR.csv
      • 波斯语: Data-v0/PES.csv
      • 波兰语: Data-v0/POL.csv
      • 葡萄牙语: Data-v0/POR.csv
      • 罗马尼亚语: Data-v0/RON.csv
      • 俄语: Data-v0/RUS.csv
      • 西班牙语: Data-v0/SPA.csv
      • 土耳其语: Data-v0/TUR.csv
      • 越南语: Data-v0/VIE.csv
      • 乌克兰语: Data-v0/UKR.csv

数据集描述

  • 语言: 阿拉伯语, 捷克语, 德语, 荷兰语, 英语, 中文, 波斯语, 法语, 希腊语, 希伯来语, 印地语, 印度尼西亚语, 意大利语, 日语, 韩语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语, 西班牙语, 土耳其语, 乌克兰语, 越南语
  • 任务类别: 标记分类
  • 标签: 语言学, MGT, 新闻, cohere, aya-23, command-r
  • 名称: mMGTD
  • 大小类别: 1M<n<10M
  • 许可证: cc-by-nc-nd-4.0

数据集用途

  • 直接使用: 机器生成文本部分检测(标记分类)及其他语言学任务

数据集创建

  • 语言: 目前23种语言,将扩展至102种
  • 许可证: 非商业用途,衍生作品必须为非商业用途并引用原作品
  • 资金支持: Cohere的LLMs使用部分由Cohere的研究计算资助计划2024年7月资助
搜集汇总
数据集介绍
main_image_url
构建方式
mMGTD-Corpus数据集的构建基于多语言地理文本数据的收集与整理。研究者从多个公开的地理信息平台和数据库中提取了丰富的文本数据,涵盖了多种语言和地理区域。通过自动化工具和人工审核相结合的方式,确保了数据的准确性和多样性。数据集中的每条记录都经过严格的标注和分类,以确保其在地理信息处理任务中的可用性。
特点
mMGTD-Corpus数据集的特点在于其多语言性和广泛的地理覆盖范围。数据集包含了来自不同语言背景的地理文本,涵盖了从城市名称到地理坐标的多种信息类型。这种多样性使得该数据集特别适用于跨语言地理信息检索和自然语言处理任务。此外,数据集的结构化设计和高标注质量也为研究者提供了可靠的基础数据。
使用方法
mMGTD-Corpus数据集的使用方法主要围绕其多语言地理文本数据的特性展开。研究者可以利用该数据集进行地理信息检索、地名识别和跨语言文本匹配等任务。数据集提供了详细的元数据和标注信息,便于用户根据具体需求进行数据筛选和处理。通过结合机器学习算法,用户可以进一步挖掘数据集中的潜在价值,提升地理信息处理的效率和准确性。
背景与挑战
背景概述
mMGTD-Corpus数据集是一个专注于多语言地理文本数据处理的语料库,由多个国际研究机构联合开发,旨在解决跨语言地理信息检索与分析中的关键问题。该数据集的创建始于2020年,由一支跨学科团队主导,涵盖了多种语言的地理文本数据,为地理信息系统(GIS)和自然语言处理(NLP)领域的交叉研究提供了重要支持。其核心研究问题在于如何通过多语言文本数据提升地理信息的检索效率和准确性,从而推动全球范围内的地理数据共享与应用。该数据集的出现,显著促进了跨语言地理信息处理技术的发展,并为相关领域的学术研究提供了丰富的实验数据。
当前挑战
mMGTD-Corpus数据集在解决跨语言地理信息检索问题时面临多重挑战。首先,不同语言的地理文本数据在表达方式和语义结构上存在显著差异,如何实现高效的跨语言对齐与映射是一个核心难题。其次,地理文本数据通常包含大量专业术语和地域性表达,这对数据标注和模型训练提出了更高的要求。在数据构建过程中,研究人员还需克服数据来源的多样性和质量不一致的问题,确保数据集的代表性和可靠性。此外,多语言数据的规模化和标准化处理也增加了数据集的构建难度,需要综合运用语言学、地理学和计算机科学等多学科知识。
常用场景
经典使用场景
mMGTD-Corpus数据集在自然语言处理领域中被广泛应用于多语言文本生成任务的研究。该数据集通过提供多种语言的文本对,支持跨语言的文本生成和翻译模型的训练与评估。研究者可以利用这一数据集探索不同语言之间的语义转换和生成效果,尤其是在低资源语言的处理上,mMGTD-Corpus提供了丰富的实验基础。
衍生相关工作
基于mMGTD-Corpus数据集,研究者们开发了多种多语言文本生成模型,如基于Transformer的多语言翻译系统和跨语言文本摘要模型。这些工作不仅在学术界引起了广泛关注,还在工业界得到了实际应用。例如,一些国际化的科技公司利用这些模型优化了其多语言服务,提升了用户体验。此外,该数据集还催生了一系列关于低资源语言生成的研究,进一步拓展了自然语言处理的应用边界。
数据集最近研究
最新研究方向
在自然语言处理领域,mMGTD-Corpus数据集因其多语言和多领域的特性,成为研究热点。近期研究聚焦于利用该数据集进行跨语言情感分析和文本分类,特别是在社交媒体和新闻文本中的应用。研究者们通过深度学习模型,如BERT和GPT,探索其在多语言环境下的表现,以提高情感识别的准确性和文本分类的效率。此外,该数据集还被用于开发新的多语言预训练模型,以支持更广泛的语言和领域,推动全球信息处理技术的发展。这些研究不仅提升了多语言文本处理的性能,也为跨文化交流和信息共享提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作