five

PlanTL-GOB-ES/MLDoc

收藏
Hugging Face2022-11-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PlanTL-GOB-ES/MLDoc
下载链接
链接失效反馈
官方服务:
资源简介:
MLDoc(多语言文档分类语料库)是一个跨语言文档分类数据集,涵盖8种语言,包括英语、德语、法语、西班牙语、意大利语、俄语、日语和中文。该数据集包含14,458篇来自路透社的新闻文章,分为四个类别:公司/工业、经济、政府/社会和市场。西班牙语部分用于单语分类评估,作为EvalEs西班牙语基准的一部分。数据集不能直接从HuggingFace下载,需要签署特定协议。

MLDoc (Multilingual Document Classification Corpus) is a cross-lingual document classification dataset covering 8 languages, including English, German, French, Spanish, Italian, Russian, Japanese and Chinese. It contains 14,458 Reuters news articles, categorized into four classes: Corporate/Industrial, Economics, Government/Social, and Markets. The Spanish subset is used for monolingual classification evaluation as part of the EvalEs Spanish benchmark. This dataset cannot be directly downloaded from HuggingFace, and a specific agreement must be signed.
提供机构:
PlanTL-GOB-ES
原始信息汇总

数据集概述

数据集名称

  • 名称: MLDoc

数据集描述

  • 摘要: MLDoc是一个多语言文档分类数据集,涵盖8种语言。该数据集主要用于评估模型在单语种分类任务上的表现,特别是西班牙语部分被用于EvalEs西班牙语基准测试。数据集包含来自Reuters的14,458篇新闻文章,分为四个类别:企业/工业、经济学、政府/社会和市场。
  • 支持任务: 文本分类
  • 语言: 英语、德语、法语、西班牙语、意大利语、俄语、日语和中文

数据集结构

  • 数据实例: 示例数据包含类别标签和相关文本内容。
  • 数据字段:
    • 标签: CCAT(企业/工业)、ECAT(经济学)、GCAT(政府/社会)和MCAT(市场)
    • 文本: 新闻文章内容
  • 数据分割:
    • 训练集: 9,458条记录
    • 验证集: 1,000条记录
    • 测试集: 4,000条记录

数据集创建

  • 源数据: 数据来源于Reuters Corpus,这是一个用于自然语言处理、信息检索和机器学习系统研究的大型新闻故事集合。
  • 注释: 注释由专家生成,用于多语言文档分类。

使用考虑

  • 社会影响: 该数据集有助于西班牙语语言模型的发展。

许可证信息

  • 许可证: cc-by-nc-4.0

引用信息

  • 引用文献:
    • Schwenk, Holger and Xian Li. "A Corpus for Multilingual Document Classification in Eight Languages." Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), 2018.
    • Lewis, David D., et al. "Reuters Corpus Volume 1 - RCV1." Journal of Machine Learning Research, 2004.
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
MLDoc是一个多语言文档分类数据集,特别关注西班牙语文本分类,包含14,458篇路透社新闻文章,分为四个类别。由于版权限制,下载需签署特定协议。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作