PlanTL-GOB-ES/MLDoc

Name: PlanTL-GOB-ES/MLDoc
Creator: PlanTL-GOB-ES
Published: 2022-11-03 09:24:03
License: 暂无描述

Hugging Face2022-11-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PlanTL-GOB-ES/MLDoc

下载链接

链接失效反馈

官方服务：

资源简介：

MLDoc（多语言文档分类语料库）是一个跨语言文档分类数据集，涵盖8种语言，包括英语、德语、法语、西班牙语、意大利语、俄语、日语和中文。该数据集包含14,458篇来自路透社的新闻文章，分为四个类别：公司/工业、经济、政府/社会和市场。西班牙语部分用于单语分类评估，作为EvalEs西班牙语基准的一部分。数据集不能直接从HuggingFace下载，需要签署特定协议。

MLDoc (Multilingual Document Classification Corpus) is a cross-lingual document classification dataset covering 8 languages, including English, German, French, Spanish, Italian, Russian, Japanese and Chinese. It contains 14,458 Reuters news articles, categorized into four classes: Corporate/Industrial, Economics, Government/Social, and Markets. The Spanish subset is used for monolingual classification evaluation as part of the EvalEs Spanish benchmark. This dataset cannot be directly downloaded from HuggingFace, and a specific agreement must be signed.

提供机构：

PlanTL-GOB-ES

原始信息汇总

数据集概述

数据集名称

名称: MLDoc

数据集描述

摘要: MLDoc是一个多语言文档分类数据集，涵盖8种语言。该数据集主要用于评估模型在单语种分类任务上的表现，特别是西班牙语部分被用于EvalEs西班牙语基准测试。数据集包含来自Reuters的14,458篇新闻文章，分为四个类别：企业/工业、经济学、政府/社会和市场。
支持任务: 文本分类
语言: 英语、德语、法语、西班牙语、意大利语、俄语、日语和中文

数据集结构

数据实例: 示例数据包含类别标签和相关文本内容。
数据字段:
- 标签: CCAT（企业/工业）、ECAT（经济学）、GCAT（政府/社会）和MCAT（市场）
- 文本: 新闻文章内容
数据分割:
- 训练集: 9,458条记录
- 验证集: 1,000条记录
- 测试集: 4,000条记录

数据集创建

源数据: 数据来源于Reuters Corpus，这是一个用于自然语言处理、信息检索和机器学习系统研究的大型新闻故事集合。
注释: 注释由专家生成，用于多语言文档分类。

使用考虑

社会影响: 该数据集有助于西班牙语语言模型的发展。

许可证信息

许可证: cc-by-nc-4.0

引用信息

引用文献:
- Schwenk, Holger and Xian Li. "A Corpus for Multilingual Document Classification in Eight Languages." Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), 2018.
- Lewis, David D., et al. "Reuters Corpus Volume 1 - RCV1." Journal of Machine Learning Research, 2004.

搜集汇总

数据集介绍

背景与挑战

背景概述

MLDoc是一个多语言文档分类数据集，特别关注西班牙语文本分类，包含14,458篇路透社新闻文章，分为四个类别。由于版权限制，下载需签署特定协议。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集