PlanTL-GOB-ES/MLDoc
收藏Hugging Face2022-11-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PlanTL-GOB-ES/MLDoc
下载链接
链接失效反馈官方服务:
资源简介:
MLDoc(多语言文档分类语料库)是一个跨语言文档分类数据集,涵盖8种语言,包括英语、德语、法语、西班牙语、意大利语、俄语、日语和中文。该数据集包含14,458篇来自路透社的新闻文章,分为四个类别:公司/工业、经济、政府/社会和市场。西班牙语部分用于单语分类评估,作为EvalEs西班牙语基准的一部分。数据集不能直接从HuggingFace下载,需要签署特定协议。
MLDoc (Multilingual Document Classification Corpus) is a cross-lingual document classification dataset covering 8 languages, including English, German, French, Spanish, Italian, Russian, Japanese and Chinese. It contains 14,458 Reuters news articles, categorized into four classes: Corporate/Industrial, Economics, Government/Social, and Markets. The Spanish subset is used for monolingual classification evaluation as part of the EvalEs Spanish benchmark. This dataset cannot be directly downloaded from HuggingFace, and a specific agreement must be signed.
提供机构:
PlanTL-GOB-ES
原始信息汇总
数据集概述
数据集名称
- 名称: MLDoc
数据集描述
- 摘要: MLDoc是一个多语言文档分类数据集,涵盖8种语言。该数据集主要用于评估模型在单语种分类任务上的表现,特别是西班牙语部分被用于EvalEs西班牙语基准测试。数据集包含来自Reuters的14,458篇新闻文章,分为四个类别:企业/工业、经济学、政府/社会和市场。
- 支持任务: 文本分类
- 语言: 英语、德语、法语、西班牙语、意大利语、俄语、日语和中文
数据集结构
- 数据实例: 示例数据包含类别标签和相关文本内容。
- 数据字段:
- 标签: CCAT(企业/工业)、ECAT(经济学)、GCAT(政府/社会)和MCAT(市场)
- 文本: 新闻文章内容
- 数据分割:
- 训练集: 9,458条记录
- 验证集: 1,000条记录
- 测试集: 4,000条记录
数据集创建
- 源数据: 数据来源于Reuters Corpus,这是一个用于自然语言处理、信息检索和机器学习系统研究的大型新闻故事集合。
- 注释: 注释由专家生成,用于多语言文档分类。
使用考虑
- 社会影响: 该数据集有助于西班牙语语言模型的发展。
许可证信息
- 许可证: cc-by-nc-4.0
引用信息
- 引用文献:
- Schwenk, Holger and Xian Li. "A Corpus for Multilingual Document Classification in Eight Languages." Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), 2018.
- Lewis, David D., et al. "Reuters Corpus Volume 1 - RCV1." Journal of Machine Learning Research, 2004.
搜集汇总
数据集介绍

背景与挑战
背景概述
MLDoc是一个多语言文档分类数据集,特别关注西班牙语文本分类,包含14,458篇路透社新闻文章,分为四个类别。由于版权限制,下载需签署特定协议。
以上内容由遇见数据集搜集并总结生成



