yhavinga/imdb_dutch
收藏Hugging Face2023-01-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yhavinga/imdb_dutch
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是IMDB电影评论数据集的荷兰语翻译版本,主要用于二分类情感分析任务。数据集包含24,992条训练数据和24,992条测试数据,以及额外的未标注数据。数据集中包含荷兰语和英语的文本,每个数据实例包括原始文本、翻译后的荷兰语文本以及情感标签。数据集的结构包括训练集、测试集和无监督数据集,数据字段包括文本、翻译文本和标签。
提供机构:
yhavinga
原始信息汇总
数据集概述
数据集名称
- pretty_name: IMDB
语言和许可证
- 语言: 荷兰语 (nl), 英语 (en)
- 许可证: other
- 多语言性: 多语言
数据集大小和来源
- 大小类别: 10K<n<100K
- 来源数据集: 原始
任务和指标
- 任务类别: 文本分类
- 任务ID: 情感分类
- 训练与评估索引:
- 配置: plain_text
- 任务: 文本分类
- 任务ID: 二元分类
- 分割:
- 训练分割: train
- 评估分割: test
- 列映射:
- 文本: text
- 标签: target
- 指标:
- 准确率 (Accuracy)
- F1 宏 (F1 macro)
- F1 微 (F1 micro)
- F1 加权 (F1 weighted)
- 精确率 宏 (Precision macro)
- 精确率 微 (Precision micro)
- 精确率 加权 (Precision weighted)
- 召回率 宏 (Recall macro)
- 召回率 微 (Recall micro)
- 召回率 加权 (Recall weighted)
数据集信息
- 特征:
- text: 字符串类型
- text_en: 字符串类型
- label: 分类标签,包括 neg (0) 和 pos (1)
- 配置名称: plain_text
- 分割:
- 训练: 24992 个示例,69589646 字节
- 测试: 24992 个示例,67958995 字节
- 无监督: 49984 个示例,139649169 字节
- 下载大小: 108170940 字节
- 数据集大小: 277197810 字节
数据集创建
- 注释创建者: 专家生成
- 语言创建者: 专家生成
引用信息
@InProceedings{maas-EtAl:2011:ACL-HLT2011, author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher}, title = {Learning Word Vectors for Sentiment Analysis}, booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies}, month = {June}, year = {2011}, address = {Portland, Oregon, USA}, publisher = {Association for Computational Linguistics}, pages = {142--150}, url = {http://www.aclweb.org/anthology/P11-1015} }



