five

yhavinga/imdb_dutch

收藏
Hugging Face2023-01-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yhavinga/imdb_dutch
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是IMDB电影评论数据集的荷兰语翻译版本,主要用于二分类情感分析任务。数据集包含24,992条训练数据和24,992条测试数据,以及额外的未标注数据。数据集中包含荷兰语和英语的文本,每个数据实例包括原始文本、翻译后的荷兰语文本以及情感标签。数据集的结构包括训练集、测试集和无监督数据集,数据字段包括文本、翻译文本和标签。
提供机构:
yhavinga
原始信息汇总

数据集概述

数据集名称

  • pretty_name: IMDB

语言和许可证

  • 语言: 荷兰语 (nl), 英语 (en)
  • 许可证: other
  • 多语言性: 多语言

数据集大小和来源

  • 大小类别: 10K<n<100K
  • 来源数据集: 原始

任务和指标

  • 任务类别: 文本分类
  • 任务ID: 情感分类
  • 训练与评估索引:
    • 配置: plain_text
    • 任务: 文本分类
    • 任务ID: 二元分类
    • 分割:
      • 训练分割: train
      • 评估分割: test
    • 列映射:
      • 文本: text
      • 标签: target
    • 指标:
      • 准确率 (Accuracy)
      • F1 宏 (F1 macro)
      • F1 微 (F1 micro)
      • F1 加权 (F1 weighted)
      • 精确率 宏 (Precision macro)
      • 精确率 微 (Precision micro)
      • 精确率 加权 (Precision weighted)
      • 召回率 宏 (Recall macro)
      • 召回率 微 (Recall micro)
      • 召回率 加权 (Recall weighted)

数据集信息

  • 特征:
    • text: 字符串类型
    • text_en: 字符串类型
    • label: 分类标签,包括 neg (0) 和 pos (1)
  • 配置名称: plain_text
  • 分割:
    • 训练: 24992 个示例,69589646 字节
    • 测试: 24992 个示例,67958995 字节
    • 无监督: 49984 个示例,139649169 字节
  • 下载大小: 108170940 字节
  • 数据集大小: 277197810 字节

数据集创建

  • 注释创建者: 专家生成
  • 语言创建者: 专家生成

引用信息

@InProceedings{maas-EtAl:2011:ACL-HLT2011, author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher}, title = {Learning Word Vectors for Sentiment Analysis}, booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies}, month = {June}, year = {2011}, address = {Portland, Oregon, USA}, publisher = {Association for Computational Linguistics}, pages = {142--150}, url = {http://www.aclweb.org/anthology/P11-1015} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作