five

jjzha/imdb-dutch-instruct

收藏
Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jjzha/imdb-dutch-instruct
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是原始IMDB电影评论数据集的荷兰语翻译版本,并转换为指令风格,用于情感分类。数据集包含荷兰语数据,分为训练集和测试集,每个集合包含24992个样本。数据字段包括inputs(以问题开头的字符串,询问评论是正面还是负面)、targets(带有模板前缀和最终标签的字符串)、template_lang(指示句子语言的字符串)和template_id(指示使用模板的整数)。
提供机构:
jjzha
原始信息汇总

数据集卡片 "imdb-dutch-instruct"

数据集描述

原始的IMBD数据集被翻译成荷兰语,并转换为指令风格的数据集。

数据集概述

大型电影评论数据集被翻译成荷兰语并转换为指令风格。这是一个情感分类数据集,包含比之前基准数据集更多的数据。

语言和示例

该数据集包含荷兰语数据。

train数据的一个示例如下: json { "inputs": "Is deze recensie positief of negatief?

Ik heb alle vier de films in deze serie gezien. Elke film wijkt steeds verder af van de boeken. Deze is de ergste tot nu toe. Mijn probleem is dat hij op geen enkele manier het boek volgt waar hij naar genoemd is! De regisseurs en producenten hadden hem een andere naam moeten geven dan Loves Abiding Joy. Het enige aan deze film dat ook maar in de verte op het boek lijkt, zijn de namen van sommige personages (Willie, Missie, Henry, Clark, Scottie en Cookie). De namen/ouders/verzorgers van de kinderen kloppen niet. De hele verhaallijn staat nergens in het boek. <br />Ik vind het een grote belediging voor Janette Oke, haar boeken en haar fans om een film onder haar titel te produceren die in geen enkel opzicht correct is. De muziek is te hard. De acteurs zijn niet overtuigend <0xE2><0x80><0x93> ze missen emoties.<br />Als je een goede familiefilm wilt, is dit misschien goed. Het is schoon. Maar kijk er niet naar, als je hoopt op een verkorte versie van het boek. Ik hoop dat dit de laatste film uit deze serie zal zijn, maar ik betwijfel het. Als er meer films worden gemaakt, zou ik willen dat Michael Landon jr. en anderen dichter bij de oorspronkelijke plot en verhaallijn zouden blijven. De boeken zijn uitstekend en als je ze goed leest, zijn het uitstekende films!", "targets": "Het antwoord is negatief." }

数据字段

所有拆分的数据字段相同。

  • inputs: 一个string特征,以一个问题开始,询问评论是正面还是负面。
  • targets: 一个string特征,包含模板前缀和最终标签。
  • template_lang: 一个string特征,指示句子使用的语言。
  • template_id: 一个int特征,指示使用了哪个模板。

数据拆分

name train test
plain_text 24992 24992

官方引用信息

原始数据来自:https://huggingface.co/datasets/yhavinga/imdb_dutch

bibtex @InProceedings{maas-EtAl:2011:ACL-HLT2011, author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher}, title = {Learning Word Vectors for Sentiment Analysis}, booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies}, month = {June}, year = {2011}, address = {Portland, Oregon, USA}, publisher = {Association for Computational Linguistics}, pages = {142--150}, url = {http://www.aclweb.org/anthology/P11-1015} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作