five

w11wo/imdb-javanese

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/w11wo/imdb-javanese
下载链接
链接失效反馈
官方服务:
资源简介:
大型电影评论数据集翻译成爪哇语。这是一个用于二元情感分类的数据集,包含比之前基准数据集更多的数据。我们提供了25,000条高度极化的电影评论用于训练,25,000条用于测试。还有额外的未标记数据可供使用。我们使用Helsinki-NLP/opus-mt-en-mul的多语言MarianMT Transformer模型将原始IMDB数据集翻译成爪哇语。
提供机构:
w11wo
原始信息汇总

数据集卡片 for "imdb-javanese"

数据集描述

数据集摘要

大型电影评论数据集翻译成爪哇语。这是一个用于二元情感分类的数据集,包含比先前基准数据集更多的数据。我们提供了25,000条高度极性的电影评论用于训练,以及25,000条用于测试。还有额外的未标记数据可供使用。我们使用多语言MarianMT Transformer模型从Helsinki-NLP/opus-mt-en-mul原始IMDB数据集翻译成爪哇语。

支持的任务和排行榜

更多信息需要

语言

更多信息需要

数据集结构

数据实例

javanese_imdb_train.csv的一个示例如下:

label text
1 "Drama romantik sing digawé karo direktur Martin Ritt kuwi ora dingertèni, nanging ana momen-momen sing marahi karisma lintang Jane Fonda lan Robert De Niro (kelompok sing luar biasa). Dhèwèké dadi randha sing ora isa mlaku, iso anu anyar lan anyar-inventor-- kowé isa nganggep isiné. Adapsi novel Pat Barker ""Union Street"" (yak titel sing apik!) arep dinggo-back-back it on bland, lan pendidikan film kuwi gampang, nanging isih nyenengké; a rosy-hued-inventor-fantasi. Ora ana sing ngganggu gambar sing sejati ding kok iso dinggo nggawe gambar sing paling nyeneng."
0 "Pengalaman wong lanang sing nduwé perasaan sing ora lumrah kanggo babi. Mulai nganggo tuladha sing luar biasa yaiku komedia. Wong orkestra termel digawé dadi wong gila, sing kasar merga nyanyian nyanyi. Sayangé, kuwi tetep absurd wektu WHOLE tanpa ceramah umum sing mung digawé. Malah, sing ana ing jaman kuwi kudu ditinggalké. Diyalog kryptik sing nggawé Shakespeare marah gampang kanggo kelas telu. Pak teknis kuwi luwih apik timbang kowe mikir nganggo cinematografi sing apik sing jenengé Vilmos Zsmond. Masa depan bintang Saly Kirkland lan Frederic Forrest isa ndelok."

数据字段

  • text: 电影评论翻译成爪哇语。
  • label: 评论中展现的情感,1表示正面,0表示负面。

数据分割样本大小

train unsupervised test
25000 50000 25000

数据集创建

策划理由

更多信息需要

源数据

初始数据收集和规范化

更多信息需要

源语言生产者是谁?

更多信息需要

注释

注释过程

更多信息需要

注释者是谁?

更多信息需要

个人和敏感信息

更多信息需要

使用数据集的注意事项

数据集的社会影响

更多信息需要

偏见的讨论

更多信息需要

其他已知限制

更多信息需要

附加信息

数据集策展人

更多信息需要

许可信息

更多信息需要

引用信息

如果您在研究中使用此数据集,请引用:

@inproceedings{wongso2021causal, title={Causal and Masked Language Modeling of Javanese Language using Transformer-based Architectures}, author={Wongso, Wilson and Setiawan, David Samuel and Suhartono, Derwin}, booktitle={2021 International Conference on Advanced Computer Science and Information Systems (ICACSIS)}, pages={1--7}, year={2021}, organization={IEEE} }

@InProceedings{maas-EtAl:2011:ACL-HLT2011, author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher}, title = {Learning Word Vectors for Sentiment Analysis}, booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies}, month = {June}, year = {2011}, address = {Portland, Oregon, USA}, publisher = {Association for Computational Linguistics}, pages = {142--150}, url = {http://www.aclweb.org/anthology/P11-1015} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作