legacy-datasets/allegro_reviews
收藏数据集概述
数据集描述
数据集摘要
Allegro Reviews 是一个情感分析数据集,包含 11,588 条波兰语产品评论,这些评论来自流行的电子商务平台 Allegro.pl。每条评论至少包含 50 个单词,并有一个从 1(负面评论)到 5(正面评论)的评分。
支持的任务和排行榜
产品评论情感分析。
语言
波兰语
数据集结构
数据实例
包含两个 TSV 文件(训练集和验证集),每个文件有两列(文本和评分),以及一个仅包含文本列的测试集文件。
数据字段
- text: 至少 50 个单词的产品评论
- rating: 产品评分,范围从 1(负面评论)到 5(正面评论)
数据分割
数据分为训练集、验证集和测试集。
数据集创建
策划理由
该数据集是用于改进波兰语处理的九个评估任务之一。
源数据
初始数据收集和规范化
Allegro Reviews 是从流行的电子商务平台(Allegro.pl)收集的产品评论集。
源语言生产者
电子商务平台的客户。
注释
注释过程
[更多信息需补充]
注释者
[更多信息需补充]
个人和敏感信息
[更多信息需补充]
使用数据的考虑
数据集的社会影响
[更多信息需补充]
偏见的讨论
[更多信息需补充]
其他已知限制
[更多信息需补充]
附加信息
数据集策展人
Allegro 机器学习研究团队 klejbenchmark@allegro.pl
许可信息
数据集根据 CC BY-SA 4.0 许可进行授权。
引用信息
@inproceedings{rybak-etal-2020-klej, title = "{KLEJ}: Comprehensive Benchmark for Polish Language Understanding", author = "Rybak, Piotr and Mroczkowski, Robert and Tracz, Janusz and Gawlik, Ireneusz", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.acl-main.111", pages = "1191--1201", }
贡献
感谢 @abecadel 添加此数据集。



