five

legacy-datasets/allegro_reviews

收藏
Hugging Face2024-01-09 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/legacy-datasets/allegro_reviews
下载链接
链接失效反馈
官方服务:
资源简介:
Allegro Reviews是一个情感分析数据集,包含11,588条波兰语的产品评论,这些评论来自波兰流行的电子商务市场Allegro.pl。每条评论至少包含50个单词,并有一个从1(负面评论)到5(正面评论)的评分。数据集分为训练集、开发集和测试集,测试集的评分是隐藏的,可以通过klejbenchmark.com上的在线评估工具来评估模型。数据集的结构包括两个tsv文件(train, dev),每个文件有两列(text, rating),以及一个tsv文件(test),只有一列(text)。数据集的创建目的是为了改进波兰语处理,源数据来自电子商务市场的客户评论。数据集由Allegro机器学习研究团队管理,使用CC BY-SA 4.0许可证。

Allegro Reviews is a sentiment analysis dataset containing 11,588 Polish-language product reviews sourced from Allegro.pl, a leading Polish e-commerce marketplace. Each review contains a minimum of 50 words and is paired with a rating scale from 1 (negative) to 5 (positive). The dataset is partitioned into training, development, and test splits; the ratings for the test split are withheld, and model performance can be evaluated using the online evaluation tool hosted on klejbenchmark.com. The dataset structure includes two TSV files (train and dev) each with two columns: text and rating, plus one additional TSV file (test) containing only one column: text. The dataset was developed to advance Polish natural language processing, with its source data derived from customer reviews of the e-commerce marketplace. It is managed by the Allegro Machine Learning Research Team and released under the CC BY-SA 4.0 license.
提供机构:
legacy-datasets
原始信息汇总

数据集概述

数据集描述

数据集摘要

Allegro Reviews 是一个情感分析数据集,包含 11,588 条波兰语产品评论,这些评论来自流行的电子商务平台 Allegro.pl。每条评论至少包含 50 个单词,并有一个从 1(负面评论)到 5(正面评论)的评分。

支持的任务和排行榜

产品评论情感分析。

语言

波兰语

数据集结构

数据实例

包含两个 TSV 文件(训练集和验证集),每个文件有两列(文本和评分),以及一个仅包含文本列的测试集文件。

数据字段

  • text: 至少 50 个单词的产品评论
  • rating: 产品评分,范围从 1(负面评论)到 5(正面评论)

数据分割

数据分为训练集、验证集和测试集。

数据集创建

策划理由

该数据集是用于改进波兰语处理的九个评估任务之一。

源数据

初始数据收集和规范化

Allegro Reviews 是从流行的电子商务平台(Allegro.pl)收集的产品评论集。

源语言生产者

电子商务平台的客户。

注释

注释过程

[更多信息需补充]

注释者

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的考虑

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

Allegro 机器学习研究团队 klejbenchmark@allegro.pl

许可信息

数据集根据 CC BY-SA 4.0 许可进行授权。

引用信息

@inproceedings{rybak-etal-2020-klej, title = "{KLEJ}: Comprehensive Benchmark for Polish Language Understanding", author = "Rybak, Piotr and Mroczkowski, Robert and Tracz, Janusz and Gawlik, Ireneusz", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.acl-main.111", pages = "1191--1201", }

贡献

感谢 @abecadel 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作