five

beogradjanka/GreenRu

收藏
Hugging Face2024-05-29 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/beogradjanka/GreenRu
下载链接
链接失效反馈
官方服务:
资源简介:
GreenRu是一个用于检测俄语社交媒体文本中提到的绿色实践的数据集。数据集包含1,326个文本和3,513个标注句子,涵盖了废物分类、研究产品标签、废物回收、签署请愿书、拒绝购买、交换、分享、参与促进负责任消费的行动、修理等绿色实践。数据集分为训练集和测试集,每个条目包含实践ID、实践名称、提及实践的句子、完整帖子文本和帖子ID。数据来源为VKontakte社交网络的帖子,数据收集和处理使用了VK API工具,并由两位专家进行标注。
提供机构:
beogradjanka
原始信息汇总

数据集概述

名称: GreenRu

语言: 俄语

任务类别: 文本分类

大小类别: 小于1K

描述: GreenRu是一个用于检测社交媒体文本中绿色实践提及的俄语数据集。该数据集包含1,326个文本,共计3,513个标注句子,来源于俄罗斯在线社区。数据集涵盖的绿色实践包括废物分类、产品标签学习、废物回收、签署请愿、拒绝购买、交换、分享、参与促进负责任消费的行动、修理等。

结构: 数据集以两个CSV文件形式呈现,包含训练和测试子集。每个文件条目包含实践ID、绿色实践名称、提及实践的句子、帖子全文及帖子ID。

训练集与测试集特征:

  • 训练集: 包含913个帖子,平均每个帖子880.05个符号,154.91个词。
  • 测试集: 包含413个帖子,平均每个帖子908.53个符号,162.33个词。

数据收集与处理: 数据来源于VKontakte社交网络,通过VK API工具收集,确保不包含重复帖子。

标注过程: 由两位来自俄罗斯图门大学的绿色实践专家进行标注,通过独立标注和后续讨论调整确保标注质量。

引用信息:

@Article{app14114466, AUTHOR = {Zakharova, Olga and Glazkova, Anna}, TITLE = {GreenRu: A Russian Dataset for Detecting Mentions of Green Practices in Social Media Posts}, JOURNAL = {Applied Sciences}, VOLUME = {14}, YEAR = {2024}, NUMBER = {11}, ARTICLE-NUMBER = {4466}, URL = {https://www.mdpi.com/2076-3417/14/11/4466}, ISSN = {2076-3417}, DOI = {10.3390/app14114466} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作