beogradjanka/GreenRu
收藏数据集概述
名称: GreenRu
语言: 俄语
任务类别: 文本分类
大小类别: 小于1K
描述: GreenRu是一个用于检测社交媒体文本中绿色实践提及的俄语数据集。该数据集包含1,326个文本,共计3,513个标注句子,来源于俄罗斯在线社区。数据集涵盖的绿色实践包括废物分类、产品标签学习、废物回收、签署请愿、拒绝购买、交换、分享、参与促进负责任消费的行动、修理等。
结构: 数据集以两个CSV文件形式呈现,包含训练和测试子集。每个文件条目包含实践ID、绿色实践名称、提及实践的句子、帖子全文及帖子ID。
训练集与测试集特征:
- 训练集: 包含913个帖子,平均每个帖子880.05个符号,154.91个词。
- 测试集: 包含413个帖子,平均每个帖子908.53个符号,162.33个词。
数据收集与处理: 数据来源于VKontakte社交网络,通过VK API工具收集,确保不包含重复帖子。
标注过程: 由两位来自俄罗斯图门大学的绿色实践专家进行标注,通过独立标注和后续讨论调整确保标注质量。
引用信息:
@Article{app14114466, AUTHOR = {Zakharova, Olga and Glazkova, Anna}, TITLE = {GreenRu: A Russian Dataset for Detecting Mentions of Green Practices in Social Media Posts}, JOURNAL = {Applied Sciences}, VOLUME = {14}, YEAR = {2024}, NUMBER = {11}, ARTICLE-NUMBER = {4466}, URL = {https://www.mdpi.com/2076-3417/14/11/4466}, ISSN = {2076-3417}, DOI = {10.3390/app14114466} }



