five

community-datasets/journalists_questions

收藏
Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/journalists_questions
下载链接
链接失效反馈
官方服务:
资源简介:
JournalistsQuestions数据集支持对阿拉伯语推文中的问题进行识别。该数据集包含从记者账户中抓取的10K条阿拉伯语推文,每条推文都被标注为是否包含问题。标注过程通过众包完成,每条推文由三名标注者进行标注,并通过聚合方法确定最终标签。数据集的结构包括tweet_id、label和label_confidence三个字段。数据集的创建目的是为了研究阿拉伯记者在Twitter上提出的问题。

The journalists_questions dataset supports question identification over Arabic tweets of journalists. It includes 10K Arabic tweets crawled from journalists accounts. Tweets were labelled by crowdsourcing. Each tweet is associated with one label: question tweet or not. A question tweet is a tweet that has at least one interrogative question. Each label is associated with a number that represents the confidence in the label, given that each tweet was labelled by 3 annotators and an aggregation method was followed to choose the final label. The dataset was created for research purposes to understand questions expecting answers by Arab journalists on Twitter.
提供机构:
community-datasets
原始信息汇总

数据集概述

数据集描述

  • 数据集名称: JournalistsQuestions
  • 语言: 阿拉伯语
  • 许可证: 未知
  • 多语言性: 单语种
  • 大小类别: 10K<n<100K
  • 源数据集: 原始数据
  • 任务类别: 文本分类
  • 标签: 问题识别

数据集结构

数据实例

数据集支持问题识别任务,包含10K条从记者账户爬取的阿拉伯语推文。每条推文被标记为是否包含问题。每条推文的标签附带一个置信度分数,该分数基于多个标注者的标注结果。

示例: json { "tweet_id": "493235142128074753", "label": "yes", "label_confidence": 0.6359 }

数据字段

  • tweet_id: 推文的Twitter分配ID。
  • label: 推文的标注,表示是否包含问题。
  • label_confidence: 标签的置信度分数。

数据分割

  • 训练集:
    • 字节数: 342296
    • 样本数: 10077

数据集创建

数据集构建

数据集包含推文ID,由于Twitter的内容重新分发政策。该数据集是为研究目的创建和共享,旨在帮助研究者理解阿拉伯记者在Twitter上期望回答的问题。

源数据

初始数据收集和规范化

首先获取389名阿拉伯记者的Twitter账户列表,使用Twitter API爬取他们的可用推文,仅保留被Twitter识别为阿拉伯语且非转发的推文。通过基于规则的问题过滤器,从363名阿拉伯记者的465,599条推文中提取了49,119条(10.6%)潜在问题推文。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作