cmunhozc/usa_news_en
收藏Hugging Face2024-01-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cmunhozc/usa_news_en
下载链接
链接失效反馈官方服务:
资源简介:
该数据集收集了2019年至2022年间从Twitter和Facebook上获取的美国新闻标题,带有自动注释和人工验证。数据集包含五个属性:两个新闻标题、目标变量(表示两个标题是否涉及同一事件)、数据集划分类型(训练、验证、测试)和注释类型(自动注释、人工验证)。数据来源主要是通过Twitter的Academic API和Facebook的CrowdTangle获取的。数据集以表格形式呈现,包含五个列。
该数据集收集了2019年至2022年间从Twitter和Facebook上获取的美国新闻标题,带有自动注释和人工验证。数据集包含五个属性:两个新闻标题、目标变量(表示两个标题是否涉及同一事件)、数据集划分类型(训练、验证、测试)和注释类型(自动注释、人工验证)。数据来源主要是通过Twitter的Academic API和Facebook的CrowdTangle获取的。数据集以表格形式呈现,包含五个列。
提供机构:
cmunhozc
原始信息汇总
数据集概述
该数据集包含2019年至2022年间从Twitter和Facebook收集的美国新闻标题,经过自动标注和人工验证。
属性
数据集包含五个属性:
- "Headlines 1":第一个标题。
- "Headlines 2":第二个标题。
- "target":目标变量,表示两个标题是否涉及同一事件(1表示是,0表示否)。
- "split":数据集划分(训练集、验证集、测试集)。
- "type":标注类型(soft label表示自动标注,human-verified表示人工验证)。
数据来源
数据主要来源于Twitter(通过学术API访问)和Facebook(通过CrowdTangle访问),这些来源支持了2019年至2022年间美国新闻文章的自动标注。测试数据集中的句子对经过了人工验证。
数据格式
数据集以表格形式呈现,包含上述提到的五列。



