five

RepLab 2013

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/RepLab_2013
下载链接
链接失效反馈
官方服务:
资源简介:
RepLab 2013 数据集使用英语和西班牙语的 Twitter 数据(超过 142,000 条推文)。两种语言之间的平衡取决于数据集中包含的每个实体的数据可用性。该语料库由一组推文组成,这些推文引用了来自四个领域的一组选定的 61 个实体:汽车、银行、大学和音乐/艺术家。进行域选择是为了为声誉研究提供各种场景。在 2012 年 6 月 1 日至 2012 年 12 月 31 日期间,使用实体的规范名称作为查询进行了爬网。对于每个实体,至少收集 2200 条推文:时间线开头的至少 700 条推文用作训练集,最后一条推文至少保留 1500 条用于测试集。语料库还包含每个实体的附加背景推文(最多 50,000 条推文,实体之间的差异很大)。以这种方式设置此分布以获得训练和测试数据之间的时间间隔(理想情况下为几个月)。请注意,这些集合中可用推文的最终数量可能较低,因为某些帖子可能已被用户删除:为了尊重 Twitter 的服务条款,我们不提供推文的内容。推文标识符可用于检索帖子的文本。我们提供了一个下载工具,它与 2011 年和 2012 年的 TREC 微博 Track 中使用的机制类似。更多信息请参阅 RepLab 2013 Overview 的论文。
提供机构:
OpenDataLab
创建时间:
2022-05-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作