SOLO
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/SOLO
下载链接
链接失效反馈官方服务:
资源简介:
SOLO 语料库包含超过 400 万条英文推文,每条推文至少包含以下标记之一:孤独、孤独和孤独。已收集语料库以分析与英语推文中独处状态相关的语言和情绪。通过在 2018 年 8 月 28 日至 2019 年 7 月 10 日期间使用以下查询词轮询 Twitter API 收集与孤独状态相关的推文:孤独、孤独和孤独。重复推文、短推文(少于三个单词)和带有外部 URL 的推文被丢弃。此外,每个用户最多只能保留三个推文。这最大限度地减少了多产的高音扬声器和机器人对语料库的影响。
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
SOLO是一个包含超过400万条英文推文的语料库,每条推文均涉及孤独相关词汇,通过Twitter API在2018年至2019年间收集,并经过筛选以去除重复、短文本和外部链接,同时限制用户贡献以降低噪音。该数据集旨在分析孤独状态的语言和情绪特征,由加拿大国家研究委员会和卡尔顿大学于2020年发布。
以上内容由遇见数据集搜集并总结生成



