jhu-clsp/bernice-pretrain-data
收藏Hugging Face2023-01-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jhu-clsp/bernice-pretrain-data
下载链接
链接失效反馈官方服务:
资源简介:
Bernice Pre-train Data数据集包含用于训练Bernice(一个Twitter编码器)的25亿条多语言推文的ID。这些推文来自2016年1月至2021年12月的Twitter API公共1%流。数据集包含66种独特的语言,包括未定义的语言类别。推文需要通过Twitter API重新收集,建议使用Hydrator或tweepy工具。数据集的结构是按推文发布的年份和月份组织的gzip文件,每条推文占一行,字段用制表符分隔。数据字段包括推文ID、语言代码(由Twitter元数据提供)和推文发布的年份。数据集的创建目的是支持Bernice的训练,数据来源是Twitter用户。数据集仅包含推文ID,不包含完整的推文内容,因此需要遵守Twitter的隐私政策。数据集的许可证为MIT,引用信息包括相关论文的引用。
提供机构:
jhu-clsp
原始信息汇总
数据集概述
数据集名称
- 名称: Bernice Pretrain Data
- 别名: Bernice Pre-train Data
数据集描述
- 摘要: 包含25亿条多语言推文的推文ID,用于训练Bernice,一种Twitter编码器。这些推文来自2016年1月至2021年12月的公共1% Twitter API流。
- 语言: 包含66种语言,包括一个
und(未定义)类别。所有语言标识由Twitter API提供。 - 数据来源: 原始数据,通过Twitter API收集。
- 标签: 包含
twitter,slang,code switch,social,social media等标签。 - 任务类别: 其他
- 许可证: MIT
数据集结构
- 数据实例: 数据以gzip压缩文件形式提供,按推文发布年份和月份组织。每条推文一行,字段由制表符分隔。
- 数据字段:
tweet ID: 推文IDlang: 语言的ISO 639代码,由Twitter元数据提供。标签的准确性未知。year: 推文创建的年份。年份也包含在文件名中。
数据集创建
- 收集理由: 为了支持Bernice,一种多语言预训练Twitter编码器的训练。
- 源数据: 通过Twitter API公共1%流从2016年1月到2021年12月收集。移除了少于三个非用户名或URL空格分隔词的推文。所有用户名和URL被替换为
@USER和HTTPURL。 - 个人和敏感信息: 根据Twitter指南,仅共享推文ID,不共享完整推文。推文只有在用户未删除其账户(或被禁止)、推文未被删除或移除,或用户未将其账户访问设置为私有时才可访问。
使用数据注意事项
- 社会影响: 未提供详细信息。
- 偏见讨论: 未提供详细信息。
- 其他已知限制: 未提供详细信息。
附加信息
- 数据集收集者: Mark Dredze, Alexandra DeLucia, Shijie Wu, Aaron Mueller, Carlos Aguirre, Philip Resnik。
- 许可证信息: MIT
- 引用信息: 如果使用此数据集,请引用Bernice论文。
- 贡献者: 数据集由@AADeLucia上传。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



