jhu-clsp/bernice-pretrain-data

Name: jhu-clsp/bernice-pretrain-data
Creator: jhu-clsp
Published: 2023-01-03 21:28:00
License: 暂无描述

Hugging Face2023-01-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jhu-clsp/bernice-pretrain-data

下载链接

链接失效反馈

官方服务：

资源简介：

Bernice Pre-train Data数据集包含用于训练Bernice（一个Twitter编码器）的25亿条多语言推文的ID。这些推文来自2016年1月至2021年12月的Twitter API公共1%流。数据集包含66种独特的语言，包括未定义的语言类别。推文需要通过Twitter API重新收集，建议使用Hydrator或tweepy工具。数据集的结构是按推文发布的年份和月份组织的gzip文件，每条推文占一行，字段用制表符分隔。数据字段包括推文ID、语言代码（由Twitter元数据提供）和推文发布的年份。数据集的创建目的是支持Bernice的训练，数据来源是Twitter用户。数据集仅包含推文ID，不包含完整的推文内容，因此需要遵守Twitter的隐私政策。数据集的许可证为MIT，引用信息包括相关论文的引用。

提供机构：

jhu-clsp

原始信息汇总

数据集概述

数据集名称

名称: Bernice Pretrain Data
别名: Bernice Pre-train Data

数据集描述

摘要: 包含25亿条多语言推文的推文ID，用于训练Bernice，一种Twitter编码器。这些推文来自2016年1月至2021年12月的公共1% Twitter API流。
语言: 包含66种语言，包括一个und（未定义）类别。所有语言标识由Twitter API提供。
数据来源: 原始数据，通过Twitter API收集。
标签: 包含twitter, slang, code switch, social, social media等标签。
任务类别: 其他
许可证: MIT

数据集结构

数据实例: 数据以gzip压缩文件形式提供，按推文发布年份和月份组织。每条推文一行，字段由制表符分隔。
数据字段:
- tweet ID: 推文ID
- lang: 语言的ISO 639代码，由Twitter元数据提供。标签的准确性未知。
- year: 推文创建的年份。年份也包含在文件名中。

数据集创建

收集理由: 为了支持Bernice，一种多语言预训练Twitter编码器的训练。
源数据: 通过Twitter API公共1%流从2016年1月到2021年12月收集。移除了少于三个非用户名或URL空格分隔词的推文。所有用户名和URL被替换为@USER和HTTPURL。
个人和敏感信息: 根据Twitter指南，仅共享推文ID，不共享完整推文。推文只有在用户未删除其账户（或被禁止）、推文未被删除或移除，或用户未将其账户访问设置为私有时才可访问。

使用数据注意事项

社会影响: 未提供详细信息。
偏见讨论: 未提供详细信息。
其他已知限制: 未提供详细信息。

附加信息

数据集收集者: Mark Dredze, Alexandra DeLucia, Shijie Wu, Aaron Mueller, Carlos Aguirre, Philip Resnik。
许可证信息: MIT
引用信息: 如果使用此数据集，请引用Bernice论文。
贡献者: 数据集由@AADeLucia上传。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集