five

jhu-clsp/bernice-pretrain-data

收藏
Hugging Face2023-01-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jhu-clsp/bernice-pretrain-data
下载链接
链接失效反馈
官方服务:
资源简介:
Bernice Pre-train Data数据集包含用于训练Bernice(一个Twitter编码器)的25亿条多语言推文的ID。这些推文来自2016年1月至2021年12月的Twitter API公共1%流。数据集包含66种独特的语言,包括未定义的语言类别。推文需要通过Twitter API重新收集,建议使用Hydrator或tweepy工具。数据集的结构是按推文发布的年份和月份组织的gzip文件,每条推文占一行,字段用制表符分隔。数据字段包括推文ID、语言代码(由Twitter元数据提供)和推文发布的年份。数据集的创建目的是支持Bernice的训练,数据来源是Twitter用户。数据集仅包含推文ID,不包含完整的推文内容,因此需要遵守Twitter的隐私政策。数据集的许可证为MIT,引用信息包括相关论文的引用。
提供机构:
jhu-clsp
原始信息汇总

数据集概述

数据集名称

  • 名称: Bernice Pretrain Data
  • 别名: Bernice Pre-train Data

数据集描述

  • 摘要: 包含25亿条多语言推文的推文ID,用于训练Bernice,一种Twitter编码器。这些推文来自2016年1月至2021年12月的公共1% Twitter API流。
  • 语言: 包含66种语言,包括一个und(未定义)类别。所有语言标识由Twitter API提供。
  • 数据来源: 原始数据,通过Twitter API收集。
  • 标签: 包含twitter, slang, code switch, social, social media等标签。
  • 任务类别: 其他
  • 许可证: MIT

数据集结构

  • 数据实例: 数据以gzip压缩文件形式提供,按推文发布年份和月份组织。每条推文一行,字段由制表符分隔。
  • 数据字段:
    • tweet ID: 推文ID
    • lang: 语言的ISO 639代码,由Twitter元数据提供。标签的准确性未知。
    • year: 推文创建的年份。年份也包含在文件名中。

数据集创建

  • 收集理由: 为了支持Bernice,一种多语言预训练Twitter编码器的训练。
  • 源数据: 通过Twitter API公共1%流从2016年1月到2021年12月收集。移除了少于三个非用户名或URL空格分隔词的推文。所有用户名和URL被替换为@USERHTTPURL
  • 个人和敏感信息: 根据Twitter指南,仅共享推文ID,不共享完整推文。推文只有在用户未删除其账户(或被禁止)、推文未被删除或移除,或用户未将其账户访问设置为私有时才可访问。

使用数据注意事项

  • 社会影响: 未提供详细信息。
  • 偏见讨论: 未提供详细信息。
  • 其他已知限制: 未提供详细信息。

附加信息

  • 数据集收集者: Mark Dredze, Alexandra DeLucia, Shijie Wu, Aaron Mueller, Carlos Aguirre, Philip Resnik。
  • 许可证信息: MIT
  • 引用信息: 如果使用此数据集,请引用Bernice论文。
  • 贡献者: 数据集由@AADeLucia上传。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作