five

SEACrowd/cosem

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/cosem
下载链接
链接失效反馈
官方服务:
资源简介:
CoSEM数据集包含超过900,000条来自WhatsApp消息平台的在线消息,这些消息是从新加坡国立大学高级社会语言学课程学生的个人聊天记录中收集的。消息的收集时间跨度为2016年至2019年。数据集以.txt格式存储,每条消息都带有唯一的标识符,包含元数据如行号、消息发送年份、发送者的年龄和国籍。数据集主要用于自监督预训练任务,支持使用`datasets`和`seacrowd`库进行加载。数据集的语言为英语,许可证为Creative Commons Zero v1.0 Universal (cc0-1.0)。

CoSEM数据集包含超过900,000条来自WhatsApp消息平台的在线消息,这些消息是从新加坡国立大学高级社会语言学课程学生的个人聊天记录中收集的。消息的收集时间跨度为2016年至2019年。数据集以.txt格式存储,每条消息都带有唯一的标识符,包含元数据如行号、消息发送年份、发送者的年龄和国籍。数据集主要用于自监督预训练任务,支持使用`datasets`和`seacrowd`库进行加载。数据集的语言为英语,许可证为Creative Commons Zero v1.0 Universal (cc0-1.0)。
提供机构:
SEACrowd
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作