SEACrowd/cosem
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/cosem
下载链接
链接失效反馈官方服务:
资源简介:
CoSEM数据集包含超过900,000条来自WhatsApp消息平台的在线消息,这些消息是从新加坡国立大学高级社会语言学课程学生的个人聊天记录中收集的。消息的收集时间跨度为2016年至2019年。数据集以.txt格式存储,每条消息都带有唯一的标识符,包含元数据如行号、消息发送年份、发送者的年龄和国籍。数据集主要用于自监督预训练任务,支持使用`datasets`和`seacrowd`库进行加载。数据集的语言为英语,许可证为Creative Commons Zero v1.0 Universal (cc0-1.0)。
CoSEM数据集包含超过900,000条来自WhatsApp消息平台的在线消息,这些消息是从新加坡国立大学高级社会语言学课程学生的个人聊天记录中收集的。消息的收集时间跨度为2016年至2019年。数据集以.txt格式存储,每条消息都带有唯一的标识符,包含元数据如行号、消息发送年份、发送者的年龄和国籍。数据集主要用于自监督预训练任务,支持使用`datasets`和`seacrowd`库进行加载。数据集的语言为英语,许可证为Creative Commons Zero v1.0 Universal (cc0-1.0)。
提供机构:
SEACrowd



