five

speedcell4/ec40-64k

收藏
Hugging Face2025-02-04 更新2025-02-15 收录
下载链接:
https://hf-mirror.com/datasets/speedcell4/ec40-64k
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含文本对和语言信息的的数据集,具体包含两个字段text1和text2,均为整数序列,代表文本内容;另外两个字段lang1和lang2,为字符串类型,代表文本对应的语言。数据集分为训练集、验证集、测试集和zero集,分别用于模型训练、验证、测试和其他特殊用途。数据集总大小为33640167557字节。

This dataset contains text pairs and language information, including two fields text1 and text2, which are integer sequences representing text content; and two fields lang1 and lang2, which are string types representing the language of the text. The dataset is divided into training set, validation set, test set, and zero set, used for model training, validation, testing, and other special purposes. The total size of the dataset is 33640167557 bytes.
提供机构:
speedcell4
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作