five

YukiTomita-CC/AKU-d_ms-0.5B-v0.1_dataset

收藏
Hugging Face2024-09-15 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/YukiTomita-CC/AKU-d_ms-0.5B-v0.1_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
AKU-d_ms-0.5B-v0.1数据集是用于AKU-d_ms-0.5B-chat-v0.1模型预训练的文本数据集,包含多个公开数据集的文本文件。这些数据集包括住宿搜索对话语料库、日本电影推荐对话、OjousamaTalkScriptDataset、Rosebleu、角色对话数据集、感想付きニュース雑談対話コーパス、RealPersonaChat、JMultiWOZ、aozorabunko-clean、Wikipedia等。每个数据集都有相应的许可证和版权信息,总令牌数为1.56 B tokens。

The AKU-d_ms-0.5B-v0.1 dataset is a text dataset used for pre-training the AKU-d_ms-0.5B-chat-v0.1 model, containing text files from multiple publicly available datasets. These datasets include the Accommodation Search Dialog Corpus, Japanese Movie Recommendation Dialogue, OjousamaTalkScriptDataset, Rosebleu, character conversation dataset, 感想付きニュース雑談対話コーパス, RealPersonaChat, JMultiWOZ, aozorabunko-clean, Wikipedia, and others. Each dataset has its respective license and copyright information, with a total token count of 1.56 B tokens.
提供机构:
YukiTomita-CC
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作