silk-road/ChatHaruhi-Expand-118K
收藏Hugging Face2023-12-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/silk-road/ChatHaruhi-Expand-118K
下载链接
链接失效反馈官方服务:
资源简介:
ChatHaruhi Expanded Dataset 118K数据集包含62663个原始ChatHaruhi-54K实例、42255个来自RoleLLM的英文数据和13166个中文数据。该数据集主要用于文本生成和文本到文本生成任务,支持中文和英文。数据生成过程涉及不同的上下文长度、嵌入模型和自定义角色,生成速度约为每秒8个实例。
提供机构:
silk-road
原始信息汇总
数据集概述
数据集名称
- ChatHaruhi Expanded Dataset 118K
数据集来源
- 62663 instance from original ChatHaruhi-54K
- 42255 English Data from RoleLLM
- 13166 Chinese Data
语言
- 中文(zh)
- 英文(en)
数据集大小
- 100K<n<1M
许可证
- CC-BY-4.0
任务类别
- 文本生成(text-generation)
- 文本到文本生成(text2text-generation)
数据生成细节
- 数据生成速度:约8实例/秒(T4 GPU)
- 数据生成代码部分由豆角实现,最终由LC1332验证
- 英文数据过滤过程详见Prepare_English_Training_set.ipynb
引用信息
- 若在出版物中使用此数据集,请引用以下文献: bibtex @misc{li2023chatharuhi, title={ChatHaruhi: Reviving Anime Character in Reality via Large Language Model}, author={Cheng Li and Ziang Leng and Chenxi Yan and Junyi Shen and Hao Wang and Weishi MI and Yaying Fei and Xiaoyang Feng and Song Yan and HaoSheng Wang and Linkang Zhan and Yaokai Jia and Pingyu Wu and Haozhen Sun}, year={2023}, eprint={2308.09597}, archivePrefix={arXiv}, primaryClass={cs.CL} }



