erhwenkuo/train_3.5m-zhtw
收藏数据集概述
数据集信息
- 特征:
conversations: 对话内容from: 发送者类型(字符串)value: 对话内容(字符串)
id: 数据ID(字符串)
- 数据分割:
train: 训练集- 字节数: 4550239762
- 样本数: 3606402
- 下载大小: 2796036198 字节
- 数据集大小: 4550239762 字节
- 配置:
default: 默认配置- 数据文件路径:
data/train-*
- 数据文件路径:
- 任务类别:
text2text-generation: 文本生成
- 语言:
zh: 中文
- 数据集大小类别:
1M<n<10M: 100万到1000万条数据
内容
包含约350万条由BELLE计划产生的中文指令数据。
示例
json { "id": "66623028", "conversations": [ { "from": "human", "value": "歸納介紹三種不同類型的電影專題" }, { "from": "assistant", "value": "1. 動作片:動作片通常強調動作和戰鬥場面,故事情節緊湊,充滿了緊張和興奮的氛圍。主角一般是具有超凡實力或特殊技能的英雄人物,往往會與反派角色進行一系列激烈的格鬥,追逐和爆破等酷炫場面。例如《玩命關頭》和《復仇者聯盟》等。 2. 愛情片:愛情片是以愛情為主題的電影,著重呈現角色之間的感情糾葛,展現了愛情的美麗與悲壯。情節與角色之間的發展令人深思,增加了觀眾的感性體驗。這種電影的故事情節主要以人類與人類之間的情感變化為主題。例如《泰坦尼克號》和《讓子彈飛》等。 3. 科幻片:科幻片是以未來科技和未知世界為主題的電影,通常包括時間旅行、外星人、虛擬實境、未來社會等各種奇幻的元素。這種電影描繪了一種比現實更加宏偉、更加神秘和驚奇的世界。例如《星際效應》和《發條橘子》等。" } ] } { "id": "18205437", "conversations": [ { "from": "human", "value": "根據給定的食材,編寫一道美食食譜。 雞腿肉、蘑菇、洋蔥" }, { "from": "assistant", "value": "雞肉炒蘑菇洋蔥 食材:
- 雞腿肉400克,去骨去皮切成小塊
- 蘑菇200克,切片
- 洋蔥1個,切絲
- 生薑適量,切絲
- 醬油2匙
- 料酒1匙
- 鹽適量
- 白胡椒粉適量
- 植物油適量 做法:
- 在一個碗裡放入切好的雞腿肉塊,加入醬油、料酒和適量的白胡椒粉,攪拌均勻,醃製10分鐘。
- 熱鍋涼油,加入薑絲翻炒,放入醃好的雞肉塊翻炒至變色。 3 . 加入洋蔥絲和蘑菇,翻炒2-3分鐘至蘑菇變軟。
- 加入適量的鹽和少量的水,蓋上鍋蓋燜煮5分鐘直至雞肉熟透。
- 最後翻炒幾下,使湯汁變濃稠即可。 溫馨提示:
- 在醃製雞肉時,如果想讓肉質更嫩滑,可以加入少量的澱粉和蛋清。
- 可以根據個人口味加入其他調味料,如蒜末、辣椒等。
- 洋蔥和蘑菇可以用其他蔬菜代替,如青椒、胡蘿蔔等。" }, { "from": "human", "value": "太好了,我會試著照著你教的做一次,但是我最近買了一部新相機,想讓你推荐一些好的拍照地點。" }, { "from": "assistant", "value": "當地的風景區、公園、景點等等都是比較適合拍照的地點。如果你想要一些特別的地方,可以考慮一些建築群,街道巷子、咖啡館、書店等具有文藝氣息的地方。" }, { "from": "human", "value": "嗯,這些地方都很不錯,但是我還想找一些可以體驗當地文化和風俗的地點,你有什麼好的建議嗎?" }, { "from": "assistant", "value": "如果你想要更深入地了解當地文化和風俗,可以考慮參加一些遊學活動,例如參觀當地的博物館、參加民俗節慶、嘗試當地美食等等。此外,也可以去一些小城鎮,感受那裡的古樸風情。" } ] }
字段说明
id: 数据IDconversations: 数据内容,以对话形式给出,包括多轮和单轮对话的数据
使用限制
仅允许将此数据集及使用此数据集产生的衍生物用于研究目的,不得用于商业,以及其他会对社会带来危害的用途。 本数据集不代表任何一方的立场、利益或想法,无关任何团体的任何类型的主张。因使用本数据集所带来的任何损害、纠纷,本项目不承担任何责任。
引用
bibtex @misc{BELLE, author = {Yunjie Ji, Yong Deng, Yan Gong, Yiping Peng, Qiang Niu, Baochang Ma and Xiangang Li}, title = {BELLE: Be Everyones Large Language model Engine }, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/LianjiaTech/BELLE}}, } @article{belle2023exploring, title={Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases}, author={Yunjie Ji, Yong Deng, Yan Gong, Yiping Peng, Qiang Niu, Lei Zhang, Baochang Ma, Xiangang Li}, journal={arXiv preprint arXiv:2303.14742}, year={2023} }



