five

erhwenkuo/train_3.5m-zhtw

收藏
Hugging Face2023-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/erhwenkuo/train_3.5m-zhtw
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: from dtype: string - name: value dtype: string - name: id dtype: string splits: - name: train num_bytes: 4550239762 num_examples: 3606402 download_size: 2796036198 dataset_size: 4550239762 configs: - config_name: default data_files: - split: train path: data/train-* task_categories: - text2text-generation language: - zh size_categories: - 1M<n<10M --- # Dataset Card for "train_3.5m-zhtw" ## 内容 包含約 350 萬條由 [BELLE](https://github.com/LianjiaTech/BELLE) 計畫產生的中文指令資料。 ## 範例 ``` { "id":"66623028", "conversations":[ { "from":"human", "value":"歸納介紹三種不同類型的電影專題" }, { "from":"assistant", "value":"1. 動作片:動作片通常強調動作和戰鬥場面,故事情節緊湊,充滿了緊張和興奮的氛圍。主角一般是具有超凡實力或特殊技能的英雄人物,往往會與反派角色進行一系列激烈的格鬥,追逐和爆破等酷炫場面。例如《玩命關頭》和《復仇者聯盟》等。\n2. 愛情片:愛情片是以愛情為主題的電影,著重呈現角色之間的感情糾葛,展現了愛情的美麗與悲壯。情節與角色之間的發展令人深思,增加了觀眾的感性體驗。這種電影的故事情節主要以人類與人類之間的情感變化為主題。例如《泰坦尼克號》和《讓子彈飛》等。\n3. 科幻片:科幻片是以未來科技和未知世界為主題的電影,通常包括時間旅行、外星人、虛擬實境、未來社會等各種奇幻的元素。這種電影描繪了一種比現實更加宏偉、更加神秘和驚奇的世界。例如《星際效應》和《發條橘子》等。" } ] } { "id":"18205437", "conversations":[ { "from":"human", "value":"根據給定的食材,編寫一道美食食譜。\n雞腿肉、蘑菇、洋蔥" }, { "from":"assistant", "value":"雞肉炒蘑菇洋蔥\n食材:\n- 雞腿肉400克,去骨去皮切成小塊\n- 蘑菇200克,切片\n- 洋蔥1個,切絲\n- 生薑適量,切絲\n- 醬油2匙\n- 料酒1匙\n- 鹽適量\n- 白胡椒粉適量\n- 植物油適量\n做法:\n1. 在一個碗裡放入切好的雞腿肉塊,加入醬油、料酒和適量的白胡椒粉,攪拌均勻,醃製10分鐘。\n2. 熱鍋涼油,加入薑絲翻炒,放入醃好的雞肉塊翻炒至變色。\n3 . 加入洋蔥絲和蘑菇,翻炒2-3分鐘至蘑菇變軟。\n4. 加入適量的鹽和少量的水,蓋上鍋蓋燜煮5分鐘直至雞肉熟透。\n5. 最後翻炒幾下,使湯汁變濃稠即可。\n溫馨提示:\n1. 在醃製雞肉時,如果想讓肉質更嫩滑,可以加入少量的澱粉和蛋清。\n2. 可以根據個人口味加入其他調味料,如蒜末、辣椒等。\n3. 洋蔥和蘑菇可以用其他蔬菜代替,如青椒、胡蘿蔔等。" }, { "from":"human", "value":"太好了,我會試著照著你教的做一次,但是我最近買了一部新相機,想讓你推荐一些好的拍照地點。" }, { "from":"assistant", "value":"當地的風景區、公園、景點等等都是比較適合拍照的地點。如果你想要一些特別的地方,可以考慮一些建築群,街道巷子、咖啡館、書店等具有文藝氣息的地方。" }, { "from":"human", "value":"嗯,這些地方都很不錯,但是我還想找一些可以體驗當地文化和風俗的地點,你有什麼好的建議嗎?" }, { "from":"assistant", "value":"如果你想要更深入地了解當地文化和風俗,可以考慮參加一些遊學活動,例如參觀當地的博物館、參加民俗節慶、嘗試當地美食等等。此外,也可以去一些小城鎮,感受那裡的古樸風情。" } ] } ``` ### 欄位: ``` id: 資料id conversations: 數據內容,以對話形式給出,包括多輪和單輪對話的數據 ``` ### 補充: 針對此資料集,新增了指令類別字段,共包括13個類別,詳情見 [train_3.5M_CN_With_Category](https://huggingface.co/datasets/BELLE-2/train_3.5M_CN_With_Category) ## 使用限制 僅允許將此資料集及使用此資料集產生的衍生物用於研究目的,不得用於商業,以及其他會對社會帶來危害的用途。 本資料集不代表任何一方的立場、利益或想法,無關任何團體的任何類型的主張。因使用本資料集所帶來的任何損害、糾紛,本專案不承擔任何責任。 ## Citation ```bibtex @misc{BELLE, author = {Yunjie Ji, Yong Deng, Yan Gong, Yiping Peng, Qiang Niu, Baochang Ma and Xiangang Li}, title = {BELLE: Be Everyone's Large Language model Engine }, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/LianjiaTech/BELLE}}, } @article{belle2023exploring, title={Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases}, author={Yunjie Ji, Yong Deng, Yan Gong, Yiping Peng, Qiang Niu, Lei Zhang, Baochang Ma, Xiangang Li}, journal={arXiv preprint arXiv:2303.14742}, year={2023} } ```
提供机构:
erhwenkuo
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • conversations: 对话内容
      • from: 发送者类型(字符串)
      • value: 对话内容(字符串)
    • id: 数据ID(字符串)
  • 数据分割:
    • train: 训练集
      • 字节数: 4550239762
      • 样本数: 3606402
  • 下载大小: 2796036198 字节
  • 数据集大小: 4550239762 字节
  • 配置:
    • default: 默认配置
      • 数据文件路径: data/train-*
  • 任务类别:
    • text2text-generation: 文本生成
  • 语言:
    • zh: 中文
  • 数据集大小类别:
    • 1M<n<10M: 100万到1000万条数据

内容

包含约350万条由BELLE计划产生的中文指令数据。

示例

json { "id": "66623028", "conversations": [ { "from": "human", "value": "歸納介紹三種不同類型的電影專題" }, { "from": "assistant", "value": "1. 動作片:動作片通常強調動作和戰鬥場面,故事情節緊湊,充滿了緊張和興奮的氛圍。主角一般是具有超凡實力或特殊技能的英雄人物,往往會與反派角色進行一系列激烈的格鬥,追逐和爆破等酷炫場面。例如《玩命關頭》和《復仇者聯盟》等。 2. 愛情片:愛情片是以愛情為主題的電影,著重呈現角色之間的感情糾葛,展現了愛情的美麗與悲壯。情節與角色之間的發展令人深思,增加了觀眾的感性體驗。這種電影的故事情節主要以人類與人類之間的情感變化為主題。例如《泰坦尼克號》和《讓子彈飛》等。 3. 科幻片:科幻片是以未來科技和未知世界為主題的電影,通常包括時間旅行、外星人、虛擬實境、未來社會等各種奇幻的元素。這種電影描繪了一種比現實更加宏偉、更加神秘和驚奇的世界。例如《星際效應》和《發條橘子》等。" } ] } { "id": "18205437", "conversations": [ { "from": "human", "value": "根據給定的食材,編寫一道美食食譜。 雞腿肉、蘑菇、洋蔥" }, { "from": "assistant", "value": "雞肉炒蘑菇洋蔥 食材:

  • 雞腿肉400克,去骨去皮切成小塊
  • 蘑菇200克,切片
  • 洋蔥1個,切絲
  • 生薑適量,切絲
  • 醬油2匙
  • 料酒1匙
  • 鹽適量
  • 白胡椒粉適量
  • 植物油適量 做法:
  1. 在一個碗裡放入切好的雞腿肉塊,加入醬油、料酒和適量的白胡椒粉,攪拌均勻,醃製10分鐘。
  2. 熱鍋涼油,加入薑絲翻炒,放入醃好的雞肉塊翻炒至變色。 3 . 加入洋蔥絲和蘑菇,翻炒2-3分鐘至蘑菇變軟。
  3. 加入適量的鹽和少量的水,蓋上鍋蓋燜煮5分鐘直至雞肉熟透。
  4. 最後翻炒幾下,使湯汁變濃稠即可。 溫馨提示:
  5. 在醃製雞肉時,如果想讓肉質更嫩滑,可以加入少量的澱粉和蛋清。
  6. 可以根據個人口味加入其他調味料,如蒜末、辣椒等。
  7. 洋蔥和蘑菇可以用其他蔬菜代替,如青椒、胡蘿蔔等。" }, { "from": "human", "value": "太好了,我會試著照著你教的做一次,但是我最近買了一部新相機,想讓你推荐一些好的拍照地點。" }, { "from": "assistant", "value": "當地的風景區、公園、景點等等都是比較適合拍照的地點。如果你想要一些特別的地方,可以考慮一些建築群,街道巷子、咖啡館、書店等具有文藝氣息的地方。" }, { "from": "human", "value": "嗯,這些地方都很不錯,但是我還想找一些可以體驗當地文化和風俗的地點,你有什麼好的建議嗎?" }, { "from": "assistant", "value": "如果你想要更深入地了解當地文化和風俗,可以考慮參加一些遊學活動,例如參觀當地的博物館、參加民俗節慶、嘗試當地美食等等。此外,也可以去一些小城鎮,感受那裡的古樸風情。" } ] }

字段说明

  • id: 数据ID
  • conversations: 数据内容,以对话形式给出,包括多轮和单轮对话的数据

使用限制

仅允许将此数据集及使用此数据集产生的衍生物用于研究目的,不得用于商业,以及其他会对社会带来危害的用途。 本数据集不代表任何一方的立场、利益或想法,无关任何团体的任何类型的主张。因使用本数据集所带来的任何损害、纠纷,本项目不承担任何责任。

引用

bibtex @misc{BELLE, author = {Yunjie Ji, Yong Deng, Yan Gong, Yiping Peng, Qiang Niu, Baochang Ma and Xiangang Li}, title = {BELLE: Be Everyones Large Language model Engine }, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/LianjiaTech/BELLE}}, } @article{belle2023exploring, title={Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases}, author={Yunjie Ji, Yong Deng, Yan Gong, Yiping Peng, Qiang Niu, Lei Zhang, Baochang Ma, Xiangang Li}, journal={arXiv preprint arXiv:2303.14742}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作