five

erhwenkuo/moss-003-sft-chinese-zhtw

收藏
Hugging Face2023-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/erhwenkuo/moss-003-sft-chinese-zhtw
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversation_id dtype: int64 - name: category dtype: string - name: conversation list: - name: human dtype: string - name: assistant dtype: string splits: - name: train num_bytes: 8438001353 num_examples: 1074551 download_size: 4047825896 dataset_size: 8438001353 configs: - config_name: default data_files: - split: train path: data/train-* license: cc task_categories: - conversational language: - zh size_categories: - 1M<n<10M --- # Dataset Card for "moss-003-sft-chinese-zhtw" ## 資料集摘要 本資料集主要是應用於專案:[MOSS: 開源對話語言模型](https://github.com/OpenLMLab/MOSS) 所收集的數據。 [MOSS]((https://github.com/OpenLMLab/MOSS)) 是支援中英雙語和多種外掛程式的開源對話語言模型,moss-moon 系列模型具有160億參數,在FP16精度下可在單張A100/A800或兩張3090顯示卡運行,在INT4/8精度下可在單張3090顯示卡運行。 MOSS基座語言模型在約七千億中英文以及程式碼單字上預訓練得到,後續經過對話指令微調、插件增強學習和人類偏好訓練具備多輪對話能力及使用多種插件的能力。 ## 原始資料來源 - [moss-003-sft-data](https://github.com/OpenLMLab/MOSS/tree/main/SFT_data): `moss-moon-003-sft` 所使用的多輪對話數據,基於 MOSS-002 內測階段採集的約10萬用戶輸入數據和 gpt-3.5-turbo 構造而成,相比 `moss-002-sft-data`,`moss-003-sft-data` 更符合真實使用者意圖分佈,包含更細緻的有用性類別標記、更廣泛的無害性資料和更長對話輪數,約含110萬條對話數據。完整資料已全部開源。 - [YeungNLP/moss-003-sft-data](https://huggingface.co/datasets/YeungNLP/moss-003-sft-data) ## 資料下載清理 在原始資料集的基礎上,[YeungNLP/moss-003-sft-data](https://huggingface.co/datasets/YeungNLP/moss-003-sft-data) 去除了冗餘訊息,僅提取出有效的對話訊息,並且調整資料格式,以便在訓練中更加靈活地組織資料格式。 1. 下載 [YeungNLP/moss-003-sft-data](https://huggingface.co/datasets/YeungNLP/moss-003-sft-data) 2. 使用 OpenCC 來進行簡繁轉換 3. 使用 Huggingface Datasets 來上傳至 Huggingface Hub ## 資料集結構 本資料集原始為jsonl格式,每一行的樣本為一個多輪對話數據,格式如下: ```json { "conversation_id":1, "category":"Brainstorming", "conversation":[ { "human":"如何保障工作中遵循正確的安全準則?", "assistant":"為了保障工作中遵循正確的安全準則,以下是一些建議:\n\n1.瞭解相關安全規定和標準:瞭解相關的安全規定和標準,並遵守它們。這可以包括公司和政府的安全標準,以及行業標準和最佳實踐。\n\n2.培訓和教育:確保您和您的同事接受了必要的培訓和教育,以瞭解正確的安全準則和行為。\n\n3.使用正確的工具和裝置:確保您使用正確的工具和裝置,並且它們得到了正確的維護和保養。\n\n4.個人防護裝備:確保您和您的同事穿戴正確的個人防護裝備,如安全鞋、透明眼鏡或面罩、手套等。\n\n5.建立一個安全文化:鼓勵個人對安全的責任感和意識,並建立一個安全文化,使人們始終關注他們自己和他人的安全。\n\n6.持續監測和改進:持續監測和改進安全準則和程式,以確保它們保持最新,並適應變化的情況。\n\n這些措施可以幫助您和您的同事在工作中保障正確的安全準則,確保您的工作場所是一個安全的環境。" }, { "human":"如何應對突發緊急情況?", "assistant":"突發緊急情況可能會在任何時間發生,為了應對這些情況,以下是一些建議:\n\n1.保持冷靜:保持冷靜和清醒,以便能夠更好地應對情況。\n\n2.評估情況:評估緊急情況的性質和範圍,以便了解應該採取哪些行動。\n\n3.觸發應急計劃:如果您的機構或公司有應急計劃,立即觸發它,並按照計劃的步驟行動。\n\n4.聯絡相關人員:通知必要的人員,例如緊急服務、管理層或其他相關人員,並與他們保持聯絡。\n\n5.遵循安全準則:在處理緊急情況時,請遵循正確的安全準則,確保自己和其他人的安全。\n\n6.提供及時資訊:儘快向相關人員提供準確的資訊,以便他們能夠做出正確的決策。\n\n7.合作應對:與其他人合作應對緊急情況並相互支援。\n\n總之,應對突發緊急情況需要保持冷靜和清醒,評估情況並採取適當的行動。同時,需要遵循正確的安全準則,並與其他人合作應對緊急情況。" }, { "human":"在網路安全方面,如何避免遭受駭客攻擊?", "assistant":"以下是一些避免遭受駭客攻擊的建議:\n\n1.更新安全軟體:確保您的作業系統、應用程式和安全軟體是最新的,並隨時更新它們。這可以幫助您及時發現和修復安全漏洞。\n\n2.使用強密碼:使用強密碼,包括字母、數字和特殊字元。不要使用容易猜測的密碼,如生日、姓名或常用單詞。\n\n3.使用多因素身份驗證:使用多因素身份驗證來增加賬戶的安全性,例如傳送簡訊驗證碼或使用指紋識別。\n\n4.小心附件和連結:不要開啟未知的附件或連結,因為它們可能包含惡意軟體。\n\n5.備份重要檔案:定期備份重要檔案,並將其儲存在安全的位置。\n\n6.保護個人資訊:不要在網際網路上公開個人資訊,例如出生日期、地址或社交安全號碼。\n\n7.使用加密連線:在訪問敏感資訊時,使用加密連線,如HTTPS。\n\n8.教育員工:向員工提供網路安全培訓,並確保他們瞭解正確的安全措施和行為。\n\n總之,避免遭受駭客攻擊需要採取多種措施,包括更新安全軟體、使用強密碼、使用多因素身份驗證、小心附件和連結、備份重要檔案、保護個人資訊、使用加密連線以及教育員工。這些措施可以幫助您保護個人資訊和資料免受駭客攻擊。" }, { "human":"如何確保網路連線的安全性?", "assistant":"以下是一些確保網路連線安全性的建議:\n\n1.使用加密連線:使用加密連線,如HTTPS,以確保資料傳輸過程中不被竊聽或篡改。\n\n2.使用防病毒軟體:安裝和更新防病毒軟體,可以幫助檢測和清除惡意軟體。\n\n3.使用防火牆:使用防火牆保護網路和裝置,可以幫助阻止未經授權的訪問和攻擊。\n\n4.禁止未經授權的訪問:禁止未經授權的訪問,包括限制網路訪問和裝置訪問許可權。\n\n5.定期更新作業系統和應用程式:定期更新作業系統和應用程式,以修復安全漏洞和缺陷。\n\n6.使用強密碼:使用強密碼,包括字母、數字和特殊字元,並定期更改密碼。\n\n7.控制訪問:控制訪問網路和裝置的人員,僅授權人員可訪問重要資源。\n\n8.教育員工:向員工提供網路安全培訓,並確保他們瞭解正確的安全措施和行為。\n\n總之,確保網路連線的安全性需要採取多種措施,包括使用加密連線、使用防病毒軟體、使用防火牆、禁止未經授權的訪問、定期更新作業系統和應用程式、使用強密碼、控制訪問和教育員工。這些措施可以幫助您保護網路和裝置免受未經授權的訪問和攻擊。" }, { "human":"對於金融機構來說,如何保護客戶的隱私和資料安全?", "assistant":"金融機構需要對客戶的隱私和資料安全高度重視,以下是一些保護客戶隱私和資料安全的建議:\n\n1.遵守合規要求:確保遵守所有適用的合規要求和監管標準,包括資料隱私法規和安全標準。\n\n2.加強身份驗證:採用多因素身份驗證,例如使用簡訊驗證碼、指紋識別等,以確保客戶身份的真實性。\n\n3.加密敏感資料:使用加密技術對敏感資料進行加密,以保護客戶資訊不被未經授權的人員獲得。\n\n4.建立安全控制:建立安全控制,包括訪問控制、安全審計和安全事件響應,以保護客戶資訊的安全性。\n\n5.教育員工:向員工提供網路安全培訓,並確保他們瞭解正確的安全措施和行為。\n\n6.定期測試:定期進行安全測試和漏洞掃描,以發現和修復潛在的安全漏洞。\n\n7.建立應急計劃:建立應急計劃,並對其進行定期測試,以確保在緊急情況下能夠及時響應和恢復。\n\n總之,保護客戶隱私和資料安全需要採取多種措施,包括遵守合規要求、加強身份驗證、加密敏感資料、建立安全控制、教育員工、定期測試和建立應急計劃。這些措施可以幫助金融機構保護客戶資訊的安全性和隱私。" } ] } ``` ## 資料欄位 - `conversation_id`: (int64) 資料編號 - `category`: (string) 對話類別 - `conversation`: (list) 多輪對話 - `human`: (string) 使用者角色的詢問 - `assistant`: (string) 小助手的回答 ## 如何使用 ```python from datasets import load_dataset dataset = load_dataset("erhwenkuo/moss-003-sft-chinese-zhtw", split="train") ``` ## 許可資訊 [CC BY-NC 4.0](https://creativecommons.org/licenses/by-nc/4.0/deed.zh-hant) ## 引用 ``` @article{sun2023moss, title={MOSS: Training Conversational Language Models from Synthetic Data}, author={Tianxiang Sun and Xiaotian Zhang and Zhengfu He and Peng Li and Qinyuan Cheng and Hang Yan and Xiangyang Liu and Yunfan Shao and Qiong Tang and Xingjian Zhao and Ke Chen and Yining Zheng and Zhejian Zhou and Ruixiao Li and Jun Zhan and Yunhua Zhou and Linyang Li and Xiaogui Yang and Lingling Wu and Zhangyue Yin and Xuanjing Huang and Xipeng Qiu}, year={2023} } ```

--- dataset_info: features: - name: conversation_id dtype: int64 - name: category dtype: string - name: conversation list: - name: human dtype: string - name: assistant dtype: string splits: - name: train num_bytes: 8438001353 num_examples: 1074551 download_size: 4047825896 dataset_size: 8438001353 configs: - config_name: default data_files: - split: train path: data/train-* license: cc task_categories: - conversational language: - zh size_categories: - 1M<n<10M --- # Dataset Card for "moss-003-sft-chinese-zhtw" ## Dataset Summary This dataset is primarily collected for the project [MOSS: Open-Source Conversational Language Model](https://github.com/OpenLMLab/MOSS). [MOSS](https://github.com/OpenLMLab/MOSS) is an open-source conversational language model that supports both Chinese and English, along with various plugins. The moss-moon series models have 1.6 billion parameters, and can run on a single A100/A800 GPU or two 3090 GPUs with FP16 precision, and on a single 3090 GPU with INT4/8 precision. The base MOSS language model is pre-trained on approximately 700 billion Chinese, English, and code tokens, and subsequently acquires multi-turn conversation capabilities and the ability to utilize various plugins through conversational instruction fine-tuning, plugin-enhanced learning, and human preference training. ## Original Data Sources - [moss-003-sft-data](https://github.com/OpenLMLab/MOSS/tree/main/SFT_data): The multi-turn conversation data used for `moss-moon-003-sft`, constructed using approximately 100,000 user input data collected during the closed beta phase of MOSS-002 and gpt-3.5-turbo. Compared to `moss-002-sft-data`, `moss-003-sft-data` better matches the distribution of real user intentions, includes more detailed utility category tags, a broader set of harmless data, and longer conversation turns, with approximately 1.1 million conversation entries. The complete dataset has been fully open-sourced. - [YeungNLP/moss-003-sft-data](https://huggingface.co/datasets/YeungNLP/moss-003-sft-data) ## Data Download and Cleaning Based on the original dataset, [YeungNLP/moss-003-sft-data](https://huggingface.co/datasets/YeungNLP/moss-003-sft-data) removes redundant messages, extracts only valid conversation content, and adjusts the data format to allow more flexible organization of data structures during training. 1. Download [YeungNLP/moss-003-sft-data](https://huggingface.co/datasets/YeungNLP/moss-003-sft-data) 2. Use OpenCC for simplified-to-traditional Chinese character conversion 3. Upload to the Huggingface Hub using Huggingface Datasets ## Dataset Structure This dataset was originally in jsonl format, with each line representing a multi-turn conversation sample. The format is as follows: json { "conversation_id":1, "category":"Brainstorming", "conversation":[ { "human":"如何保障工作中遵循正確的安全準則?", "assistant":"為了保障工作中遵循正確的安全準則,以下是一些建議: 1.瞭解相關安全規定和標準:瞭解相關的安全規定和標準,並遵守它們。這可以包括公司和政府的安全標準,以及行業標準和最佳實踐。 2.培訓和教育:確保您和您的同事接受了必要的培訓和教育,以瞭解正確的安全準則和行為。 3.使用正確的工具和裝置:確保您使用正確的工具和裝置,並且它們得到了正確的維護和保養。 4.個人防護裝備:確保您和您的同事穿戴正確的個人防護裝備,如安全鞋、透明眼鏡或面罩、手套等。 5.建立一個安全文化:鼓勵個人對安全的責任感和意識,並建立一個安全文化,使人們始終關注他們自己和他人的安全。 6.持續監測和改進:持續監測和改進安全準則和程式,以確保它們保持最新,並適應變化的情況。 這些措施可以幫助您和您的同事在工作中保障正確的安全準則,確保您的工作場所是一個安全的環境。" }, { "human":"如何應對突發緊急情況?", "assistant":"突發緊急情況可能會在任何時間發生,為了應對這些情況,以下是一些建議: 1.保持冷靜:保持冷靜和清醒,以便能夠更好地應對情況。 2.評估情況:評估緊急情況的性質和範圍,以便了解應該採取哪些行動。 3.觸發應急計劃:如果您的機構或公司有應急計劃,立即觸發它,並按照計劃的步驟行動。 4.聯絡相關人員:通知必要的人員,例如緊急服務、管理層或其他相關人員,並與他們保持聯絡。 5.遵循安全準則:在處理緊急情況時,請遵循正確的安全準則,確保自己和其他人的安全。 6.提供及時資訊:儘快向相關人員提供準確的資訊,以便他們能夠做出正確的決策。 7.合作應對:與其他人合作應對緊急情況並相互支援。 總之,應對突發緊急情況需要保持冷靜和清醒,評估情況並採取適當的行動。同時,需要遵循正確的安全準則,並與其他人合作應對緊急情況。" }, { "human":"在網路安全方面,如何避免遭受駭客攻擊?", "assistant":"以下是一些避免遭受駭客攻擊的建議: 1.更新安全軟體:確保您的作業系統、應用程式和安全軟體是最新的,並隨時更新它們。這可以幫助您及時發現和修復安全漏洞。 2.使用強密碼:使用強密碼,包括字母、數字和特殊字元。不要使用容易猜測的密碼,如生日、姓名或常用單詞。 3.使用多因素身份驗證:使用多因素身份驗證來增加賬戶的安全性,例如傳送簡訊驗證碼或使用指紋識別。 4.小心附件和連結:不要開啟未知的附件或連結,因為它們可能包含惡意軟體。 5.備份重要檔案:定期備份重要檔案,並將其儲存在安全的位置。 6.保護個人資訊:不要在網際網路上公開個人資訊,例如出生日期、地址或社交安全號碼。 7.使用加密連線:在訪問敏感資訊時,使用加密連線,如HTTPS。 8.教育員工:向員工提供網路安全培訓,並確保他們瞭解正確的安全措施和行為。 總之,避免遭受駭客攻擊需要採取多種措施,包括更新安全軟體、使用強密碼、使用多因素身份驗證、小心附件和連結、備份重要檔案、保護個人資訊、使用加密連線以及教育員工。這些措施可以幫助您保護個人資訊和資料免受駭客攻擊。" }, { "human":"如何確保網路連線的安全性?", "assistant":"以下是一些確保網路連線安全性的建議: 1.使用加密連線:使用加密連線,如HTTPS,以確保資料傳輸過程中不被竊聽或篡改。 2.使用防病毒軟體:安裝和更新防病毒軟體,可以幫助檢測和清除惡意軟體。 3.使用防火牆:使用防火牆保護網路和裝置,可以幫助阻止未經授權的訪問和攻擊。 4.禁止未經授權的訪問:禁止未經授權的訪問,包括限制網路訪問和裝置訪問許可權。 5.定期更新作業系統和應用程式:定期更新作業系統和應用程式,以修復安全漏洞和缺陷。 6.使用強密碼:使用強密碼,包括字母、數字和特殊字元,並定期更改密碼。 7.控制訪問:控制訪問網路和裝置的人員,僅授權人員可訪問重要資源。 8.教育員工:向員工提供網路安全培訓,並確保他們瞭解正確的安全措施和行為。 總之,確保網路連線的安全性需要採取多種措施,包括使用加密連線、使用防病毒軟體、使用防火牆、禁止未經授權的訪問、定期更新作業系統和應用程式、使用強密碼、控制訪問和教育員工。這些措施可以幫助您保護網路和裝置免受未經授權的訪問和攻擊。" }, { "human":"對於金融機構來說,如何保護客戶的隱私和資料安全?", "assistant":"金融機構需要對客戶的隱私和資料安全高度重視,以下是一些保護客戶隱私和資料安全的建議: 1.遵守合規要求:確保遵守所有適用的合規要求和監管標準,包括資料隱私法規和安全標準。 2.加強身份驗證:採用多因素身份驗證,例如使用簡訊驗證碼、指紋識別等,以確保客戶身份的真實性。 3.加密敏感資料:使用加密技術對敏感資料進行加密,以保護客戶資訊不被未經授權的人員獲得。 4.建立安全控制:建立安全控制,包括訪問控制、安全審計和安全事件響應,以保護客戶資訊的安全性。 5.教育員工:向員工提供網路安全培訓,並確保他們瞭解正確的安全措施和行為。 6.定期測試:定期進行安全測試和漏洞掃描,以發現和修復潛在的安全漏洞。 7.建立應急計劃:建立應急計劃,並對其進行定期測試,以確保在緊急情況下能夠及時響應和恢復。 總之,保護客戶隱私和資料安全需要採取多種措施,包括遵守合規要求、加強身份驗證、加密敏感資料、建立安全控制、教育員工、定期測試和建立應急計劃。這些措施可以幫助金融機構保護客戶資訊的安全性和隱私。" } ] } ## Data Fields - `conversation_id`: (int64) Unique data identifier - `category`: (string) Conversation category - `conversation`: (list) Multi-turn conversation - `human`: (string) Queries from the user - `assistant`: (string) Responses from the assistant ## How to Use python from datasets import load_dataset dataset = load_dataset("erhwenkuo/moss-003-sft-chinese-zhtw", split="train") ## License Information [CC BY-NC 4.0](https://creativecommons.org/licenses/by-nc/4.0/deed.zh-hant) ## Citation bibtex @article{sun2023moss, title={MOSS: Training Conversational Language Models from Synthetic Data}, author={Tianxiang Sun and Xiaotian Zhang and Zhengfu He and Peng Li and Qinyuan Cheng and Hang Yan and Xiangyang Liu and Yunfan Shao and Qiong Tang and Xingjian Zhao and Ke Chen and Yining Zheng and Zhejian Zhou and Ruixiao Li and Jun Zhan and Yunhua Zhou and Linyang Li and Xiaogui Yang and Lingling Wu and Zhangyue Yin and Xuanjing Huang and Xipeng Qiu}, year={2023} }
提供机构:
erhwenkuo
原始信息汇总

数据集概述

数据集信息

特征

  • conversation_id: (int64) 对话ID
  • category: (string) 对话类别
  • conversation: (list) 多轮对话
    • human: (string) 用户角色的询问
    • assistant: (string) 小助手的回答

数据分割

  • train: 训练集
    • num_bytes: 8438001353
    • num_examples: 1074551

数据大小

  • download_size: 4047825896
  • dataset_size: 8438001353

配置

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*

许可

  • license: cc

任务类别

  • task_categories:
    • conversational

语言

  • language:
    • zh

数据集大小类别

  • size_categories:
    • 1M<n<10M

数据集结构

数据集原始为jsonl格式,每一行的样本为一个多轮对话数据,格式如下:

json { "conversation_id":1, "category":"Brainstorming", "conversation":[ { "human":"如何保障工作中遵循正确的安全准则?", "assistant":"为了保障工作中遵循正确的安全准则,以下是一些建议:

1.了解相关安全规定和标准:了解相关的安全规定和标准,并遵守它们。这可以包括公司和政府的安全标准,以及行业标准和最佳实践。

2.培训和教育:确保您和您的同事接受了必要的培训和教育,以了解正确的安全准则和行为。

3.使用正确的工具和装置:确保您使用正确的工具和装置,并且它们得到了正确的维护和保养。

4.个人防护装备:确保您和您的同事穿戴正确的个人防护装备,如安全鞋、透明眼镜或面罩、手套等。

5.建立一个安全文化:鼓励个人对安全的责任感和意识,并建立一个安全文化,使人们始终关注他们自己和他人的安全。

6.持续监测和改进:持续监测和改进安全准则和程序,以确保它们保持最新,并适应变化的情况。

这些措施可以帮助您和您的同事在工作中保障正确的安全准则,确保您的工作场所是一个安全的环境。" }, { "human":"如何应对突发紧急情况?", "assistant":"突发紧急情况可能会在任何时间发生,为了应对这些情况,以下是一些建议:

1.保持冷静:保持冷静和清醒,以便能够更好地应对情况。

2.评估情况:评估紧急情况的性质和范围,以便了解应该采取哪些行动。

3.触发应急计划:如果您的机构或公司有应急计划,立即触发它,并按照计划的步骤行动。

4.联络相关人员:通知必要的人员,例如紧急服务、管理层或其他相关人员,并与他们保持联络。

5.遵循安全准则:在处理紧急情况时,请遵循正确的安全准则,确保自己和其他人的安全。

6.提供及时信息:尽快向相关人员提供准确的信息,以便他们能够做出正确的决策。

7.合作应对:与其他人合作应对紧急情况并相互支援。

总之,应对突发紧急情况需要保持冷静和清醒,评估情况并采取适当的行动。同时,需要遵循正确的安全准则,并与其他人合作应对紧急情况。" }, { "human":"在网络安全方面,如何避免遭受黑客攻击?", "assistant":"以下是一些避免遭受黑客攻击的建议:

1.更新安全软件:确保您的操作系统、应用程序和安全软件是最新的,并随时更新它们。这可以帮助您及时发现和修复安全漏洞。

2.使用强密码:使用强密码,包括字母、数字和特殊字符。不要使用容易猜测的密码,如生日、姓名或常用单词。

3.使用多因素身份验证:使用多因素身份验证来增加账户的安全性,例如发送短信验证码或使用指纹识别。

4.小心附件和链接:不要开启未知的附件或链接,因为它们可能包含恶意软件。

5.备份重要文件:定期备份重要文件,并将其储存在安全的位置。

6.保护个人信息:不要在互联网上公开个人信息,例如出生日期、地址或社会安全号码。

7.使用加密连接:在访问敏感信息时,使用加密连接,如HTTPS。

8.教育员工:向员工提供网络安全培训,并确保他们了解正确的安全措施和行为。

总之,避免遭受黑客攻击需要采取多种措施,包括更新安全软件、使用强密码、使用多因素身份验证、小心附件和链接、备份重要文件、保护个人信息、使用加密连接以及教育员工。这些措施可以帮助您保护个人信息和数据免受黑客攻击。" }, { "human":"如何确保网络连接的安全性?", "assistant":"以下是一些确保网络连接安全性的建议:

1.使用加密连接:使用加密连接,如HTTPS,以确保数据传输过程中不被窃听或篡改。

2.使用防病毒软件:安装和更新防病毒软件,可以帮助检测和清除恶意软件。

3.使用防火墙:使用防火墙保护网络和设备,可以帮助阻止未经授权的访问和攻击。

4.禁止未经授权的访问:禁止未经授权的访问,包括限制网络访问和设备访问权限。

5.定期更新操作系统

搜集汇总
数据集介绍
main_image_url
构建方式
在对话语言模型的研究领域,构建高质量的训练数据是提升模型性能的关键。本数据集源自MOSS项目,其构建过程融合了真实用户交互与合成数据生成技术。原始数据采集自MOSS-002内测阶段约十万条用户输入,并借助gpt-3.5-turbo模型进行多轮对话构造,形成了约一百一十万条对话样本。随后,数据经过清洗与格式转换,移除了冗余信息,并通过OpenCC工具将文本统一转换为繁体中文,最终以结构化格式发布于HuggingFace平台,确保了数据的纯净度与可用性。
特点
该数据集在对话生成任务中展现出鲜明的特征。其核心在于覆盖了广泛的话题类别,从脑力激荡到专业咨询,体现了真实用户意图的多样分布。每条样本均包含多轮对话,轮次长度显著,增强了上下文连贯性的建模需求。数据标注细致,不仅包含对话内容,还附有类别标签,便于进行有针对性的模型微调。此外,数据集经过简繁转换,专注于繁体中文语境,为特定语言区域的模型训练提供了宝贵资源。
使用方法
对于研究人员与开发者而言,该数据集的使用极为便捷。通过HuggingFace的datasets库,可直接加载数据集至本地环境。典型用法是调用load_dataset函数,指定数据集名称与训练分割,即可获得结构化的对话数据。加载后的数据以行为单位,每行包含对话ID、类别及多轮对话列表,其中人类与助手的发言清晰分隔。这种格式便于直接应用于监督式微调流程,例如训练对话模型学习人类与助手间的交互模式,是推进中文对话人工智能发展的有效工具。
背景与挑战
背景概述
在人工智能对话系统迅猛发展的背景下,复旦大学自然语言处理实验室于2023年推出了MOSS项目,旨在构建开源的中英双语对话语言模型。该项目核心研究聚焦于通过大规模预训练与精细指令微调,赋予模型多轮对话及插件调用能力,以应对开放域对话的复杂性。数据集'erhwenkuo/moss-003-sft-chinese-zhtw'作为MOSS-003模型的关键训练资源,其构建基于约十万用户交互数据与合成技术,专门针对繁体中文语境进行了优化与转换,显著提升了模型在多样化真实场景中的意图理解与响应生成质量,对推动中文对话人工智能的研究与应用具有重要影响力。
当前挑战
该数据集致力于解决开放域对话系统中,模型需理解复杂用户意图并生成连贯、安全、有用响应的核心挑战,尤其在繁体中文语境下,需克服语言变体、文化差异及表达习惯所带来的语义歧义问题。在构建过程中,挑战主要体现在数据合成与清洗环节:如何从海量用户输入中筛选出高质量对话种子,并利用如GPT-3.5-turbo等模型生成符合真实分布的多轮对话,同时确保生成内容的有用性与无害性;此外,将原始简体中文数据准确转换为繁体中文时,需处理词汇、语法及文化适配性,避免信息损失或引入偏差,这对数据的一致性与实用性构成了严峻考验。
常用场景
经典使用场景
在对话语言模型的研究领域,高质量的多轮对话数据是模型微调与性能评估的核心资源。erhwenkuo/moss-003-sft-chinese-zhtw数据集以其大规模、结构化的中文繁体多轮对话样本,为研究者提供了经典的监督微调场景。该数据集通常被用于训练或优化如MOSS系列的开源对话模型,通过模拟真实用户与助手之间的交互,帮助模型学习连贯、有用且符合安全准则的回应生成能力,从而提升模型在开放域对话任务中的表现。
实际应用
在实际应用层面,该数据集支撑的模型微调工作可直接服务于智能客服、虚拟助手及教育辅导等场景。例如,基于此数据训练的模型能够处理用户关于网络安全、工作安全准则等专业领域的多轮咨询,提供结构化、信息丰富的回答。其繁体中文特性也特别适用于服务台湾、香港等地区的用户,助力企业或开发者构建本地化、符合区域语言习惯的对话交互系统,提升用户体验与服务效率。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在MOSS开源对话语言模型系列的迭代与优化上。原始研究团队利用类似数据训练了moss-moon-003-sft等模型,并在论文《MOSS: Training Conversational Language Models from Synthetic Data》中系统阐述了从合成数据训练对话模型的方法。后续社区工作则基于此数据集进一步探索了模型压缩、低资源适配及安全性增强等技术,推动了开源对话模型生态的多样化发展与应用落地。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作