TrainingDataPro/llm-dataset
收藏Hugging Face2024-04-25 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/TrainingDataPro/llm-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含由大型语言模型(LLMs)生成的提示和文本,涵盖了32种不同的语言。提示是简短的句子或短语,用于引导模型生成文本。生成的文本是模型对这些提示的响应,长度和复杂性各不相同。研究人员和开发者可以使用该数据集来训练和微调自己的多语言应用语言模型。数据集提供了丰富的、多样化的模型输出,展示了其在多种语言中生成连贯且上下文相关文本的能力。数据集还包含用于生成文本的模型(如GPT-3.5和GPT-4),并提供了商业用途的完整版本,包含400万条日志。
该数据集包含由大型语言模型(LLMs)生成的提示和文本,涵盖了32种不同的语言。提示是简短的句子或短语,用于引导模型生成文本。生成的文本是模型对这些提示的响应,长度和复杂性各不相同。研究人员和开发者可以使用该数据集来训练和微调自己的多语言应用语言模型。数据集提供了丰富的、多样化的模型输出,展示了其在多种语言中生成连贯且上下文相关文本的能力。数据集还包含用于生成文本的模型(如GPT-3.5和GPT-4),并提供了商业用途的完整版本,包含400万条日志。
提供机构:
TrainingDataPro
原始信息汇总
LLM Dataset - Prompts and Generated Texts
数据集概述
- 内容: 包含由大型语言模型(LLMs)生成的提示和文本,涵盖32种不同语言。
- 用途: 用于训练和微调多语言应用的语言模型。
- 特点: 展示模型在多种语言中生成连贯且上下文相关文本的能力。
数据集详细信息
- 语言: 阿拉伯语, 阿塞拜疆语, 加泰罗尼亚语, 中文, 捷克语, 丹麦语, 德语, 希腊语, 英语, 世界语, 西班牙语, 波斯语, 芬兰语, 法语, 爱尔兰语, 印地语, 匈牙利语, 印度尼西亚语, 意大利语, 日语, 韩语, 马拉雅拉姆语, 马拉地语, 荷兰语, 波兰语, 葡萄牙语, 巴西葡萄牙语, 斯洛伐克语, 瑞典语, 泰语, 土耳其语, 乌克兰语。
- 模型: GPT-3.5, GPT-4。
- 数据格式: CSV文件,包含以下字段:
- from_language: 提示使用的语言,
- model: 使用的模型类型,
- time: 答案生成的时间,
- text: 用户提示,
- response: 模型生成的响应。
许可证
- 许可证: cc-by-nc-nd-4.0



