five

silk-road/Wizard-LM-Chinese-instruct-evol|自然语言处理数据集|中文语言模型数据集

收藏
hugging_face2023-05-15 更新2024-03-04 收录
自然语言处理
中文语言模型
下载链接:
https://hf-mirror.com/datasets/silk-road/Wizard-LM-Chinese-instruct-evol
下载链接
链接失效反馈
资源简介:
Wizard-LM-Chinese数据集是基于MSRA的Wizard-LM数据集,通过翻译指令并调用GPT获得答案的数据集。该数据集包含了许多难度超过Alpaca的指令。在中文问题翻译过程中,可能会有少量指令注入导致翻译失败的情况。中文回答是根据中文问题再进行问询得到的。
提供机构:
silk-road
原始信息汇总

数据集概述

数据集名称

  • Wizard-LM-Chinese

数据集描述

  • 基于MSRA的Wizard-LM数据集,通过翻译指令并调用GPT获得答案。
  • 包含难度超过Alpaca的指令。
  • 存在少量因指令注入导致的中文翻译失败情况。
  • 中文回答是根据中文问题再进行问询得到的。

语言

  • 中文 (zh)
  • 英文 (en)

任务类别

  • 文本生成 (text-generation)
  • 问答 (question-answering)

数据集大小

  • 10K<n<100K

许可

  • CC-BY-4.0

相关数据集计划

  • [x] WizardLM的中文翻译已发布
  • [ ] Coco Caption的中文翻译
  • [ ] CoQA的中文翻译
  • [ ] CNewSum的Embedding数据
  • [ ] 增广的开放QA数据
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

yahoo-finance-data

该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。

huggingface 收录

12306车次数据库

本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。

github 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录