m-a-p/COIG-CQIA|自然语言处理数据集|数据质量数据集
收藏数据集概述
数据集名称: COIG-CQIA
全称: Chinese Open Instruction Generalist - Quality is All You Need
目的: 提供高质量的中文指令微调数据集,旨在帮助中文NLP社区训练模型以响应指令。
数据来源: 主要来源于中文互联网的问答及文章。
数据处理: 数据经过深度清洗、重构及人工审核。
语言: 中文
数据集大小: 10K<n<100K
任务类别:
- 问答
- 文本分类
- 文本生成
- 文本到文本生成
数据详情
数据格式
json { "instruction": "示例问题或者指令。", "input": "示例问题或指令的补充。", "output": "对输入的回复。", "task_type": { "major": ["问答"], "minor": ["百科问答"] }, "domain": ["百科", "医疗"], "answer_from": "human", "human_verified": true, "copyright": "作者及版权信息。", }
数据字段
instruction
: 指令或问题。input
: 问题或指令的补充内容。output
: 对应的回答。task_type
: 任务类型。domain
: 领域分类。answer_from
: 回答来源(人类或模型)。human_verified
: 是否经过人工验证。copyright
: 版权信息。
数据分类及数量
- 社交媒体&论坛:总量13935条
- 知乎:8837条
- 豆瓣:3132条
- 小红书:1508条
- Segmentfault:458条
- 通用百科:总量4571条
- 百科文章:980条
- 中国大百科全书:1706条
- wikiHow中文:1876条
- 通用NLP任务:总量3000条
- COIG-PC-Core:3000条
- 考试&试题:总量2897条
- 高考&中考:2000条
- 研究生入学考试:475条
- 逻辑推理题:422条
- 人类价值观:总量1007条
- 100poison:906条
- COIG-human-value:101条
- 中国传统文化:总量503条
- 中华传统文化试题:232条
- 成语释义:112条
- 古诗词撰写:47条
- 文言文互译:112条
- 金融&经管领域:总量11289条
- MBA百科:10689条
- 金融NLP任务:600条
- 医疗领域:总量8537条
- 医疗百科:8351条
- 医疗文章:186条
- 法律领域:总量2645条
- 法律研究生入学考试:2645条
使用建议
用户应注意数据集的风险、偏差和技术限制。

中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
光伏电站发电量预估数据
1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。
浙江省数据知识产权登记平台 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录