CORGI-PM|性别偏见数据集|语料库数据集
收藏数据集概述
数据集名称:CORGI-PM
数据集描述:CORGI-PM是一个包含32.9k句子的中文语料库,专门用于性别偏见探测和缓解。该数据集通过特定的标注方案,为中文语境下的性别偏见提供了高质量的标签。
数据集结构
偏见语料库
-
数据格式:
.npy
二进制文件 -
数据结构: python { train:{ ori_sentence: [...], bias_labels: [...], edit_sentence: [...] }, valid:{...}, test:{...} }
-
内容说明:
ori_sentence
:原始句子bias_labels
:偏见类型,以one-hot编码存储edit_sentence
:由人工标注者去偏见后的句子
非偏见语料库
-
数据格式:
.npy
二进制文件 -
数据结构: python { train:{ text: [...] }, valid:{...}, test:{...} }
-
内容说明:仅包含原始文本,无需额外标注。
数据集使用
- 加载示例: python import numpy as np all_data = np.load(dataset/CORGI-PC_splitted_biased_corpus_v1.npy, allow_pickle=True).item() non_bias_corpus = np.load(dataset/CORGI-PC_splitted_non-bias_corpus_v1.npy, allow_pickle=True).item()
引用信息
bibtex @misc{https://doi.org/10.48550/arxiv.2301.00395, doi = {10.48550/ARXIV.2301.00395}, url = {https://arxiv.org/abs/2301.00395}, author = {Zhang, Ge and Li, Yizhi and Wu, Yaoyao and Zhang, Linyuan and Lin, Chenghua and Geng, Jiayi and Wang, Shi and Fu, Jie}, title = {CORGI-PM: A Chinese Corpus For Gender Bias Probing and Mitigation}, year = {2023}, publisher = {arXiv} }

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录