ToxicityPrompts/RealToxicityPrompts|毒性评估数据集|语言模型数据集
收藏数据集概述
数据集名称
- 名称:Real Toxicity Prompts
数据集基本信息
- 语言:英语
- 许可证:Apache-2.0
- 多语言性:单语种
- 大小:100K<n<1M
- 数据来源:原始数据
- 任务类别:文本生成
- 标签:毒性、不适用于所有观众
数据集描述
- 摘要:RealToxicityPrompts是一个包含10万句子片段的数据集,用于帮助研究人员进一步解决模型中的神经毒性退化风险。
- 语言:英语
数据集结构
- 数据实例:每个实例包含一个提示及其元数据,包括文件名、起始和结束位置、挑战性标志、提示文本及其毒性评分(如亵渎、性暗示、身份攻击等),以及继续文本及其相应的毒性评分。
数据集创建
- 精选理由:数据集从OPEN-WEBTEXT CORPUS中选取句子,使用Perspective API提取毒性评分,以获得不同毒性水平的提示。
- 许可证信息:数据集的图像元数据根据Apache许可证授权。
引用信息
bibtex @article{gehman2020realtoxicityprompts, title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models}, author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A}, journal={arXiv preprint arXiv:2009.11462}, year={2020} }

中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9
该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。
huggingface 收录
THCHS-30
“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”
OpenDataLab 收录
NIST Thermochemical Database
NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。
webbook.nist.gov 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
