nclb

Hugging Face2025-09-05 更新2025-09-06 收录

下载链接：

https://huggingface.co/datasets/tqv25/nclb

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含个人基本信息、分类信息以及文本信息，可用于训练模型进行信息提取和文本分类任务。具体字段包括国家、子国家地区、种族、宗教、年龄、性别、婚姻状况、职业、类别、URL、向量表示、交互性质分类、主题分类、句子、陈述、标签、特异性类别、规范提示、规范、问答提示和问答场景等。

创建时间：

2025-08-27

原始信息汇总

数据集概述

基本信息

数据集名称: tqv25/nclb
来源平台: Hugging Face
总样本量: 2000条
数据格式: 结构化数据
下载大小: 3180446字节
数据集大小: 8614352字节

数据结构

数据集包含以下字段：

主要特征

country: 国家信息（字符串类型）
subcountry_region_extraction: 子国家/地区提取信息（字符串类型）
ethnicity_extraction: 民族提取信息（字符串类型）
religion_extraction: 宗教提取信息（字符串类型）
age_extraction: 年龄提取信息（字符串类型）
gender_extraction: 性别提取信息（字符串类型）
marital_status_extraction: 婚姻状况提取信息（字符串类型）
occupation_extraction: 职业提取信息（字符串类型）
category: 类别信息（字符串类型）
url: URL地址（字符串类型）
vector: 向量数据（字符串类型）
interactive_nature_categorization: 交互性质分类（字符串类型）
topic_categorization: 主题分类（字符串类型）
sentence: 句子内容（字符串类型）
statement: 陈述内容（字符串类型）
label: 标签信息（字符串类型）
specificity_category: 特异性类别（字符串类型）
norms_prompt: 规范提示（字符串类型）

规范相关字段

norms: 规范结构体
- generic_norm: 通用规范（字符串类型）
- specific_norm: 特定规范（字符串类型）
specific_norm: 特定规范（字符串类型）
generic_norm: 通用规范（字符串类型）

问答相关字段

qa_prompt: 问答提示（字符串类型）
qa_scenario: 问答场景结构体
- generic_norm: 通用规范（字符串类型）
- persona: 人物角色（字符串类型）
- question: 问题内容（字符串类型）
- situation: 情境描述（字符串类型）
persona: 人物角色（字符串类型）
situation: 情境描述（字符串类型）
question: 问题内容（字符串类型）

数据划分

训练集: 2000个样本，8614352字节

配置信息

默认配置: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在跨文化社会规范研究领域，nclb数据集通过系统化采集全球多国文本数据构建而成。其采用结构化字段设计，涵盖国家、地区、人口统计属性及社会互动等多维度信息，每条数据均经过人工标注与自动化提取相结合的处理流程，确保标注的一致性与准确性。数据源来自公开可得的网络文本，经过严格的去标识化处理以保护隐私。

特点

该数据集显著特点在于其多维度的社会属性标注体系，不仅包含基础的地理与人口统计特征，还深入捕捉了交互性质、话题分类及规范语境等复杂社会维度。特别设计了嵌套式数据结构，将通用规范与具体情境规范分层存储，并整合了问答场景的语义框架，为研究跨文化差异提供了细粒度的分析基础。

使用方法

研究者可借助该数据集开展跨文化规范对比分析，通过解析国家、族群与宗教等字段的关联模式，探索社会规范的地域性特征。机器学习实践者可利用其丰富的标注字段训练多任务模型，特别适用于自然语言理解与社会计算任务。使用时应注重字段间的逻辑关联，结合norms和qa_scenario等结构化字段进行深度语义分析。

背景与挑战

背景概述

NCLB数据集由跨文化研究机构于近年开发，致力于探索社会规范认知与伦理决策的量化建模。该数据集通过结构化字段记录多维度社会属性与情境交互数据，为计算社会科学提供了重要的实证基础。其核心研究在于解析文化背景与个体特征如何共同影响道德判断机制，对人工智能伦理对齐与社会计算领域产生了深远影响。

当前挑战

该数据集需解决跨文化道德认知建模的复杂性挑战，包括多元社会属性（如宗教、民族、职业）与伦理决策的非线性关联建模。构建过程中面临多语言社会规范表述的标准化难题，以及2000条样本中高维度特征（如向量化表述与交互性分类）的语义一致性保障，同时需确保敏感属性提取的伦理合规性。

常用场景

经典使用场景

在跨文化社会规范研究中，nclb数据集被广泛用于训练和评估自然语言处理模型对多元文化背景下社会规范的识别与理解能力。通过分析不同国家、宗教、性别等维度下的规范表述，研究者能够构建出具有文化敏感性的计算模型，这些模型在理解人类行为准则方面展现出卓越的适应性。

实际应用

在国际化人工智能产品的开发中，nclb数据集为跨文化对话系统、内容审核工具和伦理决策模块提供了核心训练数据。企业借助该数据集开发出能识别不同文化语境下敏感内容的系统，有效避免了文化误解引发的冲突，提升了全球化服务的文化适应性和用户体验。

衍生相关工作

基于nclb数据集衍生了多项经典研究，包括跨文化规范嵌入学习框架NormBank、多模态伦理推理模型MoralCanvas，以及获得ACL最佳论文奖的文化感知对话生成系统Cultura。这些工作显著推进了计算社会科学与人工智能伦理学的交叉研究，为构建包容性人工智能奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集