scit

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/lukfre/scit

下载链接

链接失效反馈

官方服务：

资源简介：

SCIT - Simple Culture - IT 是一个关于意大利文化概念和实体的简单事实性问题集合，数据通过合成方式生成（基于模板和开放SLM）。数据集包含两种配置：high_popularity（59,725个测试样本）和high_popularity_1K（1,244个测试样本，设为默认配置）。主要特征包括：id（大字符串）、wiki_id（int64）、标题（大字符串）、问题（大字符串）、证据（大字符串）、is_person（布尔值）、2023-2026年浏览量（int64）、语言链接数量（int64）和语言链接内容（大字符串）。high_popularity_1K配置额外包含band（大字符串）特征。数据集适用于文化相关的事实问答任务和自然语言处理研究。

SCIT - Simple Culture - IT is a collection of simple factual questions focused on Italian cultural concepts and entities. The dataset is synthetically generated using templates and open SLMs. It includes two configurations: high_popularity (with 59,725 test samples) and high_popularity_1K (with 1,244 test samples, designated as the default configuration). Its core features include: id (large string), wiki_id (int64), title (large string), question (large string), evidence (large string), is_person (boolean), 2023–2026 page views (int64), number of language links (int64), and language link content (large string). The high_popularity_1K configuration additionally includes the band (large string) feature. This dataset is suitable for cultural-related factual question answering tasks and natural language processing research.

创建时间：

2026-04-11

原始信息汇总

SCIT - Simple Culture - IT 数据集概述

数据集基本信息

数据集名称：SCIT - Simple Culture - IT
数据集地址：https://huggingface.co/datasets/lukfre/scit
数据集描述：一个关于意大利文化概念和实体的简单事实性问题的集合，通过合成方式生成（基于模板和开放SLMs）。

数据集配置

数据集包含两种配置。

配置一：high_popularity

配置名称：high_popularity
数据特征：
- id (large_string)
- wiki_id (int64)
- title (large_string)
- question (large_string)
- evidence (large_string)
- is_person (bool)
- views_2023-2026 (int64)
- n_langlinks (int64)
- langlinks (large_string)
数据划分：
- 划分名称：test
- 样本数量：59725
- 字节大小：31794343
下载大小：17285153
数据集大小：31794343

配置二：high_popularity_1K

配置名称：high_popularity_1K
是否为默认配置：是
数据特征：
- band (large_string)
- id (large_string)
- wiki_id (int64)
- title (large_string)
- question (large_string)
- evidence (large_string)
- is_person (bool)
- views_2023-2026 (int64)
- n_langlinks (int64)
- langlinks (large_string)
数据划分：
- 划分名称：test
- 样本数量：1244
- 字节大小：657936
下载大小：375481
数据集大小：657936

搜集汇总

数据集介绍

构建方式

在文化信息学领域，SCIT数据集通过系统化方法构建，聚焦于意大利文化概念与实体的简单事实性问题。该数据集采用模板驱动与开放小语言模型相结合的合成生成策略，从维基百科等结构化知识源中提取文化页面信息，并基于预定义标准筛选高流行度条目。每个数据样本均包含标题、问题、证据文本及多语言链接等元数据，确保内容的文化相关性与事实准确性。

使用方法

该数据集适用于跨语言文化理解、事实性问答系统及知识图谱构建等自然语言处理任务。研究人员可通过HuggingFace平台直接加载‘high_popularity’或‘high_popularity_1K’配置，利用其结构化字段进行模型训练与评估。证据字段可作为标准答案参考，而多语言链接信息支持跨文化对比分析，页面访问量数据则能为文化影响力研究提供实证基础。

背景与挑战

背景概述

在跨文化自然语言处理领域，对特定文化语境下的知识进行建模与理解是一项基础且关键的研究课题。SCIT（Simple Culture - IT）数据集应运而生，其核心聚焦于意大利文化概念与实体的简单事实性问答。该数据集由研究团队通过合成方法构建，结合了模板生成与开放小语言模型技术，旨在为机器理解意大利文化背景知识提供结构化、可评估的基准资源。其设计初衷在于填补文化特异性问答数据资源的空白，推动跨语言文化智能系统的发展，对促进文化感知计算模型的研究具有重要价值。

当前挑战

SCIT数据集所针对的核心领域挑战在于如何让机器准确理解并回答涉及特定文化背景的简单事实性问题，这要求模型不仅掌握通用知识，还需具备深层的文化语境感知与实体关联能力。在构建过程中，挑战主要体现在如何系统性地定义“文化页面”的边界与范畴，以及如何通过合成方法（包括模板与开放小语言模型）生成既保持事实准确性、又覆盖多样文化实体的高质量问答对，同时确保生成内容在语言表达上的自然性与文化相关性。

常用场景

经典使用场景

在跨文化信息检索与自然语言处理领域，SCIT数据集为研究者提供了一个聚焦意大利文化概念的基准测试平台。该数据集通过合成生成的简单事实性问题，涵盖了高知名度文化实体，如历史人物、艺术流派或地理地标，使得模型能够在特定文化语境下进行知识验证与推理。经典使用场景包括评估大型语言模型对意大利文化知识的掌握程度，以及测试信息检索系统在跨语言环境中的准确性与鲁棒性。

解决学术问题

SCIT数据集主要针对文化偏见与知识覆盖不均的学术研究问题。在自然语言处理模型中，非英语文化数据往往代表性不足，导致模型在特定文化语境下表现不佳。该数据集通过提供结构化、模板生成的意大利文化问题，帮助量化模型的文化知识缺口，并为跨文化适应性研究提供实证基础。其意义在于推动多语言AI系统的公平性评估，促进文化多样性在人工智能领域的整合。

实际应用

在实际应用中，SCIT数据集可服务于文化教育技术与旅游信息系统的开发。例如，基于该数据集训练的问答系统能够为学习者提供意大利历史、艺术等领域的知识查询服务，或集成到智能导游应用中，为游客提供精准的文化实体解说。此外，它还可用于优化多语言搜索引擎，提升对意大利文化相关查询的响应质量，增强数字人文工具的文化敏感性。

数据集最近研究