jurasova/newscrawl_enhanced_gender_balance

Name: jurasova/newscrawl_enhanced_gender_balance
Creator: jurasova
Published: 2024-05-13 14:21:52
License: 暂无描述

Hugging Face2024-05-13 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/jurasova/newscrawl_enhanced_gender_balance

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是我们工作的产物，主要研究文本数据中性别形式（特别是职业的男性和女性形式）的表示发展。我们使用了捷克语、德语、西班牙语和波兰语的Newscrawl数据集，并通过聚类和过滤技术（基于时间和主题信息）提取了性别平衡的数据。数据集因此以与Newscrawl相同的许可证发布，即Creative Commons CC0许可证（“无权利保留”）。我们提供了两种类型的文件：经过后处理的过滤数据（删除了链接、非常短的句子和仅由数字组成的句子）和未经过后处理的原始过滤数据。README还提供了一个表格，展示了原始数据和过滤数据中女性职业百分比的差异以及过滤数据的大小。

提供机构：

jurasova

原始信息汇总

数据集概述

数据集目的

本数据集旨在研究文本数据中性别形式（特别是职业的男性和女性形式）的表达发展。

数据来源与处理

来源：使用Newscrawl数据集的Czech、German、Spanish和Polish文档分割数据。
处理方法：通过时间信息和主题信息进行聚类和过滤，提取性别平衡的数据部分。

数据集内容

文件类型：
- {lang}_processed_data.json：经过后处理的过滤数据，移除了链接、过短的句子和仅由数字组成的句子。
- {lang}_clusters_data.txt：未经后处理的原始过滤数据，文档间以两个空行分隔。

数据集特征

性别职业比例变化：

语言原始数据 (%) 过滤数据 (%) 过滤数据大小 (句子数)

Czech 19.17 32.12 ~2.9M

German 17.61 24.79 ~28M

Spanish 33.11 40.77 ~1.3M

Polish 15.20 27.53 ~1.5M

许可证

数据集遵循与Newscrawl相同的许可证，即Creative Commons CC0 1.0 Universal (CC0 1.0) Public Domain Dedication。

5,000+

优质数据集

54 个

任务类型

进入经典数据集

语言	原始数据 (%)	过滤数据 (%)	过滤数据大小 (句子数)
Czech	19.17	32.12	~2.9M
German	17.61	24.79	~28M
Spanish	33.11	40.77	~1.3M
Polish	15.20	27.53	~1.5M