Tech and Society corpus

github2020-05-29 更新2024-05-31 收录

下载链接：

https://github.com/techandsociety/techandsocietycorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集记录了技术产品的行为，重点关注其可能存在的社会或政治偏见。原始数据尽可能中立地采样，用户可以添加自己的主观标签，生成带有主观标签的数据。

This dataset documents the behaviors of technological products, with a particular focus on potential social or political biases. The original data is sampled as neutrally as possible, allowing users to add their own subjective labels to generate data with subjective annotations.

创建时间：

2019-08-05

原始信息汇总

数据集概述

数据集名称

Tech and Society Corpus

数据集目的

旨在记录各种科技产品的行为，评估其可能存在的社会偏见或对社会的影响。

数据收集方法

原始数据以尽可能中立的方式进行采样。
用户可以对原始数据添加主观标签，生成带有主观性的标记数据。

数据版本

v1

数据收集时间：2019年7月21日至2019年8月4日
数据收集频率：每小时一次
搜索平台：Google News
查询关键词：
- "donald trump"
- "joe biden"
- "kamala harris"
- "elizabeth warren"
- "hillary clinton"
- "ilhan omar"
- "andrew yang"
- "bernie sanders"
- "climate change"

数据集示例代码

提供示例代码以从原始数据和标记数据中创建统计信息。

搜集汇总

数据集介绍

构建方式

Tech and Society语料库的构建旨在记录技术产品的行为，特别是其潜在的社会或政治偏见。数据收集过程力求中立，通过定时任务（cron job）从Google News中每小时采样一次，时间跨度为2019年7月21日至8月4日。采样内容涵盖多个关键词，如政治人物姓名和热门话题。数据收集过程中，服务器未使用任何用户身份或传递cookie信息，以确保数据的客观性。

特点

该数据集的核心特点在于其专注于技术产品行为的社会影响分析，尤其是潜在的偏见问题。数据集提供了原始数据，用户可根据需求添加主观标签，形成带有主观标注的数据。此外，数据集还包含用于生成统计信息的示例代码，便于用户进行深入分析。数据集的版本管理通过GitHub实现，确保了数据的可追溯性和透明性。

使用方法

使用Tech and Society语料库时，用户首先可以访问原始数据，并根据研究需求添加自定义的主观标签。数据集附带的示例代码可用于生成统计信息，帮助用户快速了解数据分布和特征。由于数据集目前托管在GitHub上，用户可以通过版本控制功能追踪数据的变化。未来，随着数据规模的扩大，可能需要迁移到更适合大规模数据存储的平台。

背景与挑战

背景概述

Tech and Society语料库创建于2019年，由一组关注技术产品行为及其潜在社会或政治偏见的研究人员开发。该语料库的核心研究问题在于如何客观记录技术产品在新闻搜索中的表现，并评估其对社会的潜在影响。通过收集特定关键词在Google新闻中的搜索结果，研究人员旨在揭示技术产品在信息传播过程中可能存在的偏见。该语料库的创建为研究技术与社会互动提供了重要的数据支持，尤其在信息过滤、算法偏见等领域具有广泛的应用前景。

当前挑战

Tech and Society语料库面临的主要挑战包括两个方面。首先，在解决领域问题上，如何准确识别和量化技术产品在信息传播中的社会或政治偏见是一个复杂的问题，尤其是在数据量庞大且动态变化的情况下。其次，在构建过程中，研究人员需要确保数据的采集尽可能中立，避免引入任何主观偏见。此外，随着数据规模的扩大，现有的GitHub存储方式可能无法满足需求，寻找新的数据存储和管理方案也成为亟待解决的问题。这些挑战不仅影响数据的质量，也限制了语料库的扩展和应用范围。

常用场景

经典使用场景

Tech and Society corpus 数据集主要用于分析和评估技术产品在新闻媒体中的表现，特别是关注这些产品可能带来的社会或政治偏见。通过定期从Google News等新闻源收集数据，研究者可以追踪特定关键词如政治人物或热门话题的出现频率和语境，从而揭示技术产品在信息传播中的潜在偏见。

衍生相关工作

基于Tech and Society corpus 数据集，已经衍生出多项关于技术偏见和信息传播的研究。这些研究不仅深化了对技术产品在社会中角色的理解，还推动了相关领域如数据伦理、媒体研究和政治科学的交叉融合，促进了学术界对技术与社会互动机制的深入探讨。

数据集最近研究