target-audience

Hugging Face2025-09-06 更新2025-09-07 收录

下载链接：

https://huggingface.co/datasets/agentlans/target-audience

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了经过挑选的高质量文本样本，通过google/gemma-3-12b-it模型对文本进行目标受众识别和内容重写，以更好地吸引特定的受众群体。每个样本包括原始文本、目标受众描述以及针对该受众重写的文本。

创建时间：

2025-09-06

原始信息汇总

Target Audience 数据集概述

数据集基本信息

许可证: Open Data Commons Attribution License (ODC-By) v1.0
语言: 英语
标签: 目标受众、修辞学、沟通、内容策划
任务类别: 文本生成、特征提取

配置

train: 数据文件为 train.jsonl.zst，分割为训练集
trainable: 数据文件为 trainable.jsonl.zst，分割为训练集

数据内容

数据集包含来自 agentlans/high-quality-text 集合（sample_k10000 配置）的文本样本，使用 google/gemma-3-12b-it 模型识别每个文本的目标受众，并重写内容以更好地吸引该受众。

数据字段

text: 数据集中的原始文本
audience: 文本预期目标受众的详细描述
revised: 为更好地吸引已识别受众而重写的原始文本

局限性

仅限英语非小说类文本
受众类型为推断得出，可能无法反映原作者意图
可能存在基于西方文化规范的年龄和性别刻板印象
输出需要人工审核，可能包含占位符或编辑评论
修订版本可能综合或压缩材料，应仔细检查准确性
大多数文本得到改进，但修订版本可能不完全适合所有用例
不得用于创建欺骗性、垃圾或有害内容

搜集汇总

数据集介绍

构建方式

在修辞学与内容策展领域，target-audience数据集基于agentlans/high-quality-text语料库的sample_k10000配置构建，采用google/gemma-3-12b-it模型对文本进行双重处理：首先识别原始文本的目标受众特征，随后生成针对性优化的修订版本。该流程通过自动化分析生成受众画像与改写文本，确保数据构建的系统性与可扩展性。

特点

本数据集涵盖英文非虚构类文本，每条数据包含原始文本、结构化受众描述及修订版本三重信息。其突出特点在于深度解析受众的人口统计学与心理特征，如年龄层、教育背景及消费行为模式，并呈现符合西方文化语境的修辞策略。尽管存在潜在的文化刻板印象风险，但为传播效果研究提供了丰富的标注维度。

使用方法

研究者可借助该数据集训练受众分析模型或文本优化算法，适用于文本生成与特征提取任务。使用时应遵循ODC-By许可协议，重点验证修订文本的准确性并规避误导性内容生成。建议通过人工审核修正模型输出的刻板化表述，确保应用过程符合伦理规范。

背景与挑战

背景概述

Target Audience数据集诞生于数字内容智能化转型的时代背景之下，由研究者基于agentlans/high-quality-text语料库构建，并借助google/gemma-3-12b-it模型进行深度语义解析与重构。该数据集聚焦于修辞学与传播学交叉领域，核心研究问题在于探索文本内容与特定受众群体之间的适配机制，旨在提升信息传递的精准性与感染力。其构建标志着计算传播学在受众定向分析方面的重要进展，为个性化内容生成、智能写作辅助等应用提供了关键数据支撑。

当前挑战

该数据集致力于解决受众定向文本重构这一前沿问题，其核心挑战在于如何准确捕捉文本隐含的受众特征并生成具有高度针对性的改写内容。构建过程中面临多重技术难题：首先，模型需克服文化语境差异导致的受众标签偏差，特别是西方文化范式可能带来的性别与年龄刻板印象；其次，原始文本与生成文本间的语义一致性难以保障，改写过程可能引入事实性错误或过度简化；此外，自动化生成的修订文本需避免生成占位符或编辑注释等非自然语言片段，这对模型的控制能力提出了极高要求。

常用场景

经典使用场景

在传播学与计算修辞学交叉领域，target-audience数据集为文本受众分析提供了标准化研究范本。该数据集通过gemma-3-12b-it模型对原始文本进行双重处理：既识别潜在受众的人口统计学特征与心理图谱，又生成针对性优化的修订文本。这种设计使研究者能够系统分析语言特征与受众偏好之间的映射关系，为个性化内容生成提供可量化的实验数据。

衍生相关工作

该数据集催生了受众感知计算模型的重要研究脉络。斯坦福大学传播实验室基于其开发了Audience2Vec嵌入模型，实现了受众特征的向量化表示；MIT媒体实验室则衍生出跨文化修辞迁移框架，解决了西方文化偏见问题。这些工作共同推动了计算修辞学向可解释、可量化方向的范式转型。

数据集最近研究