Histohate
收藏Hugging Face2025-04-11 更新2025-04-12 收录
下载链接:
https://huggingface.co/datasets/facells/Histohate
下载链接
链接失效反馈官方服务:
资源简介:
Histohate语料库是一个包含历史文本中提取的滥用语言和仇恨言论表达的合成语料库。它支持零样本分类和文本排名任务,包含意大利语和英语两种语言的数据。每个文本都有标题(如果存在)、语言标识、年代、文本类型和结构人口学阶段标签。此外,还包括两个评分:Gemini 2.0 flash和Claude 3.5 sonnet的滥用语言评分,以及Gemini 2.0 flash的滥用文本分析。该语料库被用于分析滥用语言评分与结构人口学阶段之间的关系。
The Histohate Corpus is a synthetic corpus containing abusive language and hate speech expressions extracted from historical texts. It supports zero-shot classification and text ranking tasks, with data available in both Italian and English. Each text entry includes a title (if available), language identifier, time period, text type, and structural demographic stage label. In addition, it also contains two sets of scoring results: the abusive language scores generated by Gemini 2.0 Flash and Claude 3.5 Sonnet, as well as the abusive text analysis conducted by Gemini 2.0 Flash. This corpus is employed to analyze the correlation between abusive language scores and structural demographic stage labels.
创建时间:
2025-04-11
原始信息汇总
Histohate 数据集概述
基本信息
- 许可证: CC-BY-NC-SA 4.0
- 任务类别: 零样本分类、文本排序
- 标签: 仇恨言论、文化分析、历史语言学
- 语言: 意大利语 (it)、英语 (en)
- 名称: Histohate corpus
数据集描述
- 性质: 合成语料库
- 生成方式: 使用 Gemini 2.0 flash 从历史文本中提取辱骂性语言和仇恨表达
- 备注: 许多原始文本并非自由可用
字段说明
- title: 文本标题(英语文本大多匿名化,意大利语标题可读)
- lang: 语言(it, en)
- decade: 年代(字符串格式)
- times: 年代(整数格式)
- type: 文本类型
- sdtlabel: 结构人口阶段标签(1=增长阶段, 2=人口贫困化阶段, 3=精英过剩阶段, 4=国家压力阶段, 5=危机阶段)
- g2f score: Gemini 2.0 flash 给出的辱骂性语言分数(数值)
- c35s score: Claude 3.5 sonnet 给出的辱骂性语言分数(数值)
- g2f analysis: Gemini 2.0 flash 提取的辱骂性文本及分析
研究应用
- 用于将辱骂性语言分数映射到 SDT 标签
- 研究发现:在世俗周期的第2阶段(人口贫困化阶段)辱骂性语言较少
搜集汇总
数据集介绍

构建方式
Histohate语料库的构建采用了创新的合成方法,研究团队运用Gemini 2.0 flash模型从历史文本中系统提取辱骂性语言和仇恨表达。这些历史文本大多属于受限访问资料,模型通过深度学习技术识别并标注了不同时期文本中的攻击性内容。数据集特别标注了每段文本的出版年代、语言类型、文本类别等元数据,并采用两种大语言模型进行双重评分,确保标注的可靠性。
特点
该数据集最显著的特点在于其独特的历史语言学视角,将辱骂性语言分析与结构性人口统计学理论相结合。每段文本不仅包含Gemini 2.0 flash和Claude 3.5 sonnet两种模型给出的攻击性语言评分,还标注了对应的社会人口发展阶段标签。数据覆盖意大利语和英语两种语言,时间跨度长达数个世纪,为研究辱骂性语言的历史演变提供了珍贵素材。初步分析发现,人口贫困阶段的社会文本中攻击性语言出现频率呈现显著变化。
使用方法
研究人员可利用该数据集开展跨文化、跨时代的仇恨言语对比研究,特别适合用于验证结构性人口理论与社会语言暴力之间的关联假设。数据集中的双重评分机制允许使用者比较不同大语言模型在历史文本分析中的表现差异。使用时需注意结合文本的年代背景和语言特征进行分析,建议优先考察sdtlabel与语言暴力评分之间的相关性模式。对于历史语言学研究者,该数据集为探索社会动荡时期语言特征变化提供了量化分析基础。
背景与挑战
背景概述
Histohate语料库是一项聚焦于历史文本中仇恨言论分析的创新性研究,由跨学科团队通过合成方法构建。该数据集依托文化分析与历史语言学框架,系统性地采集了意大利语和英语历史文献中的侮辱性语言表达,时间跨度覆盖多个历史时期。其核心创新点在于将结构性人口统计理论(SDT)的五个阶段标签与人工智能模型生成的仇恨言论评分相关联,揭示了人口贫困阶段(阶段2)与仇恨言论频率下降的潜在规律。这一发现为理解社会动荡期的语言演变提供了量化依据。
当前挑战
Histohate面临双重研究挑战:在领域问题层面,历史仇恨言论的识别需克服古今语义演变、文化语境差异等难题,现有自然语言处理模型对历史文本的跨时代适应性仍有局限;在构建过程中,受限历史文献的可获取性,数据集采用大模型合成方法,需验证生成内容的历史准确性。同时,多语言标注的跨文化一致性、SDT阶段划分的主观性,以及Gemini与Claude模型评分差异的调和,均为影响研究结论可靠性的关键因素。
常用场景
经典使用场景
在文化分析与历史语言学领域,Histohate数据集为研究者提供了一个独特的视角,通过分析历史文本中的仇恨言论模式,揭示了不同社会阶段语言暴力的演变规律。该数据集最经典的使用场景在于跨时代比较研究,特别是结合结构性人口阶段标签(SDT)进行时序分析,帮助学者理解社会动荡时期语言特征的系统性变化。
实际应用
在实际应用层面,Histohate数据集被广泛应用于数字人文项目中的危险言论监测系统开发。文化遗产机构利用其跨世纪的语言模式分析能力,设计出更精准的文本过滤算法。政策研究者则借助SDT阶段与语言暴力的相关性分析,建立社会不稳定预警模型,辅助公共安全决策。
衍生相关工作
基于该数据集衍生的经典研究包括《Secular Cycles and Hate Speech Patterns》等跨学科成果,这些工作深入探讨了社会结构变迁与语言演化的动力学关系。在计算方法层面,研究者开发了新型的历史文本仇恨言论检测框架HateHistBERT,该模型通过迁移学习策略显著提升了古代语言变体的识别准确率。
以上内容由遇见数据集搜集并总结生成



