five

glossAPI/istorima

收藏
Hugging Face2026-05-06 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/glossAPI/istorima
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从Istorima档案收集的口述历史内容,包括转录的访谈和相关的元数据。材料主要反映个人叙事和生活故事,使用希腊语,涵盖了广泛的社会、文化和历史主题。数据集包含13,548条口述历史访谈记录,每条记录都有唯一的标识符以及文本字段(如标题、摘要、转录文本、说话者姓名、研究者姓名等)。此外,还包括主题和分类信息、地理引用、时间属性等元数据字段。数据集还包含数值和布尔特征,如持续时间、年龄限制标志和按需访问标志。数据集的统计信息显示,共有96,479,186个单词和138,933,365个标记,大小为416.02 MB。数据集采用Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)许可证。

This dataset consists of oral history content collected from the Istorima archive, including transcribed interviews and associated metadata. The material reflects personal narratives and life stories, primarily in Greek, covering a wide range of social, cultural, and historical topics. The dataset contains 13,548 oral history interview records, each with a unique identifier and textual fields such as title, summary, transcription, speaker_name, and researcher_name. Additional metadata fields include thematic and categorical information, geographic references, and temporal attributes. The dataset also includes numerical and boolean features such as duration_minutes, is_age_restricted, and is_on_demand. The dataset statistics show 96,479,186 words and 138,933,365 tokens, with a size of 416.02 MB. The dataset is licensed under the Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0).
提供机构:
glossAPI
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Istorima档案库,汇集了13,548份希腊语口述历史访谈记录。每份记录均包含唯一标识符,并辅以标题、摘要、完整转录文本、受访者及研究者姓名等多重文本信息。数据以表格形式结构化呈现,涵盖主题标签、地理名称、访谈地点等类别属性,以及访谈时长、年龄限制等数值与布尔型特征。转录文本遵循 '[说话者缩写]: 文本' 的格式,按话语轮次分行排列。部分因隐私或版权限制的访谈,其转录字段或使用化名标记,或留为空值。
特点
该数据集最为突出的特点在于其丰富而精细的元数据体系,不仅囊括高层的主题分类与细粒度的关键词标签,还整合了来自GeoNames数据库的地理位置信息,为空间叙事分析提供了可能。时间维度方面,数据涵盖访谈日期与发布日期,可一窥从记录到公开的时差。此外,通过记录年龄限制与按需访问状态,数据集清晰标示了内容访问权限的分级,为研究伦理与数据开放性的探讨提供了具体案例。
使用方法
鉴于其文本分类的任务标签,该数据集天然适用于自然语言处理中的文本分类模型训练。研究者可利用摘要与转录文本进行主题推断或情感分析,结合主题与标签字段开展多标签分类任务。地理与时间元数据赋能时空叙事研究,而布尔型字段可用于训练内容敏感度预测模型。数据集以CSV等表格格式加载后,可通过HuggingFace的datasets库便捷调用,支持标准机器学习流水线的构建与评估。
背景与挑战
背景概述
在口述历史研究领域,数字人文的兴起为大规模、系统性地收集与分析个人叙事开辟了新途径。Istorima数据集始建于2019年,由Istorima档案馆联合Mozilla数据集体共同发布,汇集了13,548份希腊语口述历史访谈记录,涵盖生活故事、社会变迁与文化习俗等多元主题。该数据集以精细化的元数据架构为特色,包含转录文本、主题标签、地理参照及时间属性,旨在为文本分类、命名实体识别等自然语言处理任务提供丰富的非正式希腊语语料资源。其发布不仅推动了低资源语言的口语语料库建设,更成为连接历史记忆与计算分析的桥梁,在数字人文与语言技术交叉领域产生了深远影响。
当前挑战
构建Istorima数据集面临的核心挑战在于处理口述历史的非标准化特性。转录文本包含大量对话式结构、方言表达及非连续叙事,给文本分类与命名实体识别带来领域难题。同时,敏感内容需年龄限制访问,297份访谈仅供申请调阅,导致转录信息缺失,影响模型训练的完整性。元数据层面,地理名称需从自由文本中提取并关联GeoNames数据库,标签体系涵盖高层面主题与细粒度关键词,一致性维护复杂。此外,数据集遵循非商业许可,限制了其在商业研究中的广泛应用,进一步凸显了在保护隐私与促进学术共享间寻求平衡的挑战。
常用场景
经典使用场景
在自然语言处理与数字人文交叉领域,Istorima数据集承载了13,548份希腊语口述历史访谈转录文本及其丰富的元数据,涵盖了从个人生活叙事到社会文化议题的广泛主题。其经典使用场景聚焦于基于希腊语的文本分类任务,特别是主题分类与情感分析,研究人员可依托“themes”与“tags”字段构建多标签分类模型,以自动解析口述材料中的文化主题与情感倾向。此外,该数据集亦为命名实体识别提供了独特资源,其中“geonames”字段包含地理实体及其经纬度信息,支持在非结构化叙事文本中提取地点、人物等专有名词,从而推进对希腊本土语言现象的深度学习研究。转录文本的对话结构(含说话者标注)进一步拓展了对话系统与篇章分析的实验边界,使其成为评估希腊语自然语言处理模型的稀缺基准。
实际应用
在实际应用中,Istorima数据集可服务于文化遗产数字化工程与公共历史教育平台,例如支持开发自动标注工具以整理大规模口述档案库,降低人工编目的时间成本。图书馆、博物馆和档案馆可利用基于该数据集训练的分类模型,为希腊语口述访谈自动生成主题标签与地理索引,从而提升馆藏资源的可检索性与跨库互联水平。此外,该数据集还适用于构建面向公众的交互式叙事地图,将音频内容与地理坐标动态关联,使用户能够按地点探索相关口述故事,为文化旅游和社区记忆保存提供技术基础。在新闻与媒体领域,其转录文本可用于训练自动摘要或新闻引用检索工具,助力记者高效挖掘历史访谈中的关键信息。
衍生相关工作
围绕Istorima数据集已衍生出多项经典工作,包括希腊语文本分类基准模型的构建、口述历史主题演化分析以及多模态(音频-文本)对齐研究。基于其元数据中的时间戳(date与published_at),学者能够开展跨时间维度的叙事主题变迁分析,例如检测2019至2024年间希腊社会议题焦点的转向。同时,该数据集推动了希腊语命名实体识别工具的迭代,相关模型在“geonames”地理实体的标注基础上得到了针对性优化。在对话分析领域,其转录格式([Speaker Initials]: text)被用作训练角色识别与说话人归因系统的标准素材,促进了口语对话语料库在希腊语研究中的规范化应用。此外,该数据集还催生了关于访谈隐私处理(如匿名化伪名替换)的方法论探讨,为类似口述资料的负责任发布与使用提供了实践范例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作