text-summarization

Hugging Face2025-08-02 更新2025-08-03 收录

下载链接：

https://huggingface.co/datasets/code-switching/text-summarization

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三种配置（id-en、jv-id-en、su-id-en），每种配置都有对话ID、对话内容、初始话题、三个总结以及三个熟悉度检查的布尔字段。数据集分为训练集和测试集，每种配置的训练集和测试集都有对应的文件路径。数据集主要用于对话总结和熟悉度检查任务。

创建时间：

2025-08-01

原始信息汇总

数据集概述

基本信息

数据集名称: code-switching/text-summarization
配置数量: 3
配置名称: id-en, jv-id-en, su-id-en

配置详情

配置1: id-en

特征:
- dialogue_id (int64)
- dialogue (string)
- initial_topic (string)
- summary1 (string)
- summary2 (string)
- summary3 (string)
- familiarity_check1 (bool)
- familiarity_check2 (bool)
- familiarity_check3 (bool)
数据划分:
- train: 1个样本，5296字节
- test: 99个样本，464633字节
下载大小: 676756字节
数据集大小: 469929字节

配置2: jv-id-en

特征:
- dialogue_id (int64)
- dialogue (string)
- initial_topic (string)
- summary1 (string)
- summary2 (string)
- summary3 (string)
- familiarity_check1 (bool)
- familiarity_check2 (bool)
- familiarity_check3 (bool)
数据划分:
- train: 1个样本，5964字节
- test: 99个样本，488853字节
下载大小: 662500字节
数据集大小: 494817字节

配置3: su-id-en

特征:
- dialogue_id (int64)
- dialogue (string)
- initial_topic (string)
- summary1 (string)
- summary2 (string)
- summary3 (string)
- familiarity_check1 (bool)
- familiarity_check2 (bool)
- familiarity_check3 (bool)
数据划分:
- train: 1个样本，4974字节
- test: 99个样本，545269字节
下载大小: 718965字节
数据集大小: 550243字节

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言文本摘要数据集的构建具有重要意义。该数据集采用多源对话文本作为基础语料，通过专业标注团队为每条对话生成三个独立摘要，并配备熟悉度验证标记。数据涵盖印度尼西亚语-英语、爪哇语-印度尼西亚语-英语以及巽他语-印度尼西亚语-英语三种语言组合，每种配置包含训练集和测试集，其中测试集规模显著大于训练集，体现了典型的研究型数据集划分策略。

使用方法

该数据集适用于多语言文本摘要模型的训练与评估。研究者可通过加载不同语言配置来开展特定语言的摘要任务，或进行跨语言迁移学习研究。每个样本的多重摘要标注支持摘要多样性评估，而熟悉度标记可用于辅助分析模型性能。典型使用场景包括：加载指定语言配置分割训练测试数据，基于三个参考摘要计算ROUGE等自动评估指标，以及利用熟悉度标记进行错误分析。数据集的标准化结构也便于与现有NLP工具链集成。

背景与挑战

背景概述

text-summarization数据集聚焦于多语言对话文本的自动摘要生成任务，该领域在自然语言处理中具有重要研究价值。数据集涵盖印尼语（id）、爪哇语（jv）、巽他语（su）与英语（en）的跨语言对话数据，通过提供对话ID、初始话题、多版本人工摘要及熟悉度标注，为低资源语言的语义压缩研究提供了基准。其构建体现了对东南亚语言生态的关注，弥补了传统摘要数据集中非拉丁语系语言的不足，对推动多语言信息处理技术的均衡发展具有积极意义。

当前挑战

该数据集面临的核心挑战体现在语义压缩与跨语言迁移两个维度。对话文本特有的口语化表达和话题跳跃性，要求摘要模型具备深层语义理解而非表面特征提取；多语言配置中低资源语言的形态复杂性，加剧了语义忠实度与流畅度的平衡难度。数据构建过程中，方言变体的标注一致性保障、多版本摘要的质量控制，以及文化特定表达的跨语言对齐，均为需要攻克的技术难点。

常用场景

经典使用场景

在自然语言处理领域，text-summarization数据集以其多语言对话和摘要标注的特性，成为文本摘要任务的重要基准。研究者通常利用该数据集训练和评估自动摘要模型，特别是在跨语言摘要场景中，模型需要将印尼语、爪哇语等低资源语言的对话内容转化为简洁的英文摘要。数据集提供的多个参考摘要和熟悉度检查标注，为衡量摘要质量提供了多维度的评估标准。

解决学术问题

该数据集有效解决了低资源语言文本摘要研究中数据匮乏的核心难题。通过提供印尼语-英语、爪哇语-印尼语-英语等多语言平行语料，支持了跨语言迁移学习和低资源语言处理的创新研究。其包含的对话式文本结构和多样性摘要标注，为研究语境感知摘要生成和摘要一致性评估提供了理想实验平台，推动了摘要质量评估指标的发展。

实际应用

在实际应用中，该数据集支撑的摘要技术已广泛应用于多语言客服系统、会议记录自动生成等场景。特别是在东南亚地区，基于该数据集训练的模型能够将本地语言对话实时转化为英文摘要，显著提升了跨国企业的沟通效率。医疗咨询领域的应用则通过对话摘要生成，帮助医生快速把握患者病史的核心内容。

数据集最近研究