conversations-en2bn-1

Hugging Face2025-03-25 更新2025-03-26 收录

下载链接：

https://huggingface.co/datasets/intelsense/conversations-en2bn-1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了会话相关的信息，每个会话有唯一的ID，使用某种模型生成，包含多个对话轮次，每轮对话有角色和内容。同时，数据集中还包含语言类型信息、OpenAI的内容审查标签和分数，以及对话内容是否被标记为有问题或被编辑过的信息。训练集包含了540个示例。

This dataset contains conversation-related information. Each conversation has a unique ID, which is generated using a certain model, and includes multiple dialogue turns, with each turn containing a speaker role and corresponding content. Additionally, the dataset also covers language type information, OpenAI content moderation labels and scores, as well as information on whether the dialogue content is marked as problematic or has been edited. The training set consists of 540 examples.

创建时间：

2025-03-25

原始信息汇总

数据集概述

基本信息

数据集名称: conversations-en2bn-1
存储位置: https://huggingface.co/datasets/intelsense/conversations-en2bn-1
下载大小: 1982380字节
数据集大小: 4781149字节
训练集样本数: 740

数据结构

特征

conversation_id: 字符串类型，表示对话的唯一标识符。
model: 字符串类型，表示生成对话的模型。
conversation: 列表类型，包含以下字段：
- content: 字符串类型，表示对话内容。
- role: 字符串类型，表示对话角色。
turn: int64类型，表示对话的轮次。
language: 字符串类型，表示对话的语言。
openai_moderation: 列表类型，包含以下字段：
- categories: 结构体类型，包含多个布尔类型字段，表示不同类别的审核结果：
  - harassment
  - harassment/threatening
  - hate
  - hate/threatening
  - self-harm
  - self-harm/instructions
  - self-harm/intent
  - sexual
  - sexual/minors
  - violence
  - violence/graphic
- category_scores: 结构体类型，包含多个float64类型字段，表示不同类别的审核分数：
  - harassment
  - harassment/threatening
  - hate
  - hate/threatening
  - self-harm
  - self-harm/instructions
  - self-harm/intent
  - sexual
  - sexual/minors
  - violence
  - violence/graphic
- flagged: 布尔类型，表示是否被标记。
redacted: 布尔类型，表示是否被编辑。

数据划分

训练集: 包含740个样本，大小为4781149字节。

配置信息

默认配置:
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在跨语言对话研究领域，conversations-en2bn-1数据集通过系统化采集英语与孟加拉语双语对话构建而成。该数据集采用结构化存储方式，每条记录包含唯一会话ID、生成模型信息、多轮次对话内容及元数据标注，其中对话内容细分为发言角色和文本内容。特别值得注意的是，数据集整合了OpenAI的内容审核模块，对每段对话进行了11类敏感内容的二元分类检测和置信度评分，并标注是否需内容脱敏处理，为研究提供了多维度的安全评估指标。

特点

该数据集最显著的特征在于其精细的对话标注体系和全面的内容安全评估维度。750组对话样本均标注了语言类型、对话轮次等基础信息，同时通过嵌套式数据结构完整保留了原始对话的时序特征。独特的审核模块标注体系不仅包含骚扰、仇恨言论、自残等常规敏感类别，还细分出威胁性言论、图形暴力等子类，配合0-1区间的概率评分，为研究多语言对话安全提供了量化分析基础。对话文本采用非对称双语存储策略，既保持语言对的对应关系，又支持单语言研究需求。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，其标准化的字段结构适配主流NLP工具包。典型应用场景包括：基于conversation字段开展多轮对话质量分析，利用turn字段研究对话轮次演化规律，或结合openai_moderation中的分类标签开发内容过滤模型。对于孟加拉语处理任务，可联合language字段实现语种过滤。数据集采用Apache Arrow格式存储，支持内存映射读取，大规模处理时可结合transformers库实现流式加载，有效降低内存消耗。需注意redacted字段标识的脱敏样本在使用时应符合伦理规范。

背景与挑战

背景概述

conversations-en2bn-1数据集聚焦于跨语言对话研究领域，旨在促进英语与孟加拉语之间的自然语言交互。该数据集由专业研究团队构建，收录了750组双语对话实例，每条对话均标注了详细的元数据，包括对话角色、内容及语言标识。其核心价值在于为低资源语言处理任务提供了高质量的平行语料，特别是在多轮对话生成和机器翻译方向具有显著意义。数据集采用结构化存储方案，不仅包含原始对话文本，还整合了OpenAI的内容审核标签，为研究社区提供了兼具语言学价值和安全评估维度的基准资源。

当前挑战

该数据集面临双重挑战：在领域问题层面，低资源语言对间的语义对齐存在固有困难，孟加拉语复杂的形态变化和语序灵活性导致生成式模型易出现语法失真；对话场景中文化特定表达的准确转换亦构成显著障碍。在构建过程中，数据质量控制尤为关键，需平衡语料覆盖广度与深度，同时应对敏感内容识别难题——尽管采用自动化审核机制，但跨文化语境下的仇恨言论或暴力内容检测仍存在误判风险，这要求开发者设计多层次的人工复核流程。

常用场景

经典使用场景

在跨语言对话系统研究中，conversations-en2bn-1数据集为英语与孟加拉语之间的对话生成与理解提供了丰富的语料资源。该数据集通过记录多轮次、多角色的对话内容，为机器翻译、对话状态跟踪以及跨语言语义对齐等任务奠定了数据基础。研究者可基于该数据集构建端到端的双语对话系统，探索低资源语言场景下的语义表示与迁移机制。

解决学术问题

该数据集有效缓解了孟加拉语对话数据稀缺的学术困境，为低资源语言处理领域提供了关键研究素材。通过标注对话角色、内容审核标签及语言类型等结构化特征，支持了跨文化语境下有害内容检测、多语种对话连贯性分析等前沿课题。其开放的对话序列数据尤其有助于解构非拉丁语系语言的语法特征与语用规律。

衍生相关工作

该数据集已催生多项重要研究，包括基于对比学习的低资源对话生成模型、跨语言有害内容检测框架等。部分学者利用其对话序列特征，提出了融合文化语境因子的孟加拉语理解评估基准。在产业界，衍生出面向跨境电商的英孟双语产品咨询系统，以及支持联合国可持续发展目标的多语言教育应用。

以上内容由遇见数据集搜集并总结生成