conversations-en2bn

Hugging Face2025-03-24 更新2025-03-25 收录

下载链接：

https://huggingface.co/datasets/intelsense/conversations-en2bn

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含会话信息，每个会话包括ID、使用的模型、具体内容和角色、会话轮次、语言。此外，每个会话都经过OpenAI的审核，审核结果包括是否包含骚扰、威胁、仇恨、自我伤害、性内容、针对未成年人的性内容、暴力或图形暴力等分类，以及对应的分数。数据集还包含是否标记为有问题和是否编辑过的信息。数据集分为训练集，并提供了默认配置文件。

This dataset contains conversation records. Each conversation includes an ID, the utilized model, specific content and corresponding role, conversation turn count, and language. Additionally, each conversation has been reviewed by OpenAI, with the review results covering categories such as whether it contains harassment, threats, hate speech, self-harm content, sexual content, sexual content targeting minors, violence or graphic violence, alongside corresponding scores. The dataset also includes information on whether it is marked as problematic and whether it has been edited. The dataset is divided into training sets, and a default configuration file is provided.

创建时间：

2025-03-24

原始信息汇总

数据集概述

基本信息

数据集名称: conversations-en2bn
数据集地址: https://huggingface.co/datasets/intelsense/conversations-en2bn
下载大小: 58,083,752 字节
数据集大小: 196,273,026 字节
训练集样本数: 22,880

数据集结构

特征

conversation_id: 字符串类型，表示对话的唯一标识符。
model: 字符串类型，表示生成对话的模型。
conversation: 列表类型，包含以下子特征：
- content: 字符串类型，表示对话内容。
- role: 字符串类型，表示对话角色。
turn: 整型，表示对话的轮次。
language: 字符串类型，表示对话的语言。
openai_moderation: 列表类型，包含以下子特征：
- categories: 结构体类型，包含以下布尔类型的子特征：
  - harassment
  - harassment/threatening
  - hate
  - hate/threatening
  - self-harm
  - self-harm/instructions
  - self-harm/intent
  - sexual
  - sexual/minors
  - violence
  - violence/graphic
- category_scores: 结构体类型，包含以下浮点类型的子特征：
  - harassment
  - harassment/threatening
  - hate
  - hate/threatening
  - self-harm
  - self-harm/instructions
  - self-harm/intent
  - sexual
  - sexual/minors
  - violence
  - violence/graphic
- flagged: 布尔类型，表示是否被标记。
redacted: 布尔类型，表示是否被编辑。

数据分割

train: 训练集，包含22,880个样本，大小为196,273,026字节。

配置

默认配置:
- 数据文件:
  - 分割: train
  - 路径: data/train-*

搜集汇总

数据集介绍

构建方式

在跨语言对话研究领域，conversations-en2bn数据集通过系统化采集英语与孟加拉语之间的双语对话构建而成。该数据集采用结构化存储方式，每条记录包含唯一对话ID、生成模型信息、多轮次对话内容及语言标签，并特别整合了OpenAI的内容审核模块，对11类敏感内容进行双重标注（布尔型标记与概率评分），确保数据伦理合规性。数据采集过程严格记录对话轮次（turn）和文本净化状态（redacted），最终形成包含22,880条样本的高质量平行语料库。

特点

该数据集的核心价值体现在其精细的元数据标注体系和跨语言特性。每个对话样本均附带完整的角色标注（role）和内容序列（content），支持端到端的对话系统训练。独特的双维度内容审核数据（categories/category_scores）为研究对话安全性提供了量化指标，而显式的语言标签（language）则便于进行特定语种的对比分析。数据规模达196MB，覆盖多种对话场景，且所有文本均经过去敏感化处理（redacted），兼顾学术研究的便利性与伦理要求。

使用方法

研究者可利用该数据集进行多模态跨语言对话模型的训练与评估。通过解析conversation字段可获取完整的对话上下文，结合turn字段实现对话状态跟踪。openai_moderation模块支持开发内容过滤算法，而语言标签则便于构建双语机器翻译任务的评估集。数据以标准JSON格式存储，可直接加载至主流深度学习框架，建议使用HuggingFace Datasets库进行流式读取以处理大规模样本。

背景与挑战

背景概述

在跨语言对话系统的研究中，英语与孟加拉语之间的交互一直是一个具有挑战性的领域。conversations-en2bn数据集应运而生，旨在为这一语言对提供高质量的对话数据。该数据集由专业团队构建，收录了大量英语与孟加拉语之间的对话内容，涵盖了多种话题和场景。通过细致的标注和严格的质量控制，该数据集为研究者提供了宝贵的资源，推动了低资源语言处理技术的发展。其影响力不仅体现在机器翻译领域，更为跨文化沟通和语言理解研究开辟了新途径。

当前挑战

构建conversations-en2bn数据集面临多重挑战。在领域问题层面，英语与孟加拉语之间存在显著的语法和语义差异，如何准确捕捉并转换对话中的细微含义成为关键难题。数据集构建过程中，确保对话的自然性和多样性需要大量语言专家的参与，而孟加拉语资源的稀缺性进一步增加了数据收集的难度。此外，对话内容的安全性和适宜性审查也需投入大量精力，以避免潜在的偏见和不当内容。这些挑战共同构成了该数据集开发过程中的主要障碍。

常用场景

经典使用场景

在跨语言对话系统的研究中，conversations-en2bn数据集为英语和孟加拉语之间的对话生成与理解提供了丰富的语料资源。该数据集记录了多轮对话的完整流程，包括对话内容、角色分配及语言标识，特别适用于训练和评估机器翻译模型及多语言对话系统。通过分析不同模型生成的对话内容，研究者能够深入探究语言转换的准确性与流畅性。

衍生相关工作

基于该数据集衍生的研究包括低资源神经机器翻译模型优化、多语言对话状态跟踪算法改进等。部分工作进一步扩展了数据应用维度，例如结合审核标签开发跨文化敏感内容检测框架，或利用对话序列预测用户意图。这些成果显著推动了南亚语言信息处理领域的发展。

数据集最近研究