five

ryo0634/bsd_ja_en

收藏
Hugging Face2024-01-11 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ryo0634/bsd_ja_en
下载链接
链接失效反馈
官方服务:
资源简介:
Business Scene Dialogue (BSD)数据集是一个日英平行语料库,包含各种商业场景中的书面对话。数据集的构建过程包括选择商业场景、编写单语对话场景,并将这些场景翻译成另一种语言。数据集的结构包括对话标识符、句子编号、说话者名称、句子文本、原始语言、场景标签和场景标题。数据集分为训练集、开发集和测试集,分别包含20000、2051和2120个句子。数据集的使用仅限于研究目的,并遵循CC BY-NC-SA许可。

Business Scene Dialogue (BSD)数据集是一个日英平行语料库,包含各种商业场景中的书面对话。数据集的构建过程包括选择商业场景、编写单语对话场景,并将这些场景翻译成另一种语言。数据集的结构包括对话标识符、句子编号、说话者名称、句子文本、原始语言、场景标签和场景标题。数据集分为训练集、开发集和测试集,分别包含20000、2051和2120个句子。数据集的使用仅限于研究目的,并遵循CC BY-NC-SA许可。
提供机构:
ryo0634
原始信息汇总

数据集概述

名称: Business Scene Dialogue (BSD)

描述: BSD是一个包含日语和英语双语对话的平行语料库,专注于各种商业场景中的书面对话。

语言: 英语, 日语

许可: 知识共享署名-非商业性使用-相同方式共享4.0国际许可 (CC BY-NC-SA 4.0)

数据集大小:

  • 训练集: 20000个实例
  • 测试集: 2120个实例
  • 验证集: 2051个实例
  • 总实例数: 24171个

数据结构:

  • 字段:
    • id: 对话标识符
    • no: 句子对在对话中的编号
    • en_speaker: 英语发言者名称
    • ja_speaker: 日语发言者名称
    • en_sentence: 英语句子
    • ja_sentence: 日语句子
    • original_language: 原始语言
    • tag: 场景标签
    • title: 场景标题

数据来源: 原始数据,由专家生成。

任务类别: 翻译

数据集创建:

  • 注释过程: 专家生成
  • 个人和敏感信息: 未详细说明

使用注意事项:

  • 仅供研究使用,需遵守数据集许可协议。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作