ryo0634/bsd_ja_en
收藏Hugging Face2024-01-11 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ryo0634/bsd_ja_en
下载链接
链接失效反馈官方服务:
资源简介:
Business Scene Dialogue (BSD)数据集是一个日英平行语料库,包含各种商业场景中的书面对话。数据集的构建过程包括选择商业场景、编写单语对话场景,并将这些场景翻译成另一种语言。数据集的结构包括对话标识符、句子编号、说话者名称、句子文本、原始语言、场景标签和场景标题。数据集分为训练集、开发集和测试集,分别包含20000、2051和2120个句子。数据集的使用仅限于研究目的,并遵循CC BY-NC-SA许可。
Business Scene Dialogue (BSD)数据集是一个日英平行语料库,包含各种商业场景中的书面对话。数据集的构建过程包括选择商业场景、编写单语对话场景,并将这些场景翻译成另一种语言。数据集的结构包括对话标识符、句子编号、说话者名称、句子文本、原始语言、场景标签和场景标题。数据集分为训练集、开发集和测试集,分别包含20000、2051和2120个句子。数据集的使用仅限于研究目的,并遵循CC BY-NC-SA许可。
提供机构:
ryo0634
原始信息汇总
数据集概述
名称: Business Scene Dialogue (BSD)
描述: BSD是一个包含日语和英语双语对话的平行语料库,专注于各种商业场景中的书面对话。
语言: 英语, 日语
许可: 知识共享署名-非商业性使用-相同方式共享4.0国际许可 (CC BY-NC-SA 4.0)
数据集大小:
- 训练集: 20000个实例
- 测试集: 2120个实例
- 验证集: 2051个实例
- 总实例数: 24171个
数据结构:
- 字段:
- id: 对话标识符
- no: 句子对在对话中的编号
- en_speaker: 英语发言者名称
- ja_speaker: 日语发言者名称
- en_sentence: 英语句子
- ja_sentence: 日语句子
- original_language: 原始语言
- tag: 场景标签
- title: 场景标题
数据来源: 原始数据,由专家生成。
任务类别: 翻译
数据集创建:
- 注释过程: 专家生成
- 个人和敏感信息: 未详细说明
使用注意事项:
- 仅供研究使用,需遵守数据集许可协议。



