five

globis-university/aozorabunko-chats

收藏
Hugging Face2023-10-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/globis-university/aozorabunko-chats
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从日本的公共领域书籍收集网站Aozora Bunko中提取的对话,使用简单的启发式方法从文本中提取被引号包围的行作为话语,并将连续的话语收集和分组。由于使用简单的启发式方法提取对话,部分数据可能是独白。数据集的使用示例代码展示了如何加载和过滤数据,数据集的许可证为CC BY 4.0。

该数据集是从日本的公共领域书籍收集网站Aozora Bunko中提取的对话,使用简单的启发式方法从文本中提取被引号包围的行作为话语,并将连续的话语收集和分组。由于使用简单的启发式方法提取对话,部分数据可能是独白。数据集的使用示例代码展示了如何加载和过滤数据,数据集的许可证为CC BY 4.0。
提供机构:
globis-university
原始信息汇总

数据集概述

  • 来源:该数据集包含从Aozora Bunko (青空文庫)提取的对话,Aozora Bunko是日本的一个公共领域书籍收集网站。
  • 方法:使用简单的启发式方法,从text字段中提取被「」包围的行作为话语,并将连续的话语收集并分组。
  • 任务类别:text-generation, text-classification
  • 语言:日语
  • 数据集大小:100K<n<1M

数据集结构

  • 特征:包含chats, footnote, meta三个特征。
  • 示例:数据集中的一个作品名为スリーピー・ホローの伝説,包含多个对话。

使用提示

  • 若需仅使用现代日语,可通过row["meta"]["文字遣い種別"] == "新字新仮名"进行过滤。

许可证

  • CC BY 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作