globis-university/aozorabunko-chats
收藏Hugging Face2023-10-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/globis-university/aozorabunko-chats
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从日本的公共领域书籍收集网站Aozora Bunko中提取的对话,使用简单的启发式方法从文本中提取被引号包围的行作为话语,并将连续的话语收集和分组。由于使用简单的启发式方法提取对话,部分数据可能是独白。数据集的使用示例代码展示了如何加载和过滤数据,数据集的许可证为CC BY 4.0。
该数据集是从日本的公共领域书籍收集网站Aozora Bunko中提取的对话,使用简单的启发式方法从文本中提取被引号包围的行作为话语,并将连续的话语收集和分组。由于使用简单的启发式方法提取对话,部分数据可能是独白。数据集的使用示例代码展示了如何加载和过滤数据,数据集的许可证为CC BY 4.0。
提供机构:
globis-university
原始信息汇总
数据集概述
- 来源:该数据集包含从Aozora Bunko (青空文庫)提取的对话,Aozora Bunko是日本的一个公共领域书籍收集网站。
- 方法:使用简单的启发式方法,从
text字段中提取被「」包围的行作为话语,并将连续的话语收集并分组。 - 任务类别:text-generation, text-classification
- 语言:日语
- 数据集大小:100K<n<1M
数据集结构
- 特征:包含
chats,footnote,meta三个特征。 - 示例:数据集中的一个作品名为スリーピー・ホローの伝説,包含多个对话。
使用提示
- 若需仅使用现代日语,可通过
row["meta"]["文字遣い種別"] == "新字新仮名"进行过滤。
许可证
- CC BY 4.0



