five

BlackSamorez/2ch_b_dialogues

收藏
Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BlackSamorez/2ch_b_dialogues
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从2ch.hk/b/论坛中挖掘的俄语对话数据,主要用于对话生成任务。数据格式为对话列表,每个对话包含多个帖子,按从后到前的顺序排列。数据集的创建动机是娱乐,数据来源是2ch.hk/b/的用户。

annotations_creators: - 无标注 language_creators: - 现有资源采集 language: - 俄语 license: [] multilinguality: - 单语言 pretty_name: 从2ch/b/板块挖掘的对话数据集 size_categories: - 10000 < n < 100000 source_datasets: - 原始数据集 task_categories: - 对话式任务 task_ids: - 对话生成 --- # 2ch_b_dialogues 数据集卡片 ## 目录 - [数据集描述](#dataset-description) - [数据集摘要](#dataset-summary) - [支持任务与排行榜](#supported-tasks-and-leaderboards) - [使用语言](#languages) - [数据集结构](#dataset-structure) - [数据实例](#data-instances) - [数据字段](#data-fields) - [数据划分](#data-splits) - [数据集构建](#dataset-creation) - [构建初衷](#curation-rationale) - [源数据](#source-data) - [标注信息](#annotations) - [个人与敏感信息](#personal-and-sensitive-information) - [数据集使用注意事项](#considerations-for-using-the-data) - [数据集的社会影响](#social-impact-of-dataset) - [偏差讨论](#discussion-of-biases) - [其他已知局限](#other-known-limitations) - [附加信息](#additional-information) - [数据集维护者](#dataset-curators) - [授权信息](#licensing-information) - [引用信息](#citation-information) ## 数据集描述 - **主页:** https://github.com/BlackSamorez/ebanko - **代码仓库:** [需补充更多信息] - **相关论文:** [需补充更多信息] - **排行榜:** [需补充更多信息] - **联系人:** [需补充更多信息] ### 数据集摘要 从2ch.hk/b/板块挖掘的俄语对话数据集 ### 支持任务与排行榜 [需补充更多信息] ### 使用语言 俄语 ## 数据集结构 ### 数据实例 { "对话": ["很高兴收到你的消息!", "很好,谢谢!", "嗨,你好吗?"] } ### 数据字段 - `对话`: 按回复时间倒序排列的帖子列表(最新回复位于列表首位) ### 数据划分 [需补充更多信息] ## 数据集构建 ### 构建初衷 仅供娱乐 ### 源数据 #### 初始数据收集与标准化处理 仅选取拥有单个父节点的顶点构建线程图,随后从中提取不重叠的对话线程。 #### 源语言内容生产者是谁? 2ch.hk/b/板块的用户 ### 标注信息 #### 标注流程 [需补充更多信息] #### 标注者是谁? [需补充更多信息] ### 个人与敏感信息 [需补充更多信息] ## 数据集使用注意事项 ### 数据集的社会影响 该数据集内容在道德层面存在争议 ### 偏差讨论 [需补充更多信息] ### 其他已知局限 [需补充更多信息] ## 附加信息 ### 数据集维护者 blacks_samorez ### 授权信息 [需补充更多信息] ### 引用信息 [需补充更多信息]
提供机构:
BlackSamorez
原始信息汇总

数据集概述

数据集基本信息

  • 名称: 2ch_b_dialogues
  • 语言: 俄语
  • 许可证: 未指定
  • 多语言性: 单语种
  • 数据集大小: 10K<n<100K
  • 数据来源: 原始数据
  • 任务类别: 对话生成

数据集内容

  • 摘要: 数据集包含从2ch.hk/b/挖掘的俄语对话。
  • 数据实例结构:
    • 字段: 对话(list of posts ordered last-to-first)
    • 示例: {"dialogue": ["Glad to hear!", "Fine, thank you!", "Hi, how are you?"]}

数据集创建

  • 采集与标准化: 仅选择具有单个父节点的顶点,构建非重叠的对话线程。
  • 源语言生产者: 2ch.hk/b/用户
  • 注释过程: 未指定
  • 注释者: 未指定

使用数据集的考虑

  • 社会影响: 道德上可疑的数据
  • 偏见讨论: 未指定
  • 其他已知限制: 未指定
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作