jkkummerfeld/irc_disentangle
收藏Hugging Face2024-07-01 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/jkkummerfeld/irc_disentangle
下载链接
链接失效反馈官方服务:
资源简介:
IRC Disentanglement数据集是一个用于对话解缠任务的大规模数据集,包含77,563条手动注释的消息。这些消息来自Ubuntu IRC频道日志,注释包括回复结构图,用于解缠对话并定义内部对话结构。该数据集是迄今为止最大的手动注释数据集,首次包含注释分歧的裁决和上下文信息。数据集支持的任务是对话解缠,语言为英语。数据集的结构包括数据实例、数据字段和数据分割,数据字段包括消息ID、原始消息、ASCII转换后的消息、自动分词后的消息、连接的消息索引以及日期(仅限Ubuntu部分)。数据集的创建背景是基于IRC同步聊天环境的历史使用情况,数据来源于Ubuntu IRC频道日志,注释由密歇根大学的学生和博士后完成。数据集的使用考虑包括社会影响、偏见讨论和已知限制,数据集维护者为Jonathan K. Kummerfeld,许可信息为Creative Commons Attribution 4.0。
The IRC Disentanglement dataset is a large-scale dataset for the task of conversational disentanglement, containing 77,563 manually annotated messages. These messages are from Ubuntu IRC channel logs, with annotations including reply-structure graphs that disentangle conversations and define internal conversation structure. This dataset is the largest manually annotated dataset to date, the first to include adjudication of annotation disagreements and context. The supported task is conversational disentanglement, and the language is English. The dataset structure includes data instances, data fields, and data splits. Data fields include message ID, raw message, ASCII-converted message, automatically tokenized message, indices of linked messages, and date (Ubuntu only). The datasets creation rationale is based on the historical use of IRC synchronous chat environments, with data sourced from Ubuntu IRC channel logs and annotations done by students and a postdoc at the University of Michigan. Considerations for using the data include social impact, discussion of biases, and known limitations. The dataset curator is Jonathan K. Kummerfeld, and the licensing information is Creative Commons Attribution 4.0.
提供机构:
jkkummerfeld
原始信息汇总
数据集概述
基本信息
- 名称: IRC Disentanglement
- 语言: 英语 (en)
- 许可证: CC-BY-4.0
- 多语言性: 单语
- 大小: 10K<n<100K
- 来源: 原始数据
- 任务类别: 令牌分类
- 标签创建者: 专家生成
- 语言创建者: 发现
数据集结构
- 配置名称: ubuntu, channel_two
- 特征:
- id: int32
- raw: string
- ascii: string
- tokenized: string
- date (仅ubuntu): string
- connections: 序列 int32
- 数据分割:
- ubuntu:
- train: 220616个例子, 56012854字节
- validation: 12510个例子, 3081479字节
- test: 15010个例子, 3919900字节
- channel_two:
- dev: 1001个例子, 197505字节
- pilot: 501个例子, 92663字节
- test: 1001个例子, 186823字节
- pilot_dev: 1501个例子, 290175字节
- all_: 2602个例子, 496524字节
- ubuntu:
- 下载大小: 118470210字节
- 数据集大小: 63014233字节 (ubuntu), 1263690字节 (channel_two)
数据集创建
- 源数据: 来自Ubuntu IRC频道日志, 公开可用
- 注释过程: 专家注释, 包括训练、验证、测试和Channel 2的不同注释和裁决过程
- 个人和敏感信息: 数据中可能包含用户个人信息, 未移除或模糊处理
使用考虑
- 社会影响: 原始数据已在线可用, 注释不显著增加额外信息
- 偏见讨论: 数据主要来自单一技术领域, 可能存在某种人口统计偏差
- 其他已知限制: 专注于单一语言和频道, 可能捕捉特定通信惯例, 不适用于其他频道或IRC之外
附加信息
- 数据集管理员: Jonathan K. Kummerfeld
- 贡献者: 感谢@dhruvjoshi1998和@jkkummerfeld的贡献



