five

LIDIA-HESSEN/TexPrax

收藏
Hugging Face2023-03-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LIDIA-HESSEN/TexPrax
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-4.0 --- # Dataset Card for TexPrax ## Table of Contents - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage: https://texprax.de/** - **Repository: https://github.com/UKPLab/TexPrax** - **Paper: https://arxiv.org/abs/2208.07846** - **Leaderboard: n/a** - **Point of Contact: Ji-Ung Lee (http://www.ukp.tu-darmstadt.de/)** ### Dataset Summary This dataset contains dialogues collected from German factory workers at the _Center for industrial productivity_ ([CiP](https://www.prozesslernfabrik.de/)). The dialogues mostly concern issues workers encounter during their daily work, such as machines breaking down, material missing, etc. The dialogues are further expert-annotated on a sentence level (problem, cause, solution, other) for sentence classification and on a token level for named entity recognition using a BIO tagging scheme. Note, that the dataset was collected in three rounds, each around one year apart. Here, we provide the data only split into train and test data where the test data was collected at the last round (July 2022). Additionally, the data from the first round is split into two subdomains, industry 4.0 (industrie) and machining (zerspanung). The splits were made according to the respective groups of people working at different assembly lines in the factory. ### Supported Tasks and Leaderboards This dataset supports the following tasks: * Sentence classification * Named entity recognition (will be updated soon with the new indexing) * Dialog generation (so far not evaluated) ### Languages German ## Dataset Structure ### Data Instances On sentence level, each instance consists of the dialog-id, turn-id, sentence-id, the sentence (raw), the label, the domain, and the subsplit. ``` {"185";"562";993";"wie kriege ich die Dichtung raus?";"P";"n/a";"3"} ``` On token level, each instance consists of a unique identifier, a list of tokens containing the whole dialog, the list of labels (bio-tagged entities), and the subsplit. ``` {"178_0";"['Hi', 'wie', 'kriege', 'ich', 'die', 'Dichtung', 'raus', '?', 'in', 'der', 'Schublade', 'gibt', 'es', 'einen', 'Dichtungszieher']";"['O', 'O', 'O', 'O', 'O', 'B-PRE', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'B-PE']";"Batch 3"} ``` ### Data Fields Sentence level: * dialog-id: unique identifier for the dialog * turn-id: unique identifier for the turn * sentence-id: unique identifier for the dialog * sentence: the respective sentence * label: the label (_P_ for Problem, _C_ for Cause, _S_ for solution, and _O_ for Other) * domain: the subdomains where the data was collected from. Domains are industry, machining, or n/a (for batch 2 and batch 3). * subsplit: the respective subsplit of the data (see below) Token level: * id: the identifier * tokens: a list of tokens (i.e., the tokenized dialogue) * entities: the named entity in a BIO scheme (_B-X_, _I-X_, or O). * subsplit: the respective subsplit of the data (see below) ### Data Splits The dataset is split into train and test splits, but contains further subsplits (subsplit column). Note, that the splits are collected at different times with some turnaround in the workforce. Hence, later data (especially the data from batch 2) contains more turns (due to increased search for a cause) as more inexperienced workers who newly joined were employed in the factory. Train: * Batch 1 industrie: data collected in October 2020 from workers in the industry 4.0 assembly line * Batch 1 zerspanung: data collected in October 2020 from workers in the machining assembly line * Batch 2: data collected in-between October 2021-June 2022 from all workers Test: * Batch 3: data collected in July 2022 together with the system usability study run Sentence level statistics: | Batch | Dialogues | Turns | Sentences | |---|---|---|---| | 1 | 81 | 246 | 553 | | 2 | 97 | 309 | 432 | | 3 | 24 | 36 | 42 | | Overall | 202 | 591 | 1,027 | Token level statistics: [Needs to be added] ## Dataset Creation ### Curation Rationale This dataset provides task-oriented dialogues that solve a very domain specific problem. ### Source Data #### Initial Data Collection and Normalization The data was generated by workers at the [CiP](https://www.prozesslernfabrik.de/). The data was collected in three rounds (October 2020, October 2021-June 2022, July 2022). As the dialogues occurred during their daily work, one distinct property of the dataset is that all dialogues are very informal 'ne', contain abbreviations 'vll', and filler words such as 'ah'. For a detailed description please see the [paper](https://arxiv.org/abs/2208.07846). #### Who are the source language producers? German factory workers working at the [CiP](https://www.prozesslernfabrik.de/) ### Annotations #### Annotation process **Token level.** Token level annotation was done by researchers who are responsible for supervising and teaching workers at the CiP. The data was first split into three parts, each annotated by one researcher. Next, each researcher cross-examined the other researchers' annotations. If there were disagreements, all three researchers discussed the final label. **Sentence level.** Sentence level annotations were collected from the factory workers who also generated the dialogues. For details about the data collection, please see the [TexPrax demo paper](https://arxiv.org/abs/2208.07846). #### Who are the annotators? **Token level.** Researchers working at the CiP. **Sentence level.** The factory workers themselves. ### Personal and Sensitive Information This dataset is fully anonymized. All occurrences of names have been manually checked during annotation and replaced with a random token. ## Considerations for Using the Data ### Social Impact of Dataset Informal language especially used in short messages, however, seldom considered in existing NLP datasets. This dataset could serve as an interesting evaluation task for transferring language models to low-resource, but highly specific domains. Moreover, we note that despite all abbreviations, typos, and local dialects used in the messages, all workers were able to understand the questions as well as replies. This should be a standard future NLP models should be able to uphold. ### Discussion of Biases The dialogues are very much on a professional level. The workers were informed (and gave their consent) in advance that their messages are being recorded and processed, which may have influenced them to hold only professional conversations, hence, all dialogues concern inanimate objects (i.e., machines). ### Other Known Limitations [More Information Needed] ## Additional Information You can download the data via: ``` from datasets import load_dataset dataset = load_dataset("UKPLab/TexPrax") # default config is sentence classification dataset = load_dataset("UKPLab/TexPrax", "ner") # use the ner tag for named entity recognition ``` Please find more information about the code and how the data was collected on [GitHub](https://github.com/UKPLab/TexPrax). ### Dataset Curators Curation is managed by our [data manager](https://www.informatik.tu-darmstadt.de/ukp/research_ukp/ukp_research_data_and_software/ukp_data_and_software.en.jsp) at UKP. ### Licensing Information [CC-by-NC 4.0](https://creativecommons.org/licenses/by-nc/4.0/) ### Citation Information Please cite this data using: ``` @article{stangier2022texprax, title={TexPrax: A Messaging Application for Ethical, Real-time Data Collection and Annotation}, author={Stangier, Lorenz and Lee, Ji-Ung and Wang, Yuxi and M{\"u}ller, Marvin and Frick, Nicholas and Metternich, Joachim and Gurevych, Iryna}, journal={arXiv preprint arXiv:2208.07846}, year={2022} } ``` ### Contributions Thanks to [@Wuhn](https://github.com/Wuhn) for adding this dataset. ## Tags annotations_creators: - expert-generated language: - de language_creators: - expert-generated license: - cc-by-nc-4.0 multilinguality: - monolingual pretty_name: TexPrax-Conversations size_categories: - n<1K - 1K<n<10K source_datasets: - original tags: - dialog - expert to expert conversations - task-oriented task_categories: - token-classification - text-classification task_ids: - named-entity-recognition - multi-class-classification

--- license: CC-BY-NC-4.0 --- # TexPrax 数据集卡片 ## 目录 - [目录](#table-of-contents) - [数据集概述](#dataset-description) - [数据集概况](#dataset-summary) - [支持任务与排行榜](#supported-tasks-and-leaderboards) - [语言](#languages) - [数据集结构](#dataset-structure) - [数据实例](#data-instances) - [数据字段](#data-fields) - [数据划分](#data-splits) - [数据集构建](#dataset-creation) - [构建依据](#curation-rationale) - [源数据](#source-data) - [标注](#annotations) - [个人与敏感信息](#personal-and-sensitive-information) - [数据使用注意事项](#considerations-for-using-the-data) - [数据集的社会影响](#social-impact-of-dataset) - [偏倚讨论](#discussion-of-biases) - [其他已知局限](#other-known-limitations) - [附加信息](#additional-information) - [数据集遴选者](#dataset-curators) - [许可证信息](#licensing-information) - [引用信息](#citation-information) - [贡献致谢](#contributions) ## 数据集概述 - **主页:https://texprax.de/** - **代码仓库:https://github.com/UKPLab/TexPrax** - **相关论文:https://arxiv.org/abs/2208.07846** - **排行榜:无(n/a)** - **联系方式:Ji-Ung Lee(http://www.ukp.tu-darmstadt.de/)** ### 数据集概况 本数据集收录自工业生产力中心(Center for industrial productivity,简称CiP,https://www.prozesslernfabrik.de/)的德国工厂工人对话。对话内容多围绕工人日常工作中遇到的各类问题,例如设备故障、物料短缺等。该数据集已由专家在句子级别(分为问题、原因、解决方案、其他四类)进行标注,用于句子分类任务;同时在Token(Token)级别采用BIO标记方案(BIO tagging scheme)进行标注,支持命名实体识别任务。需说明的是,数据集分三轮采集,每轮间隔约一年。本次发布的数据仅划分为训练集与测试集,其中测试集采集自第三轮(2022年7月)。此外,第一轮采集的数据被划分为两个子领域:工业4.0(industrie)与机械加工(zerspanung)。划分依据为工厂内不同生产线的作业班组。 ### 支持任务与排行榜 本数据集支持以下任务: * 句子分类 * 命名实体识别(后续将随新索引机制更新) * 对话生成(目前尚未进行评估) ### 语言 德语 ## 数据集结构 ### 数据实例 句子级别实例:每个实例包含对话ID、轮次ID、句子ID、原始句子、标签、领域以及子划分标签。示例如下: {"185";"562";993;"wie kriege ich die Dichtung raus?";"P";"n/a";"3"} Token(Token)级别实例:每个实例包含唯一标识符、包含完整对话的Token(Token)列表、BIO标记的实体标签列表以及子划分标签。示例如下: {"178_0";"['Hi', 'wie', 'kriege', 'ich', 'die', 'Dichtung', 'raus', '?', 'in', 'der', 'Schublade', 'gibt', 'es', 'einen', 'Dichtungszieher']";"['O', 'O', 'O', 'O', 'O', 'B-PRE', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'B-PE']";"Batch 3"} ### 数据字段 句子级别字段: * dialog-id:对话的唯一标识符 * turn-id:对话轮次的唯一标识符 * sentence-id:句子的唯一标识符 * sentence:对应句子原文 * label:标签(_P_代表问题(Problem),_C_代表原因(Cause),_S_代表解决方案(Solution),_O_代表其他(Other)) * domain:数据采集所在的子领域,包括industry(工业)、machining(机械加工)或n/a(适用于第二轮与第三轮数据) * subsplit:数据对应的子划分(详见下文) Token(Token)级别字段: * id:唯一标识符 * tokens:Token(Token)化后的对话列表 * entities:采用BIO标记方案的命名实体标签(格式为_B-X_、_I-X_或O) * subsplit:数据对应的子划分(详见下文) ### 数据划分 本数据集划分为训练集与测试集,同时包含额外的子划分(对应subsplit列)。需注意,各划分采集于不同时段,且 workforce 存在人员流动。因此,较晚采集的数据(尤其是第二轮数据)包含更多轮次(源于对问题原因的更多次排查),原因在于当时工厂雇佣了新入职且经验不足的工人。 训练集: * Batch 1 industrie:2020年10月从工业4.0生产线工人处采集的数据 * Batch 1 zerspanung:2020年10月从机械加工生产线工人处采集的数据 * Batch 2:2021年10月至2022年6月间从全体工人处采集的数据 测试集: * Batch 3:2022年7月与系统可用性研究同步采集的数据 句子级别统计数据: | 批次 | 对话数 | 轮次数 | 句子数 | |---|---|---|---| | 1 | 81 | 246 | 553 | | 2 | 97 | 309 | 432 | | 3 | 24 | 36 | 42 | | 总计 | 202 | 591 | 1,027 | Token(Token)级别统计数据:[待补充] ## 数据集构建 ### 构建依据 本数据集提供面向特定垂直领域的任务型对话数据。 ### 源数据 #### 初始数据采集与标准化 数据由CiP的工人生成,分三轮采集(2020年10月、2021年10月-2022年6月、2022年7月)。由于对话产生于工人日常工作场景,本数据集的显著特征之一是所有对话均为非正式口语,包含缩写(如vll)与填充词(如ah)。详细说明请参见相关[论文](https://arxiv.org/abs/2208.07846)。 #### 源语言生产者是谁? 源语言生产者为CiP的德国工厂工人。 ### 标注 #### 标注流程 **Token(Token)级别标注**:由负责监督与培训CiP工人的研究人员完成。数据首先被分为三份,分别由一名研究人员标注,随后各研究人员交叉审核他人的标注结果。若存在分歧,三名研究人员将共同讨论确定最终标签。 **句子级别标注**:由生成对话的工厂工人完成。关于数据采集的详细细节,请参见[TexPrax演示论文](https://arxiv.org/abs/2208.07846)。 #### 标注者是谁? **Token(Token)级别标注者**:CiP的研究人员。 **句子级别标注者**:工厂工人本人。 ### 个人与敏感信息 本数据集已完全匿名化。所有出现的姓名均在标注阶段被手动检查,并替换为随机Token(Token)。 ## 数据使用注意事项 ### 数据集的社会影响 现有自然语言处理数据集极少考虑短消息中使用的非正式语言。本数据集可作为将语言模型迁移至低资源但高度垂直的领域的有趣评估任务。此外,尽管对话中存在大量缩写、拼写错误与地方方言,但所有工人均能理解对话内容与回复。这一点应成为未来自然语言处理模型需达到的标准。 ### 偏倚讨论 对话内容均处于专业语境。工人提前被告知并同意其对话内容将被记录与处理,这可能促使他们仅进行专业对话,因此所有对话均围绕无生命物体(即设备)展开。 ### 其他已知局限 [需补充更多信息] ## 附加信息 你可以通过以下代码下载本数据集: from datasets import load_dataset dataset = load_dataset("UKPLab/TexPrax") # 默认配置为句子分类任务 dataset = load_dataset("UKPLab/TexPrax", "ner") # 使用ner配置加载命名实体识别任务数据 更多关于代码与数据采集的细节,请参见[GitHub仓库](https://github.com/UKPLab/TexPrax)。 ### 数据集遴选者 数据集遴选工作由UKP的[数据管理人员](https://www.informatik.tu-darmstadt.de/ukp/research_ukp/ukp_research_data_and_software/ukp_data_and_software.en.jsp)负责。 ### 许可证信息 采用CC-BY-NC 4.0许可证(https://creativecommons.org/licenses/by-nc/4.0/) ### 引用信息 请使用以下格式引用本数据集: @article{stangier2022texprax, title={TexPrax: A Messaging Application for Ethical, Real-time Data Collection and Annotation}, author={Stangier, Lorenz and Lee, Ji-Ung and Wang, Yuxi and M{"u}ller, Marvin and Frick, Nicholas and Metternich, Joachim and Gurevych, Iryna}, journal={arXiv preprint arXiv:2208.07846}, year={2022} } ### 贡献致谢 感谢[@Wuhn](https://github.com/Wuhn)为本数据集添加至数据集仓库。 ## 标签 annotations_creators: - 专家生成标注 language: - 德语 language_creators: - 专家生成创作 license: - cc-by-nc-4.0 multilinguality: - 单语言 pretty_name: TexPrax-Conversations size_categories: - 样本数少于1000 - 1000至10000样本 source_datasets: - 原生数据集 tags: - 对话 - 专家间对话 - 任务导向型对话 task_categories: - Token(Token)分类 - 文本分类 task_ids: - 命名实体识别 - 多分类任务
提供机构:
LIDIA-HESSEN
原始信息汇总

数据集概述

数据集名称

TexPrax

数据集描述

TexPrax数据集包含德国工厂工人在日常工作中遇到的对话,主要涉及机器故障、材料缺失等问题。这些对话经过专家在句子和词级别上的标注,用于句子分类和命名实体识别。数据集分为三个收集轮次,提供的数据分为训练和测试集,测试集为最后一轮(2022年7月)收集的数据。

支持的任务

  • 句子分类
  • 命名实体识别
  • 对话生成(尚未评估)

语言

德语

数据集结构

数据实例

  • 句子级别:包含对话ID、轮次ID、句子ID、句子内容、标签、领域和子分割。
  • 词级别:包含唯一标识符、对话的词列表、标签列表(BIO标记的实体)和子分割。

数据字段

  • 句子级别:对话ID、轮次ID、句子ID、句子内容、标签(问题、原因、解决方案、其他)、领域、子分割。
  • 词级别:标识符、词列表、实体(BIO方案)、子分割。

数据分割

  • 训练集:包含2020年10月和2021年10月至2022年6月收集的数据。
  • 测试集:2022年7月收集的数据。

数据集创建

来源数据

  • 数据由CiP的工厂工人产生,分为三个轮次收集。

标注过程

  • 词级别:由CiP的研究人员进行标注,通过交叉检查确保标注质量。
  • 句子级别:由工厂工人自己进行标注。

个人和敏感信息

  • 数据集已进行匿名处理,所有个人姓名已被替换。

使用数据的考虑

社会影响

  • 数据集包含非正式语言,适用于特定领域的语言模型评估。

偏见讨论

  • 对话主要涉及专业内容,可能因事先告知记录而影响对话内容。

其他已知限制

  • 需要更多信息。

附加信息

数据集管理

  • 由UKP的数据经理管理。

许可信息

  • CC-by-NC 4.0

引用信息

  • 请使用提供的引用格式进行引用。

贡献者

  • 感谢@Wuhn添加此数据集。
搜集汇总
数据集介绍
main_image_url
构建方式
在工业制造领域,任务导向型对话数据的稀缺性促使TexPrax数据集应运而生。该数据集通过德国工业生产力中心的工厂工人在日常工作中自然产生的对话构建而成,涵盖了机器故障、材料缺失等实际工业场景。数据收集分为三个批次,时间跨度从2020年10月至2022年7月,确保了时间维度的多样性。句子级标注由工人自行完成,涵盖问题、原因、解决方案等类别;词元级命名实体识别则由研究中心专家采用交叉验证方式标注,保证了标注质量与一致性。
特点
TexPrax数据集展现了工业场景对话的独特语言特征,其文本包含大量非正式表达、缩写词及填充词,真实反映了工厂环境下的口语化交流模式。数据集结构上,除了常规的训练与测试划分,还依据收集时间与生产线领域细分为工业4.0与机械加工子域,为领域适应性研究提供了天然实验环境。数据规模虽有限,但覆盖了202个对话、591个话轮及1027个句子,兼具专业性与真实性,成为低资源领域自然语言处理任务的重要基准。
使用方法
该数据集支持句子分类与命名实体识别两大核心任务,用户可通过Hugging Face的datasets库便捷加载。加载时需指定配置参数,默认配置对应句子分类任务,而'ner'配置则对应命名实体识别任务。数据以JSON格式组织,句子级实例包含对话标识、话轮标识、句子文本及标签等信息;词元级实例则提供词元序列及BIO标注序列。研究人员可借此探索专业领域语言模型迁移、非正式文本理解等前沿课题,推动工业场景自然语言处理技术的发展。
背景与挑战
背景概述
在工业4.0与智能制造浪潮的推动下,人机交互与自然语言处理技术正逐步渗透至生产一线,旨在提升工厂运营效率与工人协作能力。TexPrax数据集由德国达姆施塔特工业大学Ubiquitous Knowledge Processing实验室(UKP Lab)于2022年创建,其核心研究聚焦于工业场景下的任务导向型对话理解。该数据集采集自德国工业生产力中心(CiP)工厂工人的实际工作对话,内容涵盖设备故障、物料缺失等日常问题,并通过句子级分类与令牌级命名实体识别标注,为低资源领域语言模型迁移与工业对话系统开发提供了珍贵语料。
当前挑战
TexPrax数据集致力于解决工业领域任务导向对话的语义理解挑战,其核心在于对非正式、高专业性的德语对话进行精准的意图与实体解析。构建过程中面临多重困难:其一,数据采集需在真实工厂环境中进行,对话具有高度口语化特征,包含大量缩写、填充词与方言变体,对标注一致性构成严峻考验;其二,标注工作依赖跨领域协作,句子级标签由工人自行提供,而令牌级实体标注需由工厂研究员交叉验证,协调成本高昂;其三,数据分三批次历时两年收集,期间工人流动导致对话风格与问题复杂度动态演变,为模型泛化带来潜在偏差。
常用场景
经典使用场景
在工业制造与自然语言处理交叉领域,TexPrax数据集为任务导向型对话系统提供了珍贵的实证基础。该数据集聚焦于德国工厂工人在日常工作中遇到的实际问题,如设备故障、材料缺失等场景下的对话记录。通过句子级别的分类标注(问题、原因、解决方案、其他)和词元级别的命名实体识别标注,该数据集成为研究工业环境下非正式语言处理的典型范例。其多轮次收集方式,跨越不同时间点与工人群体,进一步增强了数据在时序与人员动态变化方面的代表性,为领域自适应研究提供了天然实验场。
实际应用
该数据集的实际价值体现在工业智能化转型的具体环节。基于TexPrax训练的模型可部署于工厂智能客服系统,自动识别工人上报的设备问题、分析故障原因并推荐解决方案,显著提升运维效率。其非正式语言处理能力有助于打破专业术语与日常表达之间的壁垒,使技术文档与现场沟通更好衔接。在工业4.0背景下,此类系统能够降低对专家经验的过度依赖,为新入职工人提供实时指导,促进知识在组织内的有效流转。
衍生相关工作
围绕TexPrax数据集已衍生出多个研究方向。原论文提出的TexPrax消息应用框架,开创了伦理化实时数据收集与标注的新范式。后续研究可沿两个维度拓展:一是基于其时序分割特性开展领域漂移检测与自适应学习,探索模型在工人流动环境下的稳定性;二是结合其实体标注体系,构建工业知识图谱,实现从对话到结构化故障库的自动转化。这些工作共同推动了面向垂直领域的对话系统向更实用、更鲁棒的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作