TED-dataset

github2024-02-20 更新2024-05-31 收录

下载链接：

https://github.com/oussamaahmia/TED-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

TED-dataset包含两个子数据集：fd-TED和par-TED。fd-TED数据集来源于TED - Tenders Electronic Daily平台的全文文档，适用于监督分类或训练机器学习模型用于商业智能应用。par-TED数据集是一个多语言（24种语言）对齐的平行语料库，包含至少23种语言的独特句子翻译。

The TED-dataset comprises two sub-datasets: fd-TED and par-TED. The fd-TED dataset is derived from the full-text documents of the TED - Tenders Electronic Daily platform, suitable for supervised classification or training machine learning models for business intelligence applications. The par-TED dataset is a multilingual (24 languages) aligned parallel corpus, containing unique sentence translations in at least 23 languages.

创建时间：

2017-09-29

原始信息汇总

TED-dataset 概述

数据集组成

par-TED: 一个多语言（24种语言）对齐的平行语料库，包含至少23种语言翻译的独特句子。
fd-TED: 从TED − Tenders Electronic Daily平台提取的文档全内容构建的语料库，适用于监督分类或训练机器学习模型，应用于商业智能。

数据集特点

更新频率: 定期更新以追踪欧盟国家发布的新招标公告。
fd-TED过滤版本: 忽略行政信息的版本。

数据集用途

作为监督分类的基准。
用于训练机器学习模型，特别是商业智能应用。

引用信息

@inproceedings{ahmia-etal-2018-two, title = "Two Multilingual Corpora Extracted from the Tenders Electronic Daily for Machine Learning and Machine Translation Applications.", author = "Ahmia, Oussama and B{e}chet, Nicolas and Marteau, Pierre-Fran{c{c}}ois", booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)", month = may, year = "2018", address = "Miyazaki, Japan", publisher = "European Language Resources Association (ELRA)", url = "https://www.aclweb.org/anthology/L18-1583", }

搜集汇总

数据集介绍

构建方式

TED-dataset由两个子数据集fd-TED和par-TED构成，其构建过程紧密结合了欧盟国家发布的招标公告。par-TED数据集是一个多语言对齐语料库，包含至少23种语言的平行句子，确保了多语言翻译任务的丰富性。fd-TED数据集则直接从TED（Tenders Electronic Daily）平台提取的文档内容构建，适用于监督分类或商业智能应用的机器学习模型训练。此外，fd-TED还提供了过滤版本，剔除了文档中的行政信息，以提升数据集的纯净度。

特点

TED-dataset的显著特点在于其多语言性和广泛的应用场景。par-TED数据集涵盖了24种语言的平行句子，为机器翻译任务提供了丰富的多语言资源。fd-TED数据集则基于完整的招标文档内容，适用于多种机器学习任务，尤其是商业智能领域。过滤版本的fd-TED进一步优化了数据质量，使其更适合特定研究需求。数据集定期更新，确保与最新的欧盟招标公告保持同步。

使用方法

TED-dataset的使用方法灵活多样，适用于多种研究场景。par-TED数据集可用于多语言机器翻译模型的训练与评估，其平行句子结构为跨语言研究提供了便利。fd-TED数据集则可用于监督分类任务或商业智能应用的模型训练，其完整文档内容为文本分析提供了丰富的数据源。过滤版本的fd-TED则更适合需要高纯度数据的研究场景。用户可通过提供的Google Drive链接访问数据集，并参考相关文献以获取更详细的使用指导。

背景与挑战

背景概述

TED-dataset由Oussama Ahmia、Nicolas Béchet和Pierre-François Marteau等研究人员于2018年创建，旨在为机器学习和机器翻译应用提供多语言语料库。该数据集包含两个子集：fd-TED和par-TED，分别从欧盟的Tenders Electronic Daily平台提取的完整文档内容和多语言对齐的平行句子组成。fd-TED可用于监督分类或商业智能应用的机器学习模型训练，而par-TED则提供了24种语言的平行句子，支持多语言翻译研究。该数据集在自然语言处理领域具有重要影响力，特别是在多语言文本处理和商业智能分析方面。

当前挑战

TED-dataset在构建过程中面临的主要挑战包括多语言对齐的复杂性和文档内容的多样性。par-TED需要确保24种语言的句子在语义和结构上保持一致，这对语言对齐技术提出了高要求。fd-TED则需处理大量非结构化文档，提取有效信息并过滤无关的行政内容，这对数据清洗和预处理提出了挑战。此外，该数据集的应用场景涉及商业智能和机器学习，要求数据具有高质量和广泛覆盖性，这对数据集的构建和维护提出了持续的技术和资源需求。

常用场景

经典使用场景

TED-dataset在自然语言处理领域中被广泛应用于多语言机器翻译和文本分类任务。par-TED子数据集作为一个包含24种语言的平行语料库，为跨语言翻译模型提供了丰富的训练数据。fd-TED子数据集则通过提取TED平台的完整文档内容，为商业智能应用中的文本分类和机器学习模型训练提供了基准。

解决学术问题

TED-dataset有效解决了多语言机器翻译中的语料稀缺问题，尤其是在低资源语言对之间的翻译任务中表现出色。同时，fd-TED子数据集为文本分类任务提供了高质量的标注数据，推动了监督学习算法在商业智能领域的应用。该数据集的发布填补了多语言语料库和商业文本分类数据集之间的空白，为相关研究提供了重要的数据支持。

衍生相关工作

TED-dataset的发布催生了一系列相关研究，尤其是在多语言机器翻译和文本分类领域。基于par-TED子数据集的研究工作推动了低资源语言翻译模型的性能提升，而fd-TED子数据集则激发了商业智能领域中的文本分类算法创新。这些衍生工作不仅扩展了数据集的应用范围，也为相关领域的学术研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集