ITN corpus

github2023-09-20 更新2024-05-31 收录

下载链接：

https://github.com/shizhao/ITN-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

ITN corpus是一个多语言可比语料库，收集了维基百科上[ITN](https://en.wikipedia.org/wiki/Template:In_the_news)（新闻中的）摘要内容。每日更新。

ITN语料库系一项多语言可比性语料库，汇聚了维基百科中[ITN](https://en.wikipedia.org/wiki/Template:In_the_news)（新闻焦点）的摘要内容，并实现每日更新。

创建时间：

2022-09-27

原始信息汇总

数据集概述

数据集名称

ITN corpus

数据集描述

ITN corpus是一个多语言可比语料库，收集了维基百科中ITN（新闻中的）的简介内容。该数据集每日更新。

数据格式

数据集采用JSON格式存储。

数据结构

Q106823124: 维基数据项的QID，代表本语料库中的同一主题。
1664055941.0: Unix时间戳，表示句子的创建时间。
lang: 句子语言代码。
keyword: 句子主题，以该语言描述。
blurb: 新闻简短描述，包含HTML标签。

数据集统计

主题数量: 超过380个
句子数量: 超过4000句
语言数量: 56种

许可证

本数据集根据CC BY-SA 3.0许可发布。

搜集汇总

数据集介绍

构建方式

ITN语料库是一个多语言可比语料库，其构建基于维基百科上的“In the news”（ITN）模板中的新闻摘要内容。该语料库以JSON格式存储，每日更新，确保数据的时效性和广泛性。每个条目通过Wikidata的QID标识同一主题，并包含时间戳、语言代码、关键词以及带有HTML标签的新闻摘要。这种结构化的构建方式使得语料库能够高效地支持多语言新闻内容的比较与分析。

特点

ITN语料库的特点在于其多语言性和广泛的主题覆盖。该语料库涵盖了超过56种语言，包含超过5000条句子，涉及400多个主题。每个条目不仅包含新闻摘要，还通过关键词和语言代码进行标注，便于用户进行跨语言的新闻内容对比。此外，语料库中的HTML标签保留了原始文本的格式信息，为文本处理提供了更多的灵活性。这种丰富的语言和主题多样性使得ITN语料库成为跨语言信息检索和自然语言处理研究的宝贵资源。

使用方法

ITN语料库的使用方法灵活多样，适用于多种研究场景。用户可以通过QID和时间戳快速定位特定主题的新闻内容，并通过语言代码筛选出特定语言的文本。语料库中的HTML标签可以用于文本格式的解析与处理，而关键词则有助于主题分类和信息检索。此外，ITN语料库的JSON格式便于程序化处理，用户可以通过脚本或工具进行批量数据提取与分析。该语料库还提供了详细的统计信息，帮助用户了解数据的分布情况，从而更好地设计研究方案。

背景与挑战

背景概述

ITN语料库是一个多语言可比语料库，旨在收集维基百科上“新闻中”（In the News, ITN）模板的简短新闻内容。该数据集由Shizhao等研究人员创建，并于2022年首次发布，涵盖了超过56种语言的5000多条新闻摘要。其核心研究问题在于通过多语言新闻摘要的对比分析，探索不同语言和文化背景下新闻事件的表达差异。该数据集为跨语言信息检索、机器翻译以及多语言自然语言处理任务提供了宝贵的资源，推动了多语言信息处理领域的研究进展。

当前挑战

ITN语料库在构建过程中面临多重挑战。首先，多语言新闻摘要的收集与对齐需要处理不同语言之间的表达差异，确保同一事件在不同语言中的描述具有可比性。其次，数据的时间敏感性要求频繁更新，以保持新闻内容的时效性。此外，HTML标签的嵌入增加了数据清洗和处理的复杂性，尤其是在跨语言文本分析中，如何有效提取和利用这些结构化信息成为一大难题。最后，尽管数据集涵盖了多种语言，但某些语言的样本量较少，可能导致数据不平衡问题，影响模型的泛化能力。

常用场景

经典使用场景

ITN语料库作为一个多语言可比语料库，广泛应用于跨语言信息检索和自然语言处理领域。其经典使用场景包括多语言新闻摘要生成、跨语言文本对齐以及多语言语义分析。通过收集维基百科中“In the news”板块的新闻摘要，ITN语料库为研究者提供了一个丰富的多语言文本资源，支持多语言模型的训练与评估。

解决学术问题

ITN语料库有效解决了跨语言信息检索中的语言障碍问题，为多语言文本对齐和语义分析提供了高质量的数据支持。通过其多语言可比性，研究者能够深入探讨不同语言之间的语义差异与共性，推动跨语言自然语言处理技术的发展。此外，该数据集还为多语言新闻摘要生成提供了基准数据，促进了相关算法的优化与创新。

衍生相关工作

基于ITN语料库，研究者们开发了多项经典工作。例如，ITN Syndication项目利用该语料库实现了多语言新闻的自动分发与同步，成为跨语言新闻传播领域的代表性应用。此外，该数据集还催生了多语言文本对齐算法和多语言语义分析模型的研究，推动了跨语言自然语言处理技术的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集