gsarti/change_it
收藏Hugging Face2022-10-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gsarti/change_it
下载链接
链接失效反馈官方服务:
资源简介:
CHANGE-IT数据集包含约152,000篇文章-标题对,这些数据来自两个政治立场对立的意大利报纸:la Repubblica(左翼)和Il Giornale(右翼)。该数据集用于意大利语的风格转换任务,特别是在Evalita 2020评估活动中的CHANGE-IT任务。任务要求将Il Giornale的标题转换为la Repubblica的风格,反之亦然。数据集不仅包含标题,还包括相应的全文文章。数据集的语言为意大利语,数据字段包括标题、全文和对齐值。数据集的分割包括训练集和测试集,训练集包含不同对齐级别的数据,测试集则包含高度对齐的数据。
提供机构:
gsarti
原始信息汇总
数据集概述
数据集名称
- 名称: CHANGE-IT
数据集描述
- 语言: 意大利语 (
it) - 许可证: 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可 (
cc-by-nc-sa-4.0) - 多语言性: 单语种
- 数据集大小: 未知
- 源数据集: 原始数据
- 任务类别: 摘要生成、文本生成
- 标签: 条件文本生成、风格转移
数据集内容
- 内容概述: 包含约152,000对文章-标题,来自两个意大利报纸,分别是左翼的La Repubblica和右翼的Il Giornale,两份报纸均等代表。
- 任务描述: 主要用于意大利语的标题风格转移任务,要求将一个报纸的标题风格转换为另一个报纸的风格。
数据集结构
- 数据实例: 每个实例包含标题、完整文章文本和风格转移的对齐值。
- 数据字段:
headline: 原始报纸标题。full_text: 与标题对应的完整文章文本。alignment: 用于风格转移实验的对齐值,包括A1、A2、A3和R。
- 数据分割: 数据集分为训练集和测试集,每个配置包含5000个高度对齐的实例(A1和A2),10000个中等对齐的实例(A3),以及约48701个弱对齐或不对齐的实例(R)。
支持的任务和排行榜
- 风格转移: 使用指针网络架构进行风格转移,评估指标包括主模型、标题-标题模型、文章-标题模型和整体合规性。
许可证信息
- 许可证: 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可。
引用信息
-
引用格式:
@inproceedings{demattei-etal-2020-changeit, author = {De Mattei, Lorenzo and Cafagna, Michele and DellOrletta, Felice and Nissim, Malvina and Gatt, Albert}, title = {{CHANGE-IT @ EVALITA 2020}: Change Headlines, Adapt News, GEnerate}, booktitle = {Proceedings of Seventh Evaluation Campaign of Natural Language Processing and Speech Tools for Italian. Final Workshop (EVALITA 2020)}, editor = {Basile, Valerio and Croce, Danilo and Di Maro, Maria, and Passaro, Lucia C.}, publisher = {CEUR.org}, year = {2020}, address = {Online} }



