five

YNOC, POS

收藏
arXiv2021-06-07 更新2024-06-21 收录
下载链接:
https://github.com/lanzhang128/disentanglement
下载链接
链接失效反馈
官方服务:
资源简介:
本研究提出了两个合成数据集YNOC和POS,用于评估文本领域的无监督表示解纠缠。YNOC数据集包含描述人物职业的句子,通过三种模板生成,涉及年份、名称、职业和城市四个生成因子。POS数据集则基于词性标签模拟句子结构,定义了16种简单句结构和279种复杂句结构,用于研究词性作为生成因子的解纠缠。这两个数据集为文本领域的表示解纠缠研究提供了实验框架和评估基准,旨在解决文本表示中的信息组织问题。

This study presents two synthetic datasets, YNOC and POS, for evaluating unsupervised representation disentanglement in the text domain. The YNOC dataset comprises sentences describing individuals' occupations, generated via three templates, and incorporates four generative factors: year, name, occupation, and city. The POS dataset simulates sentence structures based on part-of-speech tags, with 16 simple sentence structures and 279 complex sentence structures predefined, to investigate the disentanglement of part-of-speech as a generative factor. These two datasets provide an experimental framework and evaluation benchmark for research on representation disentanglement in the text domain, aiming to address the issue of information organization in text representations.
提供机构:
莫纳什大学数据科学与人工智能系,剑桥大学语言技术实验室
创建时间:
2021-06-07
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作