five

counter

收藏
OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/counter?tab=summary
下载链接
链接失效反馈
官方服务:
资源简介:
COUNTER语料库专注于乌尔都语新闻文本的重用现象,它包含1200篇文档,这些文档来源于巴基斯坦的五家新闻机构和九家报纸。语料库中的每篇文档都经过人工标注,标注了三个重用级别:完全衍生、部分衍生和非衍生。该语料库支持文本分类任务,特别是文本重用检测。数据以XML格式存储,并提供诸如新闻标题、正文、字数、发布日期和新闻来源等字段。该语料库采用CC-BY-NC-SA 4.0授权许可。
提供机构:
AIWizards
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作