five

fathutnik/allcups_en_headlines

收藏
Hugging Face2025-08-11 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/fathutnik/allcups_en_headlines
下载链接
链接失效反馈
官方服务:
资源简介:
AllCups是一个新闻标题二分类数据集,用于判断新闻标题是真实存在的还是通过模型生成的。数据来源于ru.wikinews.org的真实新闻标题和合成的新闻标题,合成的新闻标题可能通过规则或语言模型(LLM)生成,并记录了生成参数。数据集通过MinHash去重,并按照时间和主题进行了训练集、验证集和测试集的划分。

AllCups is a binary classification dataset for news headlines, determining whether a headline is real or generated. The data comes from real news headlines from ru.wikinews.org and synthetic headlines generated by rules or language models (LLM), with generation parameters logged. The dataset is deduplicated using MinHash and split into training, validation, and test sets by time and topic.
提供机构:
fathutnik
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作