five

CroCoSum

收藏
arXiv2024-05-23 更新2024-06-21 收录
下载链接:
https://github.com/RosenZhang/CroCoSum
下载链接
链接失效反馈
官方服务:
资源简介:
CroCoSum是由布朗大学创建的一个专注于跨语言代码切换摘要的数据集,包含超过24,000篇英文源文章和18,000篇人工编写的中文新闻摘要,其中超过92%的摘要包含代码切换短语。该数据集通过收集solidot.org上的技术新闻摘要构建,旨在研究代码切换现象在跨语言摘要中的应用,解决现有数据集依赖翻译而忽视自然语言表达的问题。

CroCoSum is a dataset dedicated to cross-lingual code-switching summarization, created by Brown University. It encompasses over 24,000 English source articles and 18,000 manually curated Chinese news summaries, with more than 92% of these summaries containing code-switching phrases. Developed by collecting technical news content from solidot.org, this dataset is designed to study the application of code-switching in cross-lingual summarization, aiming to address the issue that existing datasets rely on translation while neglecting naturally occurring linguistic expressions.
提供机构:
布朗大学
创建时间:
2023-03-08
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作