Paraphrase Database (PPDB)|自然语言处理数据集|释义生成数据集
收藏
- 首次发表Paraphrase Database (PPDB),由Oren Etzioni领导的团队在自然语言处理领域的重要会议上提出,标志着该数据集的诞生。
- PPDB 1.0版本发布,包含约200万个释义对,广泛应用于机器翻译和自然语言理解的研究中。
- PPDB 2.0版本发布,规模扩展至约1000万个释义对,增加了多语言支持,进一步提升了其在跨语言任务中的应用价值。
- PPDB 2.0被广泛应用于多个自然语言处理任务,包括问答系统、信息检索和文本生成,成为该领域的重要资源。
- PPDB 2.0的研究成果在多个顶级会议上被引用和讨论,确立了其在释义识别和生成中的核心地位。
- PPDB 3.0版本发布,引入了更多的语言和领域,增强了数据集的多样性和实用性,继续推动自然语言处理技术的发展。
- PPDB 3.0被多个研究团队用于开发新的自然语言处理模型,显著提升了模型在释义生成和识别任务中的表现。
- PPDB的研究成果被纳入多本自然语言处理教材和参考书籍,成为教学和研究的重要参考资源。
- PPDB继续在多个国际会议和研讨会上被讨论和引用,持续影响着自然语言处理领域的研究方向。
- PPDB的最新研究成果被应用于多个商业产品中,展示了其在实际应用中的巨大潜力和价值。
- 1The Paraphrase Database (PPDB): A Large-Scale Resource for Paraphrase IdentificationUniversity of Edinburgh, Johns Hopkins University, University of Washington · 2013年
- 2PPDB 2.0: Better Paraphrases from Better Paraphrasing ModelsUniversity of Edinburgh, Johns Hopkins University, University of Washington · 2015年
- 3Improving Paraphrase Detection with the Use of Semantic Role LabelingUniversity of Cambridge · 2016年
- 4Paraphrase Generation with Deep Reinforcement LearningUniversity of Edinburgh, University of Cambridge · 2018年
- 5Evaluating the Impact of PPDB on Neural Machine TranslationUniversity of Edinburgh, University of Cambridge · 2019年
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
World Flights
该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。
github 收录
中国1km分辨率逐月NDVI数据集(2001-2023年)
中国1km分辨率逐月NDVI数据集(2001-2023年)根据MODIS MOD13A2数据进行月度最大值合成、镶嵌和裁剪后制作而成,包含多个TIF文件,每个TIF文件对应该月最大值NDVI数据,文件以时间命名。数据值域改为-0.2~1,不再需要除以一万,另外范围扩大到中国及周边地区,可以自行裁剪。数据分为两个文件夹,MVC文件夹中为MOD13A2 NDVI逐月最大值合成结果,mod1k_SGfilter为MVC中数据S-G滤波后的结果。
国家地球系统科学数据中心 收录