Reuters Corpus|自然语言处理数据集|文本数据数据集
收藏
- Reuters Corpus首次发布,包含超过10,000篇新闻文章,主要用于自然语言处理和信息检索研究。
- Reuters Corpus被广泛应用于机器学习和文本分类领域,成为该领域的重要基准数据集。
- Reuters Corpus的第二版发布,增加了更多的文档和类别,进一步丰富了数据集的内容和多样性。
- Reuters Corpus被用于多项国际自然语言处理竞赛,如TREC和SemEval,推动了相关技术的快速发展。
- 随着大数据和深度学习技术的兴起,Reuters Corpus继续被用作研究和开发新型文本处理算法的重要资源。
- 1The Reuters Corpus: A New Resource for Research in Financial Text AnalysisUniversity of Massachusetts Amherst · 2007年
- 2Financial Sentiment Analysis Using Deep Learning TechniquesUniversity of Waterloo · 2018年
- 3Topic Modeling on Financial News Using the Reuters CorpusUniversity of Cambridge · 2016年
- 4Sentiment Analysis of Financial News Articles Using the Reuters CorpusUniversity of California, Berkeley · 2017年
- 5Exploring the Use of the Reuters Corpus for Financial Market PredictionStanford University · 2019年
Asian Lepidoptera Biodiversity
该数据集包含了亚洲地区蝴蝶和蛾类的多样性信息,包括物种分类、分布区域、生态特征等。
www.gbif.org 收录
猫狗分类
## 数据集描述 ### 数据集简介 本数据集是简单的猫狗二分类数据集,共2个类别,其中训练集包含275张带注释的图像,验证集包含70张带注释的图像。整个数据集共10.3MB,可用于快速模型验证、性能评估、小数据集训练等。 ### 数据集支持的任务 可用于快速模型验证、性能评估、小数据集训练等。 ## 数据集的格式和结构 ### 数据格式 数据集包括训练集train和验证集val,train和val文件夹之下按文件夹进行分类,共有2个子文件夹,同类别标签的图片在同一个文件夹下,图片格式为JPG。同时包含与标注文件中label id相对应的类名文件classname.txt。 ### 数据集加载方式 ```python from modelscope.msdatasets import MsDataset from modelscope.utils.constant import DownloadMode ms_train_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='train') # 加载训练集 print(next(iter(ms_train_dataset))) ms_val_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='validation') # 加载验证集 print(next(iter(ms_val_dataset))) ``` ### 数据分片 本数据集包含train和val数据集。 | 子数据集 | train | val | test | |---------|-------------:|-----------:|---------:| | default | 训练集 | 验证集 | / | ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/tany0699/cats_and_dogs.git ```
魔搭社区 收录
中国逐日格点降水数据集V2(1960–2024,0.1°)
CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。
国家青藏高原科学数据中心 收录
日食计算器
此日食计算器能够查询公元前3000至后3000年范围内的日食信息,生成每次日食的覆盖区、中心区范围数据,展示日食带的地图;并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。
国家天文科学数据中心 收录
VFXMaster
VFXMaster是一个基于参考的动态视觉特效生成框架,旨在解决传统特效制作资源密集、难以泛化的问题。通过上下文学习,该框架能够将参考视频中的复杂动态效果转移到用户提供的图像上。该数据集包含多样化的动态视觉效果类别,并且通过精心设计的上下文注意力掩码机制,模型能够从参考示例中学习到视觉效果,同时避免信息泄露。为了提升对未知特效的泛化能力,还设计了一种高效的单样本特效适配机制,通过学习一组可学习的概念增强标记来快速提高模型对未知特效的泛化能力。
arXiv 收录
