five

llm-jp/cc-audio-2025-18-rss

收藏
Hugging Face2025-10-02 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/llm-jp/cc-audio-2025-18-rss
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从Common Crawl快照2025-18中提取的音频URL列表的数据集。首先,从快照中的WARC文件提取RSS feed XML内容,然后从中提取音频URL,并去除重复项以确保每个条目都是唯一的。数据集包括以下列:音频URL、与音频URL关联的标题、音频URL的描述、XML页面的语言字段和包含音频URL的XML页面的URL。

This dataset contains a list of audio URLs extracted from the Common Crawl snapshot 2025-18. First, RSS feed XML content is extracted from the WARC files included in the snapshot, then audio URLs are extracted from within the XML. Duplicates are removed based on the audio URLs to ensure each entry is unique. The dataset consists of the following columns: audio_url, title associated with the audio URL, description of the audio URL, language field from the XML page, and URL of the XML page containing the audio URL.
提供机构:
llm-jp
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作