Common Crawl Domain Names

github2024-05-01 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/common-crawl-domain-names

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从Common Crawl中提取并手动添加词边界的域名。例如，将commoncrawl分割为common crawl。这对于文本到语音合成和网络搜索等应用非常重要。数据集以纯文本文件形式存储，每行是一个域名的分割示例。

This dataset comprises domain names extracted from Common Crawl, with manually added word boundaries. For instance, 'commoncrawl' is segmented into 'common crawl'. This is particularly significant for applications such as text-to-speech synthesis and web search. The dataset is stored in plain text files, with each line representing a segmented example of a domain name.

创建时间：

2020-07-15

原始信息汇总

数据集概述

数据集名称

Common Crawl Domain Names

数据集描述

本数据集包含从Common Crawl中抓取的域名，并经过手动标注添加了单词边界。例如，将"commoncrawl"标注为"common crawl"。数据集的目的是为了支持文本到语音合成和网络搜索等应用，通过将域名如"openresearch"分解为"open"和"research"等单词。

数据集内容

数据集以纯文本文件形式存储，每行代表一个域名的空格分隔的单词段。示例包括原始大小写的域名，如"Open B S D"、"NASA"和"ASAP Workouts"。

数据集统计

类型	大小	简单示例	平均输入长度	平均段数
训练	17572	13718	12.63	2.65
评估	1953	1536	12.77	2.67
测试	2170	1714	12.63	2.66

引用信息

若在出版物中使用此数据集，请引用以下文献：

@inproceedings{zrs2020urlsegmentation, title={Semi-supervised URL Segmentation with Recurrent Neural Networks Pre-trained on Knowledge Graph Entities}, author={Hao Zhang and Jae Ro and Richard William Sproat}, booktitle={The 28th International Conference on Computational Linguistics (COLING 2020)}, year={2020} }

搜集汇总

数据集介绍

构建方式

该数据集通过从Common Crawl中抓取的域名进行构建，并经过人工注释以添加词边界。具体而言，从包含多样化字母大小写的URL中提取纯文本（WET）形式的域名，并通过手动标注将诸如“openresearch”这样的域名分解为“open”和“research”等组件词。这一过程对于诸如文本到语音合成和网络搜索等应用至关重要。数据集的构建过程中，区分了简单和复杂的例子，其中简单的例子可以通过字母大小写轻松分割，而复杂的例子则需要人工干预。

使用方法

该数据集以纯文本文件形式存储，每行包含一个由空格分隔的域名分段示例。用户可以直接读取这些文件进行分析和处理。为了生成更具挑战性的例子，用户可以选择将输入转换为小写。数据集适用于多种自然语言处理任务，如文本到语音合成和网络搜索优化。在使用数据集时，用户应遵循提供的引用格式，并在相关研究中正确引用该数据集。如有疑问，用户可以通过GitHub页面创建问题以获取更多信息。

背景与挑战

背景概述

在自然语言处理和信息检索领域，域名分割是一个关键任务，旨在将连续的字母序列分解为有意义的单词，以支持文本到语音合成和搜索引擎优化等应用。Common Crawl Domain Names数据集由Hao Zhang、Jae Ro和Richard William Sproat等研究人员于2020年创建，基于Common Crawl这一开放的网络爬取数据仓库。该数据集通过手动注释的方式，将域名如“commoncrawl”分割为“common crawl”，以提供高质量的训练数据。这一数据集的构建不仅解决了域名分割中的复杂问题，还为相关领域的研究提供了宝贵的资源。

当前挑战

Common Crawl Domain Names数据集在构建过程中面临了显著的挑战。首先，域名分割任务本身具有复杂性，尤其是当域名中不包含明显的分隔符时，如“NASA”。其次，数据的手动注释过程耗时且成本高，尤其是在处理大量数据时。此外，数据集的多样性和覆盖范围也是一个挑战，确保数据能够代表广泛的语言和领域特性。最后，如何有效地利用这些分割后的域名数据进行模型训练和评估，以提升如文本到语音合成和搜索引擎等应用的性能，也是当前研究的一个重要挑战。

常用场景

经典使用场景

在自然语言处理领域，Common Crawl Domain Names数据集的经典应用场景主要集中在域名分词任务上。该数据集通过从Common Crawl中抓取并手动标注域名，将诸如'commoncrawl'这样的连续字符串分解为'common crawl'，从而为文本到语音合成（Text-to-Speech synthesis）和网络搜索等应用提供了关键支持。通过这种分词处理，系统能够更准确地理解和处理域名信息，提升用户体验和搜索效率。

解决学术问题

该数据集解决了自然语言处理中域名分词这一重要的学术问题。传统的域名分词方法往往依赖于字母大小写等显性特征，但在面对诸如'NASA'等无明显分隔符的域名时，这些方法显得力不从心。Common Crawl Domain Names数据集通过手动标注，提供了大量复杂和非平凡的域名分词示例，为研究者提供了一个宝贵的资源，推动了域名分词技术的进步，对自然语言处理领域具有重要意义。

实际应用

在实际应用中，Common Crawl Domain Names数据集被广泛用于改进文本到语音合成系统和搜索引擎的性能。例如，在语音助手和自动语音识别系统中，准确的域名分词可以显著提高语音合成的自然度和准确性。在搜索引擎中，域名分词的准确性直接影响搜索结果的相关性和用户体验。此外，该数据集还可用于训练和评估域名分词算法，帮助开发更智能的网络应用。

数据集最近研究