什么是音频数据集项目？

这个仓库是为音频数据集项目创建的，这是由LAION发起的音频数据集收集计划。这些数据集每个都包含大量的音频-文本对，最终将被处理并用于训练CLAP（对比语言-音频预训练）模型和其他模型。

这里有一个解释视频向您介绍这个项目。

我们是谁？

由于音频数据集是属于LAION的开源项目，我们有一个开源贡献者团队。他们包括LAION成员，来自Mila和UCSD的三人研究小组Yusong Wu、Ke Chen和Tianyu Zhang，实习生Marianna Nezhurina，前实习生Yuchen Hui，以及来自世界各地的许多热情贡献者，如Discord服务器上的@PiEquals4#1909。

我们做了什么？

我们持续收集音频数据集，这里是我们找到的所有数据集的列表。
我们定义了存储和处理所有音频数据集的标准和方法，这对于统一数据集的最终格式以简化模型训练至关重要。我们目前使用的最终数据集格式是webdataset。具体的数据处理流程在这里指定。
您还可以在这里找到每个已处理音频数据集的处理代码。测试这些脚本所需的依赖项在文档environment.txt中指定。请注意，environment.txt可能是一个不完整的列表。还有一个包含冗余包的列表environment.yml（即完整列表的超集），您可以使用命令conda env create --name envname --file=environment.yml创建环境，并使用conda activate envname激活它。

贡献

联系方式

您可以在LAION的Discord服务器的CLAP频道（频道名称是小写的clap）找到我们。
在CLAP频道，如果您对项目有任何问题，请随时与实习生Marianna Nezhurina(marianna13#7139)、Christoph Schuhmann(@spirit-from-germany#1488)、Richard(@rvencu#4120)、Romain(@rom1504#5008)、Yuchen Hui(@Yuchen Hui#8574)、Yusong Wu(@Yusong Wu#3047)、Ke Chen(@Ke Chen#0709)或Tianyu Zhang(@tianyuzhang#1725)交流。括号中的文字是Discord ID。
此外，如果您在贡献过程中需要计算资源，请进入Discord服务器的compute-allocation频道，阅读置顶消息以了解LAION pods的使用方法。如果遇到任何问题，请随时在该频道提问。
7.14更新：旧的LAION pods不再可用，所以您必须在CLAP频道联系Richard(@rvencu#4120)以获取新LAION集群的访问权限。

项目进展

我们创建了一个github项目页面来跟踪数据收集和数据处理的进度。以下是项目的每个板块的一些描述：

待办事项板块：这个板块中放置了列表中尚未转换为webdataset格式且目前没有人在处理的所有数据集。
已分配/进行中/处理中板块：我们列出了已分配给某人处理的数据集，即我们已经有贡献者在处理这些数据集。
审核板块：一旦某个数据集被转换为webdataset格式，相应的项目应该被移到这里，表示它已准备好进行进一步审核（例如，检查是否有任何格式错误，以确保模型训练的质量）。
完成板块：如果在审核阶段没有发现问题，数据集将被归档到"完成"板块，这意味着它已准备好用于训练模型。

如何贡献？

主要有两种方式可以为我们的音频数据集项目做出贡献。

通过网络爬取技术收集分散的音频源（然后将它们转换为webdataset格式，即下面的第二点）。

示例：从剑桥词典爬取单词-发音对，或从YouTube抓取视频，提取声音并与标题关联。

如果您想了解我们目前关注哪些分散的音频源，或者如果您对我们下一步应该抓取什么有建议，请加入我们的Discord。
处理已整理的数据集，即根据流程将它们转换为webdataset格式

示例：Clotho是一个已整理的音频数据集，有自己的格式，我们应该使用data_preprocess/preprocess_clotho.py和utils/make_tars.py将其转换为webdataset格式。有关更多处理细节，请阅读流程部分。

对于这类贡献，建议查看github项目页面中待办事项板块的数据集并加入我们的Discord服务器。请在从待办事项板块选择一个要处理的数据集后联系Marianna Nezhurina(marianna13#7139)，这样我们可以跟踪进度并避免多人同时处理一个数据集的情况。

最后但同样重要的是，如果您发现任何有趣的已整理数据集（如Clotho），您可以在LAION Discord服务器告诉我们。我们最终会将其添加到列表中。

贡献交付

理想情况下，在上述两种情况下，我们希望收到您的webdataset格式数据集。当您将数据集打包成webdataset格式后，将其上传到我们的AWS S3存储桶：aws s3 cp your/webdataset/ s3://s-laion-audio/webdataset_tar/your webdataset/，并联系Marianna Nezhurina(marianna13#7139)，以便她可以将数据集移至审核板块。（如果可能，请也将处理后的（尚未打包的）数据集添加到S3://s-laion-audio/processed_dataset）。

关于AWS S3访问问题，请参见上面联系方式条目中的LAION集群部分，因为如果从LAION新集群访问，AWS S3是可以访问的。

然而，对于抓取的数据集，我们也接受CSV文件，其结构为：

允许我们下载的音频url链接 , 文本

即每行是一个音频url-文本对，这样我们可以轻松地编写批处理文件来处理它。