手把手写深度学习(25):下载并清洗WebVid-10M数据集
手把手写深度学习(0):专栏文章导航
前言:WebVid-10M是一个大型文本-视频配对数据集,时至今日,依旧是做视频理解、视频生成等任务的首选数据集。这篇博客手把手详细教大家如何下载和清洗这个数据集。
目录
下载Meta CSV文件
下载源视频文件
改进:多线程并发下载
生成csv文件
DataLoader
下载Meta CSV文件
2.5M Subset
- train (640MB)
wget http://www.robots.ox.ac.uk/~maxbain/webvid/results_2M_train.csv
- val (1.3MB)
w