4. 数据集介绍¶
目前本项目已集成三种数据集,分别是Cifar10数据集,ImageNet数据集及ImageCustom数据集。
4.1. Cifar10数据集¶
目前项目提供的Cifar10数据集,采用的是npy格式存储,特点是共有10个类别,且保证均匀分布,每种类别数目一致。用户也可以自行生成,但是要求 label的格式是 one_vector类型如下:
ys_pred_adv [0 0 0 1 0 0 0 0 0 0]
ys_pred_adv [1 0 0 0 0 0 0 0 0 0]
ys_pred_adv [0 0 0 0 0 1 0 0 0 0]
...
ys_pred_adv [0 0 1 0 0 0 0 0 0 0]
Cifar10数据集下载链接¶
http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
Cifar100数据集下载链接¶
http://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz
npy格式生成¶
npy生成的方式可以参考代码 cifartonpy.py:
image
├── EvalBox
├── Models
├── utils
├── test
│ ├── testimport.py
│ ├── testimport_black.py
│ ├── cifartonpy.py
├── Datasets
4.2. ImageNet数据集¶
数据以图片方式保存,对应给出一个图像样本名称和类别号的文件用于做输入
ImageNet数据集图像¶
ImageNet数据集标签文件¶
以~/AI-Testing/image/Datasets/ImageNet/val_10.txt文件为例:
ILSVRC2012_val_00000001.JPEG 65
ILSVRC2012_val_00000002.JPEG 970
ILSVRC2012_val_00000003.JPEG 230
...
ILSVRC2012_val_00000010.JPEG 109
ImageNet数据集类别字典¶
ImageNet数据集类别字典如下所示:
{
0: "tench Tinca tinca",
1: "goldfish. Carassius auratus",
...
27: "eft",
...
}
4.3. ImageCustom数据集¶
该数据集用于商品攻击功能模块。数据集与ImageNet数据集格式类似。