02讲-数据-PyTorch深度学习快速入门教程

第 02 讲数据📝#

1.1 加载数据#

1.1.1 Dataset#

PyTorch 有关加载数据的，主要涉及 Dataset 和 DataLoader

前者主要告诉后者如何 获取数据 ，后者主要用于 加载数据和为网络提供数据

1
Dataset
2

3
    需要继承抽象父类 \`Dataset\`
4

5
    需要重写两个方法
6

7
        \`__getitem__\`
8

9
        \`__len__\`

read_data.py

1
from torch.utils.data import Dataset
2

3
from PIL import Image
4

5
import os
6

7

8

9
# 自己封装的 MyData类
10

11
class MyData(Dataset):
12

13
    def __init__(self, root_dir, label_dir):
14

15
        self.root_dir = root_dir
16

17
        self.label_dir = label_dir
18

19
        self.path = os.path.join(self.root_dir, self.label_dir)
20

21
        self.img_path = os.listdir(self.path)
22

23

24

25
    def __getitem__(self, idx):
26

27
        img_name = self.img_path[idx]
28

29
        img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)
30

31
        img = Image.open(img_item_path)
32

33
        label = self.label_dir
34

35
        return img, label
36

37

38

39
    def __len__(self):
40

41
        return len(self.img_path)
42

43

44

45
root_dir = "dataset/train"
46

47
ants_label_dir = "ants"
48

49
bees_label_dir = "bees"
50

51
ants_dataset = MyData(root_dir, ants_label_dir)
52

53
bees_dataset = MyData(root_dir, bees_label_dir)
54

55

56

57
# 第1种方式
58

59
print(ants_dataset[0])
60

61

62

63
# 第2种方式（根据上面返回的提示而修改）
64

65
img, label = ants_dataset[0]
66

67
img.show()
68

69

70

71
# 测试两个数据集的拼接 未改变顺序，ants在前 bees在后
72

73
train_dataset = ants_dataset + bees_dataset
74

75
print(len(ants_dataset))
76

77
print(len(bees_dataset))
78

79
print(len(train_dataset))
80

81

82

83
img, label = train_dataset[123]
84

85
img.show()
86

87
img, label = train_dataset[124]
88

89
img.show()

1.1.2 TensorBoard#

我们不知道一个神经网络执行具体细节是什么，要人工调试十分困难

TensorBoard 可以将程序的执行步骤都显示出来，对训练的参数（如损失值）统计并以图展现

1
# 在「pytorch」环境中安装（记得关闭梯子）
2

3
pip install tensorboard

1
SummaryWriter类
2

3
    创建一个事件文件，在给定的目录中添加摘要和事件
4

5
        参数1 存放日志的文件夹名
6

7
本节视频只用到两个方法
8

9
    1. add_image()
10

11
        在事件文件中添加图片
12

13
    2. add_scalar()
14

15
        在TensorBoard中添加标量数据
16

17
        该方法可以用来添加训练过程中的损失值、准确率等指标，以便于在TensorBoard中进行可视化和比较

test_tb.py

1
from torch.utils.tensorboard import SummaryWriter
2

3

4

5
writer = SummaryWriter("logs")  ##存储到logs的文件夹
6

7

8

9
# y = 2x
10

11
# 同一个图像标题下，重复修改y值会导致，新图会包含之前的旧图(是个bug,可以通过删除logs文件再创建)
12

13
for i in range(100):
14

15
    writer.add_scalar("y = 2x", 2*i, i)  # 2*i y轴    i x轴
16

17
writer.close()

查看日志的命令

1
# logdir=事件文件所在的 文件夹名
2

3
tensorboard --logdir=logs
4

5
# 可以修改端口(原端口6006)
6

7
tensorboard --logdir=logs --port=6007

tensorboard.py

1
from torch.utils.tensorboard import SummaryWriter
2

3
from PIL import Image
4

5
import numpy as np
6

7

8

9
writer = SummaryWriter("logs")
10

11

12

13
# 第1步
14

15
# image_path = "data/train/ants_image/0013035.jpg"
16

17
# 第2步
18

19
image_path = "data/train/bees_image/16838648_415acd9e3f.jpg"
20

21

22

23
img_PIL = Image.open(image_path)  ##获取的图像为PIL型
24

25
img_array = np.array(img_PIL)  ##从numpy转换图片类型格式,转为numpy.ndarray型
26

27
print(type(img_array))
28

29
print(img_array.shape) ##查看格式为 "HWC"
30

31

32

33
# 从PIL到Numpy，需要在add_image()中指定图像的每一维
34

35
writer.add_image("test", img_array, global_step=1, dataformats="HWC")
36
  ##`global_step=1`就是告诉TensorBoard：“这张图是训练到第1步时的样子”。通过调整这个值，你能在TensorBoard中滑动查看训练过程中图像的演变。
37
  ##这里的dataformats="HWC"是格式,H代表高度,W代表宽度,C代表通道
38

39

40
writer.close()

1.2 转换数据#

1.2.1 Transforms(一个工具箱)#

Transforms 主要是用于图像变换的操作，可以对图像进行裁剪、标准化等

其包括很多常用的图像处理方法，比如 transforms.ToTensor()

NOTE
为什么用 Tensor 数据类型？ Tensor 类型中的很多属性我们都需要在神经网络中用到，如反向传播、梯度等

test_tf.py

1
from PIL import Image
2

3
from torch.utils.tensorboard import SummaryWriter
4

5
from torchvision import transforms
6

7

8

9
img_path = "data/train/ants_image/0013035.jpg"
10

11
img = Image.open(img_path)
12

13
print(img)
14

15

16

17
# 使用transforms
18

19

20

21
> ToTensor() 可传入\`PIL Image\` 和 \`numpy.ndarray\` 两种图片格式
22
>
23
>     PIL Image：即用PIL的Image工具打开图像的格式
24
>
25
>     numpy.ndarray：即用OpenCV打开图像的格式（所以一般用这种方式打开，不用再转换图像了）
26

27

28

29
tensor_trans = transforms.ToTensor() ##创建tensor_trans工具
30

31
tensor_img = tensor_trans(img) ##使用tensor_trans工具将img转为Tensor型img
32

33
print(tensor_img)
34

35

36
# 创建tensorboard日志 可以使用tensorboard直观展示
37

38
writer = SummaryWriter("logs")
39

40
writer.add_image("Tensor_img", tensor_img, 0)
41

42
writer.close()

补充: 使用 opencv 读取图片

1
import cv2
2

3
cv_img = cv2.imread(img_path)
4

5
print(cv_img) ## 使用opencv读取图片,可以直接得到numpy.ndarray类型img

NOTE
多关注 「输入、输出」 类型，不会的多看 「官方文档」 关注方法需要的 「参数」 ，不知道返回值的时候「Print」打印查看

call.py 展示 Python 中 call 的用法

1
# __call__ 让对象可以直接当函数使用
2

3
# 测试
4

5
class Person:
6

7
    def __call__(self, name):
8

9
        print(" Hello "+name)
10

11

12

13
    def hello(self, name):
14

15
        print("Hello "+name)
16

17

18

19
person = Person()
20

21
#以下两种调用方式
22
person("zhangsan")## 调用的__call__
23

24
person.hello("lisi")## 调用的hello对象名

useful_tf.py 展示 transforms 的一些功能

1
from PIL import Image
2

3
from torch.utils.tensorboard import SummaryWriter
4

5
from torchvision import transforms
6

7

8

9
writer = SummaryWriter("logs")
10

11
img = Image.open("images/0013035.jpg")
12

13

14

15
print(img)  # 打印后得知，图像为RGB三通道
16

17

18

19
# 01 transforms.ToTensor()
20

21
trans_totensor = transforms.ToTensor()
22

23
img_tensor = trans_totensor(img)
24

25
print(img_tensor[0][0][0]) ## 打印张量中第一个通道、第一行、第一列的像素值,这通常是一个介于0到1之间的浮点数
26

27
writer.add_image("ToTensor", img_tensor, 0) ##  0：全局步数(global step)，用于训练过程中跟踪不同步骤的图像
28

29

30

31
# 02 transforms.Normalize()
32

33
# 是一种归一化,目的是将数据调整到特定的范围内，使其更适合模型训练或分析
34
# 公式 output[channel] = (input[channel] - mean[channel]) / std[channel]
35

36
trans_norm = transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])
37
## mean平均值;std标准差
38
## 创建了一个标准化转换器，对RGB三个通道执行：减去均值0.5 ; 除以标准差0.5
39
## 公式为：normalized = (input - mean) / std
40

41
img_norm = trans_norm(img_tensor) ## 输入01得到的Tensor型img
42

43
print(img_norm[0][0][0])
44

45
writer.add_image("Normalize", img_norm, 0)
46

47

48

49
# 03 Resize  用于调整图像尺寸
50

51
# 图像为PIL，经过Resize后，仍为PIL.设计初衷就是处理PIL图像，并保持相同的数据类型输出
52
# transforms.Resize()可以接受两种参数形式：1. 单个整数：将图像的短边缩放到该尺寸，长边按比例缩放 2. 元组(h,w)：将图像精确缩放到指定尺寸
53

54
trans_resize = transforms.Resize((512, 512))
55

56
img_resize = trans_resize(img)
57

58
# 将PIL转为Tensor
59

60
img_resize = trans_totensor(img_resize)
61

62
writer.add_image("Resize", img_resize, 0)
63

64

65

66
# 04 Compose 可以将几个转换组合在一起，先resize，再tensor
67
# Compose中的操作顺序必须合理
68

69
trans_resize_2 = transforms.Resize(512)
70

71
trans_compose = transforms.Compose([trans_resize_2, trans_totensor])  ##相当于合并两个过程
72

73
img_resize_2 = trans_compose(img)
74

75
writer.add_image("Resize", img_resize_2, 0)
76

77

78

79
# 05 RandomCrop  随机裁剪
80

81
trans_random = transforms.RandomCrop(512)
82

83
trans_compose_2 = transforms.Compose([trans_random, trans_totensor])
84

85
for i in range(10):  ##随机裁剪十个
86

87
    img_crop = trans_compose_2(img)
88

89
    writer.add_image("RandomCrop", img_crop, i)
90

91

92

93
writer.close()

dataset_tf.py 展示 transform 与数据集使用

1
import torchvision
2

3
from torch.utils.tensorboard import SummaryWriter
4

5

6

7

8
dataset_transforms = torchvision.transforms.Compose
9
([
10

11
    torchvision.transforms.ToTensor()
12
  ## 这里可以进行其他操作(比如resize等等)
13

14
])
15

16
train_set = torchvision.datasets.CIFAR10(root='./dataset',
17

18
                                        train=True,
19

20
                                        transform=dataset_transforms,
21

22
                                        download=True)
23

24
test_set = torchvision.datasets.CIFAR10(root='./dataset',
25

26
                                        train=False,
27

28
                                        transform=dataset_transforms,
29

30
                                        download=True)
31

32

33

34
# 01 查看一下数据信息
35

36
print(test_set[0])
37

38
## 输出 (<PIL.Image.Image image mode=RGB size=32x32 at 0x23653E11F60>, 3)
39

40
img, target = test_set[0]
41

42
print(img)
43

44
print(target) ## 标签也就是label
45

46

47

48
print(test_set.classes)
49

50
print(test_set.classes[target]) # 输出cat(对应3)
51

52
img.show()
53

54

55

56
# 02 通过tensorboard查看
57

58
writer = SummaryWriter("logs")
59

60

61

62
for i in range(10):
63

64
    img, target = train_set[i]
65

66
    writer.add_image("test_set", img, i)
67

68

69

70
writer.close()

查看 logs 日志

1
tensorboard --logdir="logs"

1.2.2 DataLoader#

batch_size 取四个数据打包成 imgs.targets,相当于融合在一起

取四个数据打包

dataloader.py

1
import torchvision
2

3
from torch.utils.data import DataLoader
4

5
from torch.utils.tensorboard import SummaryWriter
6

7

8
# 准备测试集
9
test_data = torchvision.datasets.CIFAR10("./dataset",
10

11
                                        train=False,
12

13
                                        transform=torchvision.transforms.ToTensor(),
14

15
                                        download=True)
16

17
# 加载测试集
18
test_loader = DataLoader(test_data,batch_size=64,shuffle=True,
19

20
                                                num_workers=0,
21

22
                                                drop_last=True)
23
## shuffle=True表示在每次遍历数据集（即每个 epoch）前，将数据顺序打乱
24
## num_workers=0 表示 使用主线程加载数据（加载将是同步进行的）
25

26

27
# 查看测试数据集中第一张图片
28

29
img, target = test_data[0]
30

31
print(img.shape)
32

33
print(target)
34

35

36

37
writer = SummaryWriter("dataloader")
38

39
for epoch in range(2):  ## 遍历两轮
40

41
    step = 0
42

43
    for data in test_loader:
44

45
        imgs, targets = data
46

47
        # print(imgs.shape)
48

49
        # print(targets)
50

51
        writer.add_images("Epoch:{}".format(epoch),imgs,step)
52

53
        step = step + 1
54

55

56

57
writer.close()

第 02 讲 数据📝#

1.1 加载数据#

1.1.1 Dataset#

1.1.2 TensorBoard#

1.2 转换数据#

1.2.1 Transforms(一个工具箱)#

1.2.2 DataLoader#

第 02 讲数据📝#