机器学习之CNN

2017-10-27

最后更新： 2017-10-27

—— step.1 数据集

　　　首先根据自己想达到的目的，来建立正样本数据集和负样本数据集（ps：如果检测是否有人，正样本及有人的图片，负样本就是为你不想判定为有人的图片），当然如果有已经开源的数据集，我们当然直接拿来用就好。
　　　接下来推荐几个学习时使用的不错数据集：
　　　1. MNIST —— 一个手写数字的数据集
　　　2. 搜狗实验室数据集 —— 搜狗收集了包括人物、动物、建筑、机械、风景、运动等类别
　　　3. ImageNet —— 一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库

—— step.2 CNN介绍

卷积　　　神经网络判断一个图片是否包含“人”的过程，包括四个步骤：

图像输入（InputImage）→
卷积（Convolution）→
最大池化（MaxPooling）→
全连接神经网络（Fully-ConnectedNeural Network）计算 →

步骤如下图：

　　　了解传统的神经网络的就知道，作为神经元的感知机模型十分简单，如全连接层的网络结构，采用矩阵相乘然后进行非线性变换。
　　　感知机模型：
　　　　　　　　　　　　　　　f(x) = sign( Wx + b )
　　　传统神经网络的劣势在于，当需要处理一个4004003的RGB图片时，一张图就需要处理较大的数据量，占用的内存空间会巨大，还必将导致收敛速度慢，使得需要更多训练数据以及更多的迭代。另一方面，全连接网络结构在处理每一个像素时，其相邻像素和距离很远像素都是无差别对待的，并没有考虑图像内容的空间结构。
　　　
　　　通过认识到上面的不足，卷积神经网络产生了，卷积神经网络指的是至少有一层计算为卷积操作的神经网络。卷机操作是其中的核心，他充分利用了图片中相邻区域的信息，通过稀疏连接和共享权值的方式大大减少了参数矩阵的规模，从而减少计算量，也提高了收敛速度。
　　　
　　　所谓的卷积核，其实就是一个权值矩阵，表示如何处理单个像素与邻域像素之间的关系。卷积核的各个元素相对差值较小，就相当于每个像素和周围像素取了个平均值，也就有了模糊降噪的效果。而卷积核的各个元素相对差值较大，就拉大了每个像素和周围像素的差距，也就可以提取边缘，达到锐化的效果。（卷积核元素累加为0时，图片输出亮度会很低，但不会全黑，大部分是黑色，有部分图案边缘存在，也就做到边缘提取了）
　　　
　　　但是，我怎么才知道我们想要的卷积核参数那？
　　　
　　　通过卷机操作和反向传播算法结合，通过大量图片让程序自己学习出卷积核参数即可。
　　　传统神经网络，对于一张1000x1000像素的图来说，就会有多达10万个输入。而对于CNN来说，如果使用的10x10的卷积核，每个节点就只有100个输入，对应100个权值，数量级大大减小。

—— step.3 tensorflow对CNN的项目实现

　　　实现CNN时会用到：
　　　1. 池化 pooling：一种是最大池化（max pooling），在定义窗口内取最大值。另一种是平均池化（average pooling）.池化主要作用是降维。
　　　2. 激活函数 Relu：将一个特征空间的向量通过非线性变换映射到另一个空间中才能实现线性可分。它的优点在于分类效果好，收敛速度快，计算速度快。
　　　3. 多层卷积：将对前面提取的细节特征进行再次提取组合，相当于把视野放大，提取出更完整，更抽象的特征。
　　　4. Dropout：过拟合是指训练结果在训练集和测试集上表现差别很大的情况。

代码实现：

import tensorflow as tf
import numpy as np
import os
from ssutils import *
# 图像二值化
# grayed_image = tf.image.rgb_to_grayscale(image0)
true_path = 'F:/机器学习/目标检测/jiji_test/true_image/正/'
false_path = 'F:/机器学习/目标检测/jiji_test/false_image/负/'
# 函数声明部分
def weight_variable(shape):
    # 正态分布，标准差为0.1，默认最大为1，最小为-1，均值为0
    initial = tf.truncated_normal(shape, dtype=tf.float32, stddev=0.1)
    return tf.Variable(initial)
def bias_variable(shape):
    # 创建一个结构为shape矩阵也可以说是数组shape声明其行列，初始化所有值为0.1
    initial = tf.constant(0.1, dtype=tf.float32, shape=shape)
    return tf.Variable(initial)
def conv2d(x, W):
    # 卷积遍历各方向步数为1，SAME：边缘外自动补0，遍历相乘
    return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')
def max_pool_2x2(x):
    # 池化卷积结果（conv2d）池化层采用kernel大小为2*2，步数也为2，周围补0，取最大值。数据量缩小了4倍
    return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')
# 读取数据
def read_img(true_path,false_path):
    imgs = []
    labels = []
    cate = [true_path + x for x in os.listdir(true_path)]  # os.path.isdir(path + x)
    for idx, folder in enumerate(cate):
        img = imread(folder)
        # img = transform.resize(img, (w, h, c))
        imgs.append(img)
        labels.append(np.array([0.,1.]))
    cate = [false_path + x for x in os.listdir(false_path)]  # os.path.isdir(path + x)
    for idx, folder in enumerate(cate):
        img = imread(folder)
        # img = transform.resize(img, (w, h, c))
        imgs.append(img)
        labels.append(np.array([1.,0.]))
    c = list(zip(imgs, labels))
    random.shuffle(c)
    imgs[:], labels[:] = zip(*c)
    return np.asarray(imgs, np.float32)/255-0.5, np.asarray(labels, np.float32)
# 声明一个占位符，None表示输入图片的数量不定，240*320*4图片分辨率
xs = tf.placeholder(tf.float32, [None, 240,320,4])
# 类别是0-1总共2个类别，对应输出分类结果
ys = tf.placeholder(tf.float32, [None, 2])
keep_prob = tf.placeholder(tf.float32)
# x_image又把xs reshape成了240*320*4的形状.作为训练时的input，-1代表图片数量不定
x_image = tf.reshape(xs, [-1, 240, 320, 4])
## 第一层卷积操作 ##
# 第一二参数值得卷积核尺寸大小，即patch，第三个参数是图像通道数，第四个参数是卷积核的数目，代表会出现多少个卷积特征图像;
W_conv1 = weight_variable([5, 5, 4, 32])
# 对于每一个卷积核都有一个对应的偏置量。
b_conv1 = bias_variable([32])
# 图片乘以卷积核，并加上偏执量，卷积结果240x320x32
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
# 池化结果120x160x32 卷积结果乘以池化卷积核
h_pool1 = max_pool_2x2(h_conv1)
## 第二层卷积操作 ##
# 第一二参数值得卷积核尺寸大小，即patch，第三个参数是图像通道数，第四个参数是卷积核的数目，代表会出现多少个卷积特征图像;
W_conv2 = weight_variable([5, 5, 32, 64])
# 对于每一个卷积核都有一个对应的偏置量。
b_conv2 = bias_variable([64])
# 图片乘以卷积核，并加上偏执量，卷积结果120x160x64
h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
# 池化结果60x80x64 卷积结果乘以池化卷积核
h_pool2 = max_pool_2x2(h_conv2)
## 第三层卷积操作 ##
# 第一二参数值得卷积核尺寸大小，即patch，第三个参数是图像通道数，第四个参数是卷积核的数目，代表会出现多少个卷积特征图像;
W_conv3 = weight_variable([5, 5, 64, 128])
# 对于每一个卷积核都有一个对应的偏置量。
b_conv3 = bias_variable([128])
# 图片乘以卷积核，并加上偏执量，卷积结果60x80x128
h_conv3 = tf.nn.relu(conv2d(h_pool2, W_conv3) + b_conv3)
# 池化结果30x40x128 卷积结果乘以池化卷积核
h_pool3 = max_pool_2x2(h_conv3)
## 第四层卷积操作 ##
# 第一二参数值得卷积核尺寸大小，即patch，第三个参数是图像通道数，第四个参数是卷积核的数目，代表会出现多少个卷积特征图像;
W_conv4 = weight_variable([5, 5, 128, 256])
# 对于每一个卷积核都有一个对应的偏置量。
b_conv4 = bias_variable([256])
# 图片乘以卷积核，并加上偏执量，卷积结果30x40x256
h_conv4 = tf.nn.relu(conv2d(h_pool3, W_conv4) + b_conv4)
# 池化结果15x20x256 卷积结果乘以池化卷积核
h_pool4 = max_pool_2x2(h_conv4)
## 第五层全连接操作 ##
# 二维张量，第一个参数15x20x256的patch，也可以认为是只有一行7*7*64个数据的卷积，第二个参数代表卷积个数共1024个
shape = int(np.prod(h_pool4.get_shape()[1:]))
W_fc1 = weight_variable([shape, 1024])
# 1024个偏执数据
b_fc1 = bias_variable([1024])
# 将第二层卷积池化结果reshape成只有一行15x20x256个数据# [n_samples, 15, 20, 256] ->> [n_samples, 15x20x256]
h_pool2_flat = tf.reshape(h_pool4, [-1, shape])
# 卷积操作，结果是1*1*1024，单行乘以单列等于1*1矩阵，matmul实现最基本的矩阵相乘，不同于tf.nn.conv2d的遍历相乘，自动认为是前行向量后列向量
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)
# dropout操作，减少过拟合，其实就是降低上一层某些输入的权重scale，甚至置为0，升高某些输入的权值，甚至置为2，防止评测曲线出现震荡，个人觉得样本较少时很必要
keep_prob = tf.placeholder(tf.float32)
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)  # 对卷积结果执行dropout操作
## 第六层输出操作 ##
# 二维张量，1*1024矩阵卷积，共2个卷积，对应我们开始的ys长度为2
W_fc2 = weight_variable([1024, 2])
b_fc2 = bias_variable([2])
# 最后的分类，结果为1*1*2 softmax和sigmoid都是基于logistic分类算法，一个是多分类一个是二分类
y_conv = tf.nn.sigmoid(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)
# 定义loss(最小误差概率)，选定优化优化loss，
# cross_entropy = -tf.reduce_sum(ys * tf.log(y_conv))  # 定义交叉熵为loss函数
cross_entropy = tf.reduce_mean(-tf.reduce_sum(ys * tf.log(y_conv),reduction_indices=[1]))       # loss
# tensorboard loss
tf.summary.scalar('loss', cross_entropy)
train_step = tf.train.GradientDescentOptimizer(0.2).minimize(cross_entropy)  # 调用优化器优化，其实就是通过喂数据争取cross_entropy最小化
# 五，开始数据训练以及评测
correct_prediction = tf.equal(tf.argmax(y_conv, 1), tf.argmax(ys, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
# tensorboard loss
tf.summary.scalar('accuracy', accuracy)
init = tf.global_variables_initializer()
imgsData, labelsData = read_img(true_path, false_path)
num_example = imgsData.shape[0]
ratio = 0.5
s = np.int(num_example * ratio)
imgs_train = imgsData[:s]
labels_train = labelsData[:s]
imgs_test = imgsData[s:]
labels_test = labelsData[s:]
with tf.Session() as sess:
    sess.run(init)
    merged = tf.summary.merge_all()
    writer = tf.summary.FileWriter("logs/", sess.graph)
    for i in range(20000):
        # 大乱数据，取得训练数据和测试数据
        imgsData, labelsData = read_img(true_path, false_path)
        num_example = imgsData.shape[0]
        ratio = 0.5
        s = np.int(num_example * ratio)
        imgs_train = imgsData[:s]
        labels_train = labelsData[:s]
        if i % 100 == 0:
            train_accuracy = sess.run(accuracy, feed_dict={xs: imgs_train, ys: labels_train, keep_prob: 0.8})
            print("step %d, training accuracy %g" % (i, train_accuracy))
            sess.run(train_step,feed_dict={xs: imgs_train, ys: labels_train, keep_prob: 0.5})
            summary = sess.run(merged,feed_dict={xs: imgs_train, ys: labels_train, keep_prob: 0.5})
            writer.add_summary(summary, i)
    print("test accuracy %g" % sess.run(accuracy,feed_dict={xs: imgs_test, ys: labels_test, keep_prob: 1.0}))

—— step.4 声明

　　　部分图片和内容来自于网络，若有纠纷麻烦联系邮箱：lc438732659@163.com