目录
8 神经网络的表示
8-1 非线性假设
对于一幅图像来说,如果取出每个像素点的灰度值或其他特征表示方法来作为一个数据样本的话,数据集将会非常庞大,如果运用之前的回归算法来计算,将会产生非常大的计算成本
8-2 神经元与大脑
8-3 前向传播-模型展示I

- 上图指一个带有Sigmoid激活函数的人工神经元,在神经网络术语中,
     
      
       
        
         g
        
        
         (
        
        
         z
        
        
         )
        
        
         =
        
        
         
          1
         
         
          
           1
          
          
           +
          
          
           
            e
           
           
            
             −
            
            
             
              θ
             
             
              T
             
            
            
             X
            
           
          
         
        
       
       
        g(z)=\frac{1}{1+e^{-θ^TX}}
       
      
     g(z)=1+e−θTX1称作激活函数
  
- 神经网络指的其实是一组神经网络的集合,第一层(Layer 1)称为输入层(Input Layer),第二层(Layer 2)称为隐藏层(Hidden Layer),第三层(Layer 3)称为输出层(Output Layer)
- 用 a i ( j ) a_i^{(j)} ai(j)来表示第 j j j层的第 i i i个神经元的激活项(“activation” of unit i i i in layer j j j),所谓激活项是指由一个具体的神经元计算并输出的值
- 用
     
      
       
        
         
          Θ
         
         
          
           (
          
          
           j
          
          
           )
          
         
        
       
       
        \Theta^{(j)}
       
      
     Θ(j)表示从第
     
      
       
        
         j
        
       
       
        j
       
      
     j层到第
     
      
       
        
         j
        
        
         +
        
        
         1
        
       
       
        j+1
       
      
     j+1层的权重矩阵(参数矩阵),就是之前的
     
      
       
        
         θ
        
       
       
        \theta
       
      
     θ矩阵(之前的
     
      
       
        
         θ
        
       
       
        \theta
       
      
     θ既可以叫做参数
     
      
       
        
         p
        
        
         a
        
        
         r
        
        
         a
        
        
         m
        
        
         e
        
        
         t
        
        
         e
        
        
         r
        
        
         s
        
       
       
        parameters
       
      
     parameters也可以叫做权重
     
      
       
        
         w
        
        
         e
        
        
         i
        
        
         g
        
        
         h
        
        
         t
        
        
         s
        
       
       
        weights
       
      
     weights)
  
- a 1 ( 2 ) a_1^{(2)} a1(2)、 a 2 ( 2 ) a_2^{(2)} a2(2)和 a 3 ( 2 ) a_3^{(2)} a3(2)的计算公式在上图中已写出
- 其中 Θ ( 1 ) \Theta^{(1)} Θ(1)是一个 3 × 4 3×4 3×4的矩阵
- 如果神经网络在第 j j j层有 s j s_j sj个单元,在第 j + 1 j+1 j+1层有 s j + 1 s_{j+1} sj+1个单元,那么 Θ ( j ) \Theta^{(j)} Θ(j)是一个 s j + 1 × ( s j + 1 ) s_{j+1}×(s_j+1) sj+1×(sj+1)的矩阵
8-4 前向传播-模型展示II
前向传播的矢量化实现:
 
- 把上面式子中的 Θ 10 ( 1 ) + Θ 11 ( 1 ) + Θ 12 ( 1 ) + Θ 13 ( 1 ) \Theta^{(1)}_{10}+\Theta^{(1)}_{11}+\Theta^{(1)}_{12}+\Theta^{(1)}_{13} Θ10(1)+Θ11(1)+Θ12(1)+Θ13(1)表示为 z 1 ( 2 ) z_1^{(2)} z1(2)
- 则 a 1 ( 2 ) = g ( z 1 ( 2 ) ) a_1^{(2)}=g(z_1^{(2)}) a1(2)=g(z1(2))
- 扩展到全域,第二层的激活值 a ( 2 ) = g ( z ( 2 ) ) a^{(2)}=g(z^{(2)}) a(2)=g(z(2)),其中 z ( 2 ) = Θ ( 1 ) a ( 1 ) z^{(2)}=\Theta^{(1)}a^{(1)} z(2)=Θ(1)a(1),另外需要添加偏置项 a 0 ( 2 ) = 1 a^{(2)}_0=1 a0(2)=1
8-5 例子与理解I
8-6 例子与理解II

 上图为计算
    
     
      
       
        
         x
        
        
         1
        
       
      
      
       x_1
      
     
    x1 XNOR 
    
     
      
       
        
         x
        
        
         2
        
       
      
      
       x_2
      
     
    x2的神经网络
 第一层到第二层先计算
    
     
      
       
        
         x
        
        
         1
        
       
      
      
       x_1
      
     
    x1 AND 
    
     
      
       
        
         x
        
        
         2
        
       
      
      
       x_2
      
     
    x2得到
    
     
      
       
        
         a
        
        
         1
        
        
         
          (
         
         
          2
         
         
          )
         
        
       
      
      
       a_1^{(2)}
      
     
    a1(2),计算(NOT 
    
     
      
       
        
         x
        
        
         1
        
       
      
      
       x_1
      
     
    x1) AND (NOT 
    
     
      
       
        
         x
        
        
         2
        
       
      
      
       x_2
      
     
    x2)得到
    
     
      
       
        
         a
        
        
         2
        
        
         
          (
         
         
          2
         
         
          )
         
        
       
      
      
       a_2^{(2)}
      
     
    a2(2)
 再以
    
     
      
       
        
         a
        
        
         1
        
        
         
          (
         
         
          2
         
         
          )
         
        
       
      
      
       a_1^{(2)}
      
     
    a1(2)和
    
     
      
       
        
         a
        
        
         2
        
        
         
          (
         
         
          2
         
         
          )
         
        
       
      
      
       a_2^{(2)}
      
     
    a2(2)为
    
     
      
       
        
         x
        
        
         1
        
       
      
      
       x_1
      
     
    x1和
    
     
      
       
        
         x
        
        
         2
        
       
      
      
       x_2
      
     
    x2计算
    
     
      
       
        
         x
        
        
         1
        
       
      
      
       x_1
      
     
    x1 OR 
    
     
      
       
        
         x
        
        
         2
        
       
      
      
       x_2
      
     
    x2得出的结果即为
    
     
      
       
        
         x
        
        
         1
        
       
      
      
       x_1
      
     
    x1 XNOR 
    
     
      
       
        
         x
        
        
         2
        
       
      
      
       x_2
      
     
    x2
8-7 多元分类

 这里有四种输出:pedestrian、car、motorcycle、truck
 所以共有四个输出单元
 输出的
    
     
      
       
        
         y
        
        
         
          (
         
         
          i
         
         
          )
         
        
       
      
      
       y^{(i)}
      
     
    y(i)为一个4维矩阵,可能是:
 
     
      
       
        
         
          [
         
         
          
           
            
             
              1
             
            
           
          
          
           
            
             
              0
             
            
           
          
          
           
            
             
              0
             
            
           
          
          
           
            
             
              0
             
            
           
          
         
         
          ]
         
        
        
         或
        
        
         
          [
         
         
          
           
            
             
              0
             
            
           
          
          
           
            
             
              1
             
            
           
          
          
           
            
             
              0
             
            
           
          
          
           
            
             
              0
             
            
           
          
         
         
          ]
         
        
        
         或
        
        
         
          [
         
         
          
           
            
             
              0
             
            
           
          
          
           
            
             
              0
             
            
           
          
          
           
            
             
              1
             
            
           
          
          
           
            
             
              0
             
            
           
          
         
         
          ]
         
        
        
         或
        
        
         
          [
         
         
          
           
            
             
              0
             
            
           
          
          
           
            
             
              0
             
            
           
          
          
           
            
             
              0
             
            
           
          
          
           
            
             
              1
             
            
           
          
         
         
          ]
         
        
        
         中
        
        
         的
        
        
         其
        
        
         中
        
        
         一
        
        
         个
        
       
       
        \begin{bmatrix} 1\\ 0\\ 0\\ 0\\ \end{bmatrix}或 \begin{bmatrix} 0\\ 1\\ 0\\ 0\\ \end{bmatrix}或 \begin{bmatrix} 0\\ 0\\ 1\\ 0\\ \end{bmatrix}或 \begin{bmatrix} 0\\ 0\\ 0\\ 1\\ \end{bmatrix}中的其中一个
       
      
     ⎣⎢⎢⎡1000⎦⎥⎥⎤或⎣⎢⎢⎡0100⎦⎥⎥⎤或⎣⎢⎢⎡0010⎦⎥⎥⎤或⎣⎢⎢⎡0001⎦⎥⎥⎤中的其中一个
 分别表示pedestrian或car或motorcycle或truck










