本文是将文章《线性可分支持向量机的原理推导》中的公式单独拿出来做一个详细的解析,便于初学者更好的理解。
公式 9-1 用来表达训练集样本点  
     
      
       
       
         ( 
        
        
        
          x 
         
        
          i 
         
        
       
         , 
        
        
        
          y 
         
        
          i 
         
        
       
         ) 
        
       
      
        (\mathbf{x}_i, y_i) 
       
      
    (xi,yi) 到线性可分支持向量机分离超平面的距离。
  
      
       
        
         
          
          
           
            
             
             
               d 
              
             
               ^ 
              
             
            
              i 
             
            
           
             = 
            
            
            
              y 
             
            
              i 
             
            
           
             ( 
            
           
             w 
            
           
             ⋅ 
            
            
            
              x 
             
            
              i 
             
            
           
             + 
            
           
             b 
            
           
             ) 
            
           
          
          
          
          
            (9-1) 
           
          
         
        
       
         \hat d_i=y_i(w·x_i+b) \tag{9-1} 
        
       
     d^i=yi(w⋅xi+b)(9-1)
1. 支持向量机的基本背景
支持向量机的目标是找到一个超平面将不同类别的数据分开,且保证间隔(分类超平面与支持向量之间的距离)最大化。超平面的一般形式为:
  
      
       
        
         
         
           w 
          
         
           T 
          
         
        
          x 
         
        
          + 
         
        
          b 
         
        
          = 
         
        
          0 
         
        
       
         \mathbf{w}^T \mathbf{x} + b = 0 
        
       
     wTx+b=0
其中 w \mathbf{w} w 是超平面的法向量, b b b 是偏置。
分类函数  
     
      
       
       
         f 
        
       
         ( 
        
       
         x 
        
       
         ) 
        
       
      
        f(\mathbf{x}) 
       
      
    f(x) 的形式为:
  
      
       
        
        
          f 
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
          = 
         
        
          sign 
         
        
          ( 
         
         
         
           w 
          
         
           T 
          
         
        
          x 
         
        
          + 
         
        
          b 
         
        
          ) 
         
        
       
         f(\mathbf{x}) = \text{sign}(\mathbf{w}^T \mathbf{x} + b) 
        
       
     f(x)=sign(wTx+b)
这表示一个数据点 x \mathbf{x} x 是否位于分类超平面的某一侧,用于预测其分类标签。
2. 公式 9-1 的具体含义
公式 9-1 定义了样本点  
     
      
       
       
         ( 
        
        
        
          x 
         
        
          i 
         
        
       
         , 
        
        
        
          y 
         
        
          i 
         
        
       
         ) 
        
       
      
        (\mathbf{x}_i, y_i) 
       
      
    (xi,yi) 到分类超平面的“带符号距离”:
  
      
       
        
         
          
          
            d 
           
          
            ^ 
           
          
         
           i 
          
         
        
          = 
         
         
         
           y 
          
         
           i 
          
         
        
          ( 
         
         
         
           w 
          
         
           T 
          
         
         
         
           x 
          
         
           i 
          
         
        
          + 
         
        
          b 
         
        
          ) 
         
        
       
         \hat d_i = y_i (\mathbf{w}^T \mathbf{x}_i + b) 
        
       
     d^i=yi(wTxi+b)
解释:
- d ^ i \hat d_i d^i 是带符号的距离,即考虑到样本点属于哪一类(由 y i y_i yi 表示)。
 - y i y_i yi 是样本 i i i 的真实标签,取值为 + 1 +1 +1 或 − 1 -1 −1,分别表示两类。
 - w T x i + b \mathbf{w}^T \mathbf{x}_i + b wTxi+b 是点 x i \mathbf{x}_i xi 到超平面的函数值。
 
3. 公式的推导逻辑
- 当 y i = + 1 y_i = +1 yi=+1 时,如果 w T x i + b > 0 \mathbf{w}^T \mathbf{x}_i + b > 0 wTxi+b>0,说明该点位于超平面正确的一侧,且 d ^ i > 0 \hat d_i > 0 d^i>0 表示它的距离大于 0,意味着分类正确。
 - 当 y i = − 1 y_i = -1 yi=−1 时,若 w T x i + b < 0 \mathbf{w}^T \mathbf{x}_i + b < 0 wTxi+b<0, d ^ i \hat d_i d^i 也是正值,表示分类正确。
 
因此, d ^ i \hat d_i d^i 实际上是样本点到超平面的带符号距离,用来判定样本点是否被正确分类。
4. 为什么引入 y i y_i yi?
y i y_i yi 的作用是将样本点的距离和它的真实分类关联起来。对于每个样本,如果该样本位于超平面正确的一侧(即符合它的类别),则 d ^ i \hat d_i d^i 为正,反之为负。因此, y i y_i yi 的引入确保了无论样本属于哪一类,计算出的距离都是一致的,正值意味着分类正确。
5. 总结
公式 9-1 定义了支持向量机中样本点 ( x i , y i ) (\mathbf{x}_i, y_i) (xi,yi) 到分类超平面的距离,其中通过引入 y i y_i yi 来确保这个距离能够反映样本点是否被正确分类。










