1.上周回顾
这周刚开始写
2. 本周计划
完成信息熵与互信息的理论部分,继续完成论文第三部分方法论的书写。
3. 完成情况
3.1 信息熵简单介绍
信息熵是信息论中的一个概念,用于衡量一个随机变量的不确定性或信息量的平均值。它是由香农于1948年提出的,被广泛应用于信息理论、统计学和通信领域。
在信息论中,一个随机变量的熵表示为H(X),其中X是该随机变量。熵的单位通常用比特(bits)来衡量,也可以用纳特(nats)或其他适当的单位。
熵的计算公式为:
  
      
       
        
        
          H 
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
          = 
         
        
          − 
         
        
          Σ 
         
        
          P 
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
          log 
         
        
           
         
        
          P 
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
       
         H(x)=-\Sigma P(x)\log P(x) 
        
       
     H(x)=−ΣP(x)logP(x)
 其中, 
     
      
       
       
         P 
        
       
         ( 
        
       
         x 
        
       
         ) 
        
       
      
        P(x) 
       
      
    P(x)是随机变量X取值为x的概率, 
     
      
       
       
         Σ 
        
       
      
        \Sigma 
       
      
    Σ表示对所有可能的取值求和, 
     
      
       
       
         log 
        
       
          
        
       
      
        \log 
       
      
    log是以某个基数为底的对数运算。
信息熵的直观解释是,如果一个随机变量的熵较高,表示该变量的取值具有较大的不确定性,即我们需要更多的信息来描述或预测它。相反,如果一个随机变量的熵较低,表示该变量的取值具有较小的不确定性,即我们需要较少的信息来描述或预测它。
信息熵在数据压缩、数据传输、密码学等领域具有重要的应用。在数据压缩中,熵被用来衡量数据的冗余性,从而实现更高效的压缩算法。在数据传输中,熵被用来衡量信道的容量,以确定最大可靠传输速率。在密码学中,熵被用来衡量密码算法的安全性,以评估密码密钥的强度。
3.1.1 信息熵公式推导
信息熵的公式推导可以从信息量的基本定义开始,并应用一些概率和信息论的基本原理。
- 信息量的基本定义: 首先,我们引入一个事件的信息量的概念,记作 l ( x ) l(x) l(x),表示事件x发生时所提供的信息量。根据直觉,我们可以假设信息量与事件发生的概率成反比,即事件发生的概率越低,提供的信息量越大。于是,我们可以使用事件的概率的倒数来表示信息量,即 l ( x ) = 1 / P ( x ) l(x) =1/P(x) l(x)=1/P(x)
 - 信息量的期望:对于一个随机变量 
      
       
        
        
          X 
         
        
       
         X 
        
       
     X,它可以取多个不同的取值 
      
       
        
         
         
           x 
          
         
           1 
          
         
        
          , 
         
         
         
           x 
          
         
           2 
          
         
        
          , 
         
         
         
           x 
          
         
           3 
          
         
        
          ⋯ 
         
         
         
           x 
          
         
           n 
          
         
        
       
         x_{1},x_{2},x_{3}\cdots x_{n} 
        
       
     x1,x2,x3⋯xn, 对应的概率分别为 
      
       
        
        
          P 
         
        
          ( 
         
         
         
           x 
          
         
           1 
          
         
        
          ) 
         
        
          , 
         
        
          P 
         
        
          ( 
         
         
         
           x 
          
         
           2 
          
         
        
          ) 
         
        
          , 
         
        
          P 
         
        
          ( 
         
         
         
           x 
          
         
           3 
          
         
        
          ) 
         
        
          , 
         
        
          ⋯ 
         
        
          P 
         
        
          ( 
         
         
         
           x 
          
         
           n 
          
         
        
          ) 
         
        
       
         P(x_{1}),P(x_{2}),P(x_{3}),\cdots P(x_{n}) 
        
       
     P(x1),P(x2),P(x3),⋯P(xn)。我们可以计算每个取值的信息量,并根据概率加权求和得到期望信息量。即 
       
        
         
          
           
            
             
             
               E 
              
              
              
                [ 
               
              
                I 
               
              
                ( 
               
              
                x 
               
              
                ) 
               
              
                ] 
               
              
             
            
           
           
            
             
              
             
               = 
              
             
               Σ 
              
             
               P 
              
             
               ( 
              
             
               x 
              
             
               ) 
              
             
               ∗ 
              
             
               I 
              
             
               ( 
              
             
               x 
              
             
               ) 
              
             
            
           
          
          
           
            
             
            
           
           
            
             
              
             
               = 
              
             
               Σ 
              
             
               P 
              
             
               ( 
              
             
               x 
              
             
               ) 
              
             
               ∗ 
              
             
               ( 
              
             
               1 
              
             
               / 
              
             
               P 
              
             
               ( 
              
             
               x 
              
             
               ) 
              
             
               ) 
              
             
            
           
          
          
           
            
             
            
           
           
            
             
              
             
               = 
              
             
               Σ 
              
             
               1 
              
             
            
           
          
          
           
            
             
            
           
           
            
             
              
             
               = 
              
             
               n 
              
             
            
           
          
         
        
          \begin{aligned} E\left [I(x)\right ]&=\Sigma P(x)\ast I(x)\\ &=\Sigma P(x)\ast(1/P(x))\\ &=\Sigma 1\\ &=n \end{aligned} 
         
        
      E[I(x)]=ΣP(x)∗I(x)=ΣP(x)∗(1/P(x))=Σ1=n
其中, Σ \Sigma Σ表示对所有可能的取值求和, n n n表示随机变量的取值个数。 - 引入对数运算:
由于信息量的期望是随机变量的取值个数,它通常较大且不直观。为了得到一个更直观的度量,我们引入对数运算。
a)对数的性质:
log  ( a b ) = log  ( a ) + log  ( b ) log  ( a / b ) = log  ( a ) − log  ( b ) \log(ab)=\log(a)+\log(b)\\ \log(a/b)=\log(a)-\log(b) log(ab)=log(a)+log(b)log(a/b)=log(a)−log(b)
b) 使用对数运算的信息量公式:
根据上述对数的性质,我们可以将信息量的期望进行变形:
E [ I ( x ) ] = Σ P ( x ) ∗ I ( x ) = Σ P ( x ) ∗ log  ( 1 / P ( x ) ) = − Σ P ( x ) ∗ log  ( P ( x ) ) \begin{aligned} E\left [I(x)\right ]&=\Sigma P(x)\ast I(x)\\ &=\Sigma P(x)\ast\log(1/P(x))\\ &=-\Sigma P(x) \ast \log(P(x)) \end{aligned} E[I(x)]=ΣP(x)∗I(x)=ΣP(x)∗log(1/P(x))=−ΣP(x)∗log(P(x))
这个形式就是信息熵的公式。 
综上所述,通过信息量的基本定义和对数运算的引入,我们可以推导出信息熵的公式为: H ( x ) = − Σ P ( x ) log  P ( x ) H(x)=-\Sigma P(x)\log P(x) H(x)=−ΣP(x)logP(x)
这个公式可以用来计算一个随机变量的信息熵,衡量其不确定性或信息量的平均值。
3.2 互信息
互信息(Mutual Information)是信息论中用于衡量两个随机变量之间相互依赖程度的指标。它测量了两个变量之间的信息共享量,或者说通过观察一个变量可以提供多少关于另一个变量的信息。
 给定两个随机变量 
     
      
       
       
         X 
        
       
      
        X 
       
      
    X和 
     
      
       
       
         Y 
        
       
      
        Y 
       
      
    Y,它们的互信息记作 
     
      
       
       
         I 
        
       
         ( 
        
       
         X 
        
       
         ; 
        
       
         Y 
        
       
         ) 
        
       
      
        I(X;Y) 
       
      
    I(X;Y)。互信息可以通过它们的联合概率分布和各自的边缘概率分布来计算。互信息的公式如下:
  
      
       
        
        
          I 
         
        
          ( 
         
        
          X 
         
        
          ; 
         
        
          Y 
         
        
          ) 
         
        
          = 
         
        
          Σ 
         
        
          Σ 
         
        
          P 
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
          ∗ 
           
        
          l 
         
        
          o 
         
        
          g 
         
        
          ( 
         
        
          P 
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
          / 
         
        
          ( 
         
        
          P 
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
          ∗ 
         
        
          P 
         
        
          ( 
         
        
          y 
         
        
          ) 
         
        
          ) 
         
        
          ) 
         
        
       
         I(X;Y) = \Sigma\Sigma P(x,y) \ast \;log(P(x,y)/(P(x) \ast P(y))) 
        
       
     I(X;Y)=ΣΣP(x,y)∗log(P(x,y)/(P(x)∗P(y)))
 其中, 
     
      
       
       
         Σ 
        
       
      
        \Sigma 
       
      
    Σ表示对所有可能的取值求和, 
     
      
       
       
         P 
        
       
         ( 
        
       
         x 
        
       
         , 
        
       
         y 
        
       
         ) 
        
       
      
        P(x,y) 
       
      
    P(x,y)表示 
     
      
       
       
         X 
        
       
      
        X 
       
      
    X和 
     
      
       
       
         Y 
        
       
      
        Y 
       
      
    Y同时取值为 
     
      
       
       
         x 
        
       
      
        x 
       
      
    x和 
     
      
       
       
         y 
        
       
      
        y 
       
      
    y的联合概率, 
     
      
       
       
         P 
        
       
         ( 
        
       
         x 
        
       
         ) 
        
       
      
        P(x) 
       
      
    P(x)和 
     
      
       
       
         P 
        
       
         ( 
        
       
         y 
        
       
         ) 
        
       
      
        P(y) 
       
      
    P(y)分别表示 
     
      
       
       
         X 
        
       
      
        X 
       
      
    X和 
     
      
       
       
         Y 
        
       
      
        Y 
       
      
    Y的边缘概率。
 互信息的值越大,表示X和Y之间的依赖程度越高;值为零表示 
     
      
       
       
         X 
        
       
      
        X 
       
      
    X和 
     
      
       
       
         Y 
        
       
      
        Y 
       
      
    Y是独立的;而负值表示 
     
      
       
       
         X 
        
       
      
        X 
       
      
    X和 
     
      
       
       
         Y 
        
       
      
        Y 
       
      
    Y之间存在反相关关系。
互信息在许多领域有广泛的应用,包括特征选择、聚类分析、图像处理、自然语言处理等。在特征选择中,互信息可用于衡量一个特征与目标变量之间的相关性,从而帮助选择最相关的特征。在聚类分析中,互信息可以用于度量聚类结果与真实标签之间的一致性。在图像处理和自然语言处理中,互信息可以用于图像分割、文本分类等任务中的特征提取和特征权重计算。
总之,互信息是衡量两个随机变量之间依赖程度的指标,可以用于描述它们之间的信息共享量。
3.2.1互信息公式推导
从信息熵的角度出发,并使用条件熵的概念。
-  
信息熵: 两个随机变量X和Y的信息熵分别表示为 H ( X ) H(X) H(X)和 H ( Y ) H(Y) H(Y),它们的定义如下: H ( X ) = − Σ P ( x ) ∗ log  ( P ( x ) ) H ( Y ) = − Σ P ( y ) ∗ log  ( P ( y ) ) H(X)=-\Sigma P(x) \ast \log(P(x))\\ H(Y)=-\Sigma P(y) \ast \log(P(y)) H(X)=−ΣP(x)∗log(P(x))H(Y)=−ΣP(y)∗log(P(y))
 -  
条件熵:
条件熵是在给定一个随机变量的条件下,另一个随机变量的不确定性或信息量。给定随机变量 X X X的条件下,随机变量Y的条件熵表示为 H ( Y ∣ X ) H(Y|X) H(Y∣X),它的定义如下: H ( Y ∣ X ) = − Σ Σ P ( x , y ) ∗ log  ( P ( y ∣ x ) ) H(Y|X)= -\Sigma\Sigma P(x,y)\ast \log(P(y|x)) H(Y∣X)=−ΣΣP(x,y)∗log(P(y∣x)) -  
互信息的定义:
互信息 I ( X ; Y ) I(X;Y) I(X;Y)表示随机变量X和Y之间的信息共享量,可以用条件熵和边缘熵表示: I ( X ; Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y) = H(Y) - H(Y|X) I(X;Y)=H(Y)−H(Y∣X) -  
边缘概率和联合概率:
随机变量X和Y的边缘概率分布可以通过联合概率分布来计算:
P ( x ) = Σ P ( x , y ) P(x)=\Sigma P(x,y) P(x)=ΣP(x,y)(对所有y求和)
P ( y ) = Σ P ( x , y ) P(y)=\Sigma P(x,y) P(y)=ΣP(x,y)(对所有y求和)
注意: P ( x , y ) P(x, y) P(x,y)表示 X X X和 Y Y Y同时取值为x和y的联合概率。 -  
这一步推导还有一些,来不及写了
 
4. 存在的主要问题
之前代码写的方案放太久了,忘了当时怎么做的了,现在正在回看代码,倒推自己的方案。。
5. 下一步工作
继续对互信息评分系统和网络创新部分的方法论进行写作。
 但是下两周要离校自驾旅游一趟,请个假,暂停一下周报,回来后会全力继续。










