问题
假设有N个样本 x ( 1 ) , x ( 2 ) ⋅ ⋅ ⋅ ⋅ ⋅ x ( N ) x^{(1)},x^{(2)}·····x^{(N)} x(1),x(2)⋅⋅⋅⋅⋅x(N)服从正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),其中 μ \mu μ未知,
(1)使用最大似然估计来求解最优参数
    
     
      
       
        
         μ
        
        
         
          M
         
         
          L
         
        
       
      
      
       \mu^{ML}
      
     
    μML
 (2)若参数
    
     
      
       
        μ
       
      
      
       \mu
      
     
    μ为随机变量,并服从正态分布
    
     
      
       
        N
       
       
        (
       
       
        
         μ
        
        
         0
        
       
       
        ,
       
       
        
         σ
        
        
         0
        
        
         2
        
       
       
        )
       
      
      
       N(\mu_0,\sigma^2_0)
      
     
    N(μ0,σ02),使用最大后验估计来计算求解最优参数
    
     
      
       
        
         μ
        
        
         
          M
         
         
          A
         
         
          P
         
        
       
      
      
       \mu^{MAP}
      
     
    μMAP。
解析
(1)
    
     
      
       
        x
       
      
      
       x
      
     
    x服从均值为
    
     
      
       
        μ
       
      
      
       \mu
      
     
    μ,方差为
    
     
      
       
        
         σ
        
        
         2
        
       
      
      
       \sigma^2
      
     
    σ2的高斯分布:
    
     
      
       
        p
       
       
        
         (
        
        
         x
        
        
         ;
        
        
         μ
        
        
         ,
        
        
         
          σ
         
         
          2
         
        
        
         )
        
       
       
        =
       
       
        
         1
        
        
         
          
           
            2
           
           
            π
           
          
         
         
          σ
         
        
       
       
        
         e
        
        
         
          (
         
         
          −
         
         
          
           
            
             (
            
            
             x
            
            
             −
            
            
             μ
            
            
             )
            
           
           
            2
           
          
          
           
            2
           
           
            
             σ
            
            
             2
            
           
          
         
         
          )
         
        
       
      
      
       p\left( x;\mu ,\sigma ^2 \right) =\frac{1}{\sqrt{2\pi}\sigma}e^{\left( -\frac{\left( x-\mu \right) ^2}{2\sigma ^2} \right)}
      
     
    p(x;μ,σ2)=2πσ1e(−2σ2(x−μ)2),参数
    
     
      
       
        μ
       
      
      
       \mu
      
     
    μ在样本
    
     
      
       
        X
       
      
      
       X
      
     
    X上的似然函数为
     
      
       
        
         p
        
        
         
          (
         
         
          x
         
         
          ∣
         
         
          μ
         
         
          ,
         
         
          
           σ
          
          
           2
          
         
         
          )
         
        
        
         =
        
        
         
          ∏
         
         
          
           n
          
          
           =
          
          
           1
          
         
         
          N
         
        
        
         
          p
         
         
          
           (
          
          
           
            x
           
           
            
             (
            
            
             n
            
            
             )
            
           
          
          
           ;
          
          
           μ
          
          
           ,
          
          
           
            σ
           
           
            2
           
          
          
           )
          
         
        
        
         =
        
        
         
          ∏
         
         
          
           n
          
          
           =
          
          
           1
          
         
         
          N
         
        
        
         
          N
         
         
          
           (
          
          
           
            x
           
           
            
             (
            
            
             n
            
            
             )
            
           
          
          
           ;
          
          
           μ
          
          
           ,
          
          
           
            σ
           
           
            2
           
          
          
           )
          
         
        
       
       
        p\left( x|\mu ,\sigma ^2 \right) =\prod_{n=1}^N{p\left( x^{\left( n \right)};\mu ,\sigma ^2 \right)}=\prod_{n=1}^N{N\left( x^{\left( n \right)};\mu ,\sigma ^2 \right)}
       
      
     p(x∣μ,σ2)=n=1∏Np(x(n);μ,σ2)=n=1∏NN(x(n);μ,σ2)
 为了方便计算,随似然函数取对数得到对数似然函数
     
      
       
        
         log
        
        
         
        
        
         p
        
        
         
          (
         
         
          x
         
         
          ∣
         
         
          μ
         
         
          ,
         
         
          
           σ
          
          
           2
          
         
         
          )
         
        
        
         =
        
        
         log
        
        
         
        
        
         
          ∏
         
         
          
           n
          
          
           =
          
          
           1
          
         
         
          N
         
        
        
         
          p
         
         
          
           (
          
          
           
            x
           
           
            
             (
            
            
             n
            
            
             )
            
           
          
          
           ;
          
          
           μ
          
          
           ,
          
          
           
            σ
           
           
            2
           
          
          
           )
          
         
        
        
         =
        
        
         
          ∑
         
         
          
           n
          
          
           =
          
          
           1
          
         
         
          N
         
        
        
         
          log
         
         
          
         
         
          N
         
         
          
           (
          
          
           
            x
           
           
            
             (
            
            
             n
            
            
             )
            
           
          
          
           ;
          
          
           μ
          
          
           ,
          
          
           
            σ
           
           
            2
           
          
          
           )
          
         
        
       
       
         \log p\left( x|\mu ,\sigma ^2 \right) =\log \prod_{n=1}^N{p\left( x^{\left( n \right)};\mu ,\sigma ^2 \right)}=\sum_{n=1}^N{\log N\left( x^{\left( n \right)};\mu ,\sigma ^2 \right)} 
       
      
     logp(x∣μ,σ2)=logn=1∏Np(x(n);μ,σ2)=n=1∑NlogN(x(n);μ,σ2)
 
     
      
       
        
                       
        
        
         =
        
        
         log
        
        
         
        
        
         
          e
         
         
          
           
            
             2
            
            
             π
            
           
          
          
           σ
          
         
        
        
         
          ∑
         
         
          
           n
          
          
           =
          
          
           1
          
         
         
          N
         
        
        
         
          −
         
         
          
           
            
             (
            
            
             
              x
             
             
              
               (
              
              
               n
              
              
               )
              
             
            
            
             −
            
            
             μ
            
            
             )
            
           
           
            2
           
          
          
           
            2
           
           
            
             σ
            
            
             2
            
           
          
         
        
       
       
         \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\log \frac{e}{\sqrt{2\pi}\sigma}\sum_{n=1}^N{-\frac{\left( x^{\left( n \right)}-\mu \right) ^2}{2\sigma ^2}} 
       
      
                   =log2πσen=1∑N−2σ2(x(n)−μ)2
 上式函数对
    
     
      
       
        μ
       
      
      
       \mu
      
     
    μ求导并令其为零得到下结果:
     
      
       
        
         
          ∑
         
         
          
           n
          
          
           =
          
          
           1
          
         
         
          N
         
        
        
         
          −
         
         
          
           
            
             x
            
            
             
              (
             
             
              n
             
             
              )
             
            
           
           
            −
           
           
            μ
           
          
          
           
            σ
           
           
            2
           
          
         
        
        
         =
        
        
         0
        
       
       
         \sum_{n=1}^N{-\frac{x^{\left( n \right)}-\mu}{\sigma ^2}}=0 
       
      
     n=1∑N−σ2x(n)−μ=0
 我们要想找到的是一组
    
     
      
       
        μ
       
      
      
       \mu
      
     
    μ使得似然函数最大,等价于对数似然函数最大。上式求解得到如下结果:
     
      
       
        
         μ
        
        
         =
        
        
         
          1
         
         
          N
         
        
        
         
          ∑
         
         
          
           n
          
          
           =
          
          
           1
          
         
         
          N
         
        
        
         
          x
         
         
          
           (
          
          
           n
          
          
           )
          
         
        
       
       
         \mu =\frac{1}{N}\sum_{n=1}^N{x^{\left( n \right)}} 
       
      
     μ=N1n=1∑Nx(n)
 上述的
    
     
      
       
        μ
       
      
      
       \mu
      
     
    μ为样本均值。
 (2)根据题目知参数
    
     
      
       
        μ
       
      
      
       \mu
      
     
    μ服从正态分布
    
     
      
       
        N
       
       
        
         (
        
        
         
          μ
         
         
          0
         
        
        
         ,
        
        
         
          σ
         
         
          0
         
         
          2
         
        
        
         )
        
       
      
      
       N\left( \mu _0,\sigma _{0}^{2} \right)
      
     
    N(μ0,σ02)
 参数
    
     
      
       
        μ
       
      
      
       \mu
      
     
    μ的后验分布(Posterior Distribution)为
     
      
       
        
         p
        
        
         
          (
         
         
          μ
         
         
          ∣
         
         
          x
         
         
          ;
         
         
          
           μ
          
          
           0
          
         
         
          ,
         
         
          
           σ
          
          
           0
          
          
           2
          
         
         
          )
         
        
        
         =
        
        
         
          
           p
          
          
           
            (
           
           
            μ
           
           
            ,
           
           
            x
           
           
            ;
           
           
            
             μ
            
            
             0
            
           
           
            ,
           
           
            
             σ
            
            
             0
            
            
             2
            
           
           
            )
           
          
         
         
          
           ∑
          
          
           
            
            
             μ
            
           
           
            p
           
           
            
             (
            
            
             μ
            
            
             ,
            
            
             x
            
            
             ;
            
            
             
              μ
             
             
              0
             
            
            
             ,
            
            
             
              σ
             
             
              0
             
             
              2
             
            
            
             )
            
           
          
         
        
       
       
         p\left( \mu |x;\mu _0,\sigma _{0}^{2} \right) =\frac{p\left( \mu ,x;\mu _0,\sigma _{0}^{2} \right)}{\sum{_{\mu}p\left( \mu ,x;\mu _0,\sigma _{0}^{2} \right)}} 
       
      
     p(μ∣x;μ0,σ02)=∑μp(μ,x;μ0,σ02)p(μ,x;μ0,σ02)
 
     
      
       
        
                       
        
        
         ∝
        
        
         p
        
        
         
          (
         
         
          x
         
         
          ∣
         
         
          μ
         
         
          ;
         
         
          
           σ
          
          
           2
          
         
         
          )
         
        
        
         p
        
        
         
          (
         
         
          μ
         
         
          ;
         
         
          
           μ
          
          
           0
          
         
         
          ,
         
         
          
           σ
          
          
           0
          
          
           2
          
         
         
          )
         
        
       
       
         \ \ \ \ \ \ \ \ \ \ \ \ \ \ \propto p\left( x|\mu ;\sigma ^2 \right) p\left( \mu ;\mu _0,\sigma _{0}^{2} \right) 
       
      
                   ∝p(x∣μ;σ2)p(μ;μ0,σ02)
 令似然函数
    
     
      
       
        p
       
       
        
         (
        
        
         x
        
        
         ∣
        
        
         μ
        
        
         ;
        
        
         
          σ
         
         
          2
         
        
        
         )
        
       
      
      
       p\left( x|\mu ;\sigma ^2 \right)
      
     
    p(x∣μ;σ2)为高斯密度函数,对后验分布取对数得:
     
      
       
        
         ∝
        
        
         log
        
        
         
        
        
         p
        
        
         
          (
         
         
          x
         
         
          ∣
         
         
          μ
         
         
          ;
         
         
          
           σ
          
          
           2
          
         
         
          )
         
        
        
         +
        
        
         log
        
        
         
        
        
         p
        
        
         
          (
         
         
          μ
         
         
          ;
         
         
          
           μ
          
          
           0
          
         
         
          ,
         
         
          
           σ
          
          
           0
          
          
           2
          
         
         
          )
         
        
       
       
         \propto \log p\left( x|\mu ;\sigma ^2 \right) +\log p\left( \mu ;\mu _0,\sigma _{0}^{2} \right) 
       
      
     ∝logp(x∣μ;σ2)+logp(μ;μ0,σ02)
 
     
      
       
        
         ∝
        
        
         −
        
        
         
          1
         
         
          
           2
          
          
           
            σ
           
           
            2
           
          
         
        
        
         
          ∑
         
         
          
           n
          
          
           =
          
          
           1
          
         
         
          N
         
        
        
         
          
           (
          
          
           
            x
           
           
            
             (
            
            
             n
            
            
             )
            
           
          
          
           −
          
          
           μ
          
          
           )
          
         
         
          2
         
        
        
         −
        
        
         
          1
         
         
          
           2
          
          
           
            σ
           
           
            0
           
           
            2
           
          
         
        
        
         
          
           (
          
          
           μ
          
          
           −
          
          
           
            μ
           
           
            0
           
          
          
           )
          
         
         
          2
         
        
       
       
         \propto -\frac{1}{2\sigma ^2}\sum_{n=1}^N{\left( x^{\left( n \right)}-\mu \right)}^2-\frac{1}{2\sigma _{0}^{2}}\left( \mu -\mu _0 \right) ^2 
       
      
     ∝−2σ21n=1∑N(x(n)−μ)2−2σ021(μ−μ0)2
 对上式对
    
     
      
       
        μ
       
      
      
       \mu
      
     
    μ求偏导并令其为零得:
     
      
       
        
         μ
        
        
         =
        
        
         
          
           
            1
           
           
            
             σ
            
            
             2
            
           
          
          
           
            ∑
           
           
            
             n
            
            
             =
            
            
             1
            
           
           
            N
           
          
          
           
            x
           
           
            
             (
            
            
             n
            
            
             )
            
           
          
          
           +
          
          
           
            
             μ
            
            
             0
            
           
           
            
             σ
            
            
             0
            
            
             2
            
           
          
         
         
          
           
            1
           
           
            
             σ
            
            
             0
            
            
             2
            
           
          
          
           +
          
          
           
            N
           
           
            
             σ
            
            
             2
            
           
          
         
        
       
       
         \mu =\frac{\frac{1}{\sigma ^2}\sum_{n=1}^N{x^{\left( n \right)}}+\frac{\mu _0}{\sigma _{0}^{2}}}{\frac{1}{\sigma _{0}^{2}}+\frac{N}{\sigma ^2}} 
       
      
     μ=σ021+σ2Nσ21∑n=1Nx(n)+σ02μ0










