贝叶斯预测的计算结果分析

2024-05-14 20:59

1. 贝叶斯预测的计算结果分析

根据表l和表2对1980-2005年出口额的预测结果可知,常均值折扣模型所得结果的平均绝对百分误差MAPE=8.1745%,而由抛物线回归模型所得结果的平均绝对百分误差为9.5077% 。由此可见这组数据中, 使用贝叶斯模型预测的结果更为精确。对于随机波动、变化相对稳定的数据,用常均值折扣模型预测是比较精确。这里研究的贝叶斯统计预测方法,在许多领域都可能适用。在解决这类相关问题时,贝叶斯统计预测方法与传统的预测方法相比有明显优势。

贝叶斯预测的计算结果分析

2. 贝叶斯预测的Bayes预测模型及其计算步骤

此处使用常均值折扣模型, 这种模型应用广泛而且简单,它体现了动态现行模型的许多基本概念和分析特性。常均值折扣模型对每一时刻t常均值折模型记为DLM{1,1,V,δ},折扣因子δ,O<δ<l定义如下:观测方程:μt = μt − 1 + ωt,ωt~N [O,Wt]状态方程:yt = μt + vt,vt~N [0,V]初始信息:~N [m0,C0]其中μ是t时刻序列的水平,Vt是观测误差项或噪声项,ωt是状态误差项。定理:对于每一时刻t,假设μt − 1的后验 分布()~N [mt − 1,Ct − 1],则μt的先验分布()~N [mt − 1,Rt],其中Rt = Ct − 1 + Wt。推论1:()~N [ft,Qt],其中ft = mt − 1,Qt = Rt + V。推论2:μt的后验分布()~N [mt,Ct],其中mt = mt − 1 + Atet,Ct = ATvt,At = Rt / Qt,et = yt − ft由于Rt=Ct-1+Wt=Ct-1/δ,故有W − t = Ct − 1(δ − 1)其计算步骤为:(1)Rt = C − t / δ; (2)Qt = Rt + V;(3)At = Rt / Qt; (4)ft − 1 = mt − 1;(5)et − yt − ft − 1; (6)Ct = AtV;(7)mt − mt − 1 + Atet

3. 贝叶斯预测的贝叶斯预测模型的概述

贝叶斯预测模型是运用贝叶斯统计进行的一种预测.贝叶斯统计不同于一般的统计方法,其不仅利用模型信息和数据信息,而且充分利用先验信息。托马斯·贝叶斯(Thomas Bayes)的统计预测方法是一种以动态模型为研究对象的时间序列预测方法。在做统计推断时,一般模式是:先验信息+总体分布信息+样本信息→后验分布信息可以看出贝叶斯模型不仅利用了前期的数据信息,还加入了决策者的经验和判断等信息,并将客观因素和主观因素结合起来,对异常情况的发生具有较多的灵活性。这里以美国1960—2005年的出口额数据为例,探讨贝叶斯统计预测方法的应用。

贝叶斯预测的贝叶斯预测模型的概述

4. 贝叶斯预测的介绍

贝叶斯预测是一种以动态模型为研究对象的时间序列预测方法,一般模式为先验+总体分布+样本→后验分布。

5. 贝叶斯公式应用实例

写作话题: 

贝叶斯预测模型在矿物含量预测中的应用
贝叶斯预测模型在气温变化预测中的应用
贝叶斯学习原理及其在预测未来地震危险中的应用
基于稀疏贝叶斯分类器的汽车车型识别
信号估计中的贝叶斯方法及应用
贝叶斯神经网络在生物序列分析中的应用
基于贝叶斯网络的海上目标识别
贝叶斯原理在发动机标定中的应用
贝叶斯法在继电器可靠性评估中的应用


相关书籍: 

Arnold Zellner 《Bayesian Econometrics: Past, Present and Future》
Springer 《贝叶斯决策》
黄晓榕 《经济信息价格评估以及贝叶斯方法的应用》
张丽 , 闫善文 , 刘亚东 《全概率公式与贝叶斯公式的应用及推广》
周丽琴 《贝叶斯均衡的应用》
王辉 , 张剑飞 , 王双成 《基于预测能力的贝叶斯网络结构学习》
张旭东 , 陈锋 , 高隽 , 方廷健 《稀疏贝叶斯及其在时间序列预测中的应用》
邹林全 《贝叶斯方法在会计决策中的应用》
周丽华 《市场预测中的贝叶斯公式应用》
夏敏轶 , 张焱 《贝叶斯公式在风险决策中的应用》
臧玉卫 , 王萍 , 吴育华 《贝叶斯网络在股指期货风险预警中的应用》
党佳瑞 , 胡杉杉 , 蓝伯雄 《基于贝叶斯决策方法的证券历史数据有效性分析》
肖玉山 , 王海东 《无偏预测理论在经验贝叶斯分析中的应用》
严惠云 , 师义民 《Linex损失下股票投资的贝叶斯预测》
卜祥志 , 王绍绵 , 陈文斌 , 余贻鑫 , 岳顺民 《贝叶斯拍卖定价方法在配电市场定价中的应用》
刘嘉焜 , 范贻昌 , 刘波 《分整模型在商品价格预测中的应用》
《Bayes方法在经营决策中的应用》
《决策有用性的信息观》
《统计预测和决策课件》
《贝叶斯经济时间序列预测模型及其应用研究》
《贝叶斯统计推断》
《决策分析理论与实务》

贝叶斯公式应用实例

6. 贝叶斯估计的介绍

贝叶斯估计,是在给定训练数据D时,确定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。

7. 参数的贝叶斯估计

  介绍    第一部分  参数方法——类密度模型参数估计    第二部分  监督学习——分类(基于似然的方法)    第三部分  监督学习——分类(基于判别式的方法)(参数方法——判别式参数估计)    第四部分  监督学习——回归    第五部分  监督学习——关联规则    第六部分  维度规约(特征的提取和组合)    第七部分  半参数方法    第八部分  非监督学习——聚类    第九部分  非参数方法——密度估计    第十部分  非参数方法——决策树实现的判别式    第十一部分  多层感知器——非参数估计器    第十二部分  局部模型    第十三部分  支持向量机与核机器    第十四部分  隐马尔科夫模型    第十五部分 参数的贝叶斯估计   第十六部分  集成学习——组合多学习器    第十七部分  增强学习    第十八部分  机器学习实验    第十九部分  特征工程与数据预处理 
   在贝叶斯方法中,把参数看做具有某种概率分布的随机变量,对参数的这种不确定性建模。   在极大似然估计中,把参数看做未知常数,取最大化似然  的参数为估计值。但在使用小样本时,极大似然估计可能是很差的估计,在不同的训练集上求得的参数相差较大,具有较大方差。   在贝叶斯估计中,利用估计  具有不确定这一事实,不是估计单个  ,而是通过估计分布  ,加权使用所有的  。也就是分摊估计的不确定性。
   在估计  时,可以利用我们可能具有的关于参数值的先验信息  。尤其在使用小样本时,先验信息很重。使用贝叶斯规则,将先验与似然结合在一起,来计算后验  。   这样,给定样本X,能够用它估计新实例  的概率分布:        如果  是离散值,则用  取代积分,后验则为样本X下每个  的可能性。
   这与《 参数方法——类密度模型参数的估计 》中介绍的贝叶斯估计不同,没有先估计确定的  ,而是对所有可能的后验进行了积分,是 全贝叶斯方法 。
   但大多数情况下这个 积分很难计算 的,除非后验有很好的形式(所以《参数方法——类密度模型参数的估计》中的方法,将参数归结到一点,不去计算这个积分)。
   但贝叶斯估计还是有其独有的 优点 。首先先验帮助 忽略了不太可能的  值 。此外,不是在预测时使用单个  ,而是生成 可能的  值集合 ,并在预测时 全部使用 ,用可能性加权。   而最大后验(MAP)方法使用先验,则只利用了第一个优点。而对于极大似然(ML)方法,这两个优点都不具备。
   对于 很多无法计算的情况,通过近似计算来处理 ,包括马尔科夫链蒙特卡洛抽样,拉普拉斯近似、变分近似。
     
   考虑样本来自一元高斯分布,  ,分布的参数  ,  是需要估计的。样本似然是  
   对多元变量样本,与一元样本的方法相同,只是使用了多元高斯分布  。其中  是 精度矩阵 。   对于均值,使用多元高斯先验     对于精度矩阵,使用多元版本的伽马分布(又称Wishart分布)先验  。
     
   同上面概率分布的参数一样,对函数参数的估计,同样将参数看做具有一种先验分布的随机变量。使用贝叶斯规则计算后验,再求积分。
   考虑 线性回归模型   ,其中  ,  是噪声的精度。   模型的参数是权重  ,记样本为  ,其中  ,  。将样本记为输入矩阵和期望输出向量两部分  。   给定输入的输出有概率分布  
   在 贝叶斯估计 的情况下,为参数  定义一个高斯先验  。对于后验,可得到  。   其中  ,  。   为了得到新输入  的输出  。
   如果采用 最大后验估计 对参数做点估计,由于后验为高斯分布,则有  
   MAP等同于最大化后验的对数     
   而同样作为点估计的 极大似然估计 ,并没有利用先验信息。整体样本的对数似然为  ,其中第二项相对于参数是常数。   把似然的第一项展开成        最大似然估计要最大化对数似然,等价于最小化最后一项,即最小化误差的平方和的参数  。误差平方和为     关于  求导并令其等于零,可得到             对于 一般模型   ,不便于像线性模型一样求解最大似然和最大后验估计。但思想是类似地,一样可通过最小化误差平方和  求得 最小二乘估计子   ,来计算输入的输出  。   或采用最大后验作为参数估计,由(b)的形式可写出一个适用于一般函数的增广误差函数        该目标函数比误差平方和多了一项,在统计学中称之为 岭回归 。是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,使更为符合实际、更可靠的回归方法。对病态数据的拟合要强于最小二乘法。(对于线性模型来说,则避免(c)中  矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大。正如MAP的解(a)比ML的解(c)在对角线增加了阐述想  ,保证矩阵可逆。)
   在《 多层感知器 》一节中的网络规模部分介绍的权重衰减(a),也有岭回归的形式,由第二项给每个  一个靠近0的趋势。它们的目的都是降低模型复杂度,是正则化方法。
     
   前一部分假设噪声服从给定的正态分布,  。如果  也是未知的,那么也可以对它定义先验。同前文对高斯分布参数的贝叶斯估计一样,对精度  定义伽马先验  ,   进一步定义  基于  的先验  。   如果  ,  ,则如前一部分所讨论的。   参数  和  的共轭先验为正态-伽马先验:        可得后验  
   其中                 
   这里采用 马尔科夫链蒙特卡洛抽样(MCMC) 来得到贝叶斯拟合。首先从  中抽取一个  值,然后从  抽取  。   这样得到一个从后验  中抽样的模型,通过抽取多个模型,并取这些模型的平均,作为 全贝叶斯积分的近似 。
     
   对给定输入  ,使用参数  的MAP估计(a)来计算输出        这是对偶表示,其中  包含先验参数。如果像用支持向量机那样用训练数据表示参数,可以把预测输出写成输入和悬链数据的函数,我们可以把这表示为  。   其中     
   考虑到可以使用非线性基函数  映射到新空间,在新空间中拟合线性模型(《 核机器 》)。这种情况下,作为线性核(d)的推广,其中的 d 维  变为 k 维的  。        其中,  ,  ,  是  映射后的数据矩阵。这是  的空间中的对偶表示。
   在《 监督学习——分类(基于判别式的方法) 》中介绍的逻辑斯蒂判别式,对两类问题,假定线性可分,有  。伯努利样本的对数似然为  。通过最大似然估计得到参数  的估计。   在贝叶斯方法中,假定参数的高斯先验  ,而后验的对数为        这个后验分布不再是高斯分布,并且不能精确地积分。这里使用 拉普拉斯近似 。

参数的贝叶斯估计

8. 贝叶斯公式的现实应用

观点应该跟着事实不断修订。坚定不移不对,听风就是雨也不对——科学的修订,就是贝叶斯方法。
  
 
  
                                          
 贝叶斯公式在概率论与数理统计中必学的概念,要真正的达到应用这个概念还得稍微理解一下公式:
  
 贝叶斯公式完全是建立在一个等式P(A)*P(B|A) = P(B) * P(A|B)之上,而P(A)*P(B|A)和P(B)*P(A|B)的结果都是P(AB),意思是事件A和事件B同时发生的概率。等式中P(A|B)指的是条件概率,即在B已经发生的情况下,A发生的概率,如果B代表下雨的概率,A代表一个人出门带伞的概率,那P(A|B)本质上还是带伞的概率,不过是下雨天的情况下一个人出门带伞的概率。根据经验可以得出,P(A|B)应该是大于P(A)的。平时我们对存在外星人(记作事件A)这一观点的相信的概率可以用P(A)来表示,一般而言咱都不怎么相信外星人存在的,P(A)应该无限趋于0,可是突然有一天一个正儿八经的专家说证明确实有外星人存在(记为事件B),那此时,我们相信外星人存在的概率已经不是P(A)了,而是P(A|B),而这个值可能就要比0大不少了。要是某一天,大半个地球的人都说看到了外星人(记为C),那我们此时相信外星人存在的概率P(A|C)可能就要提高到1,也就是几乎确定就是有外星人存在。
  
 对上面的等式稍微一变形,就可以得到贝叶斯公式 : P(A|B) = P(A) *  P(B|A) / P(B) ,其中P(A)是我们原来对一件事的原有的判断,叫做先验概率;P(A|B)就代表了我们在得到一些证据B之后对原来事物的概率,叫做后验概率。别看公式形式比较复杂,但是有个简单的理解方法:我们把等式右边 P(B|A) / P(B) 看作一个整体,称之为似然比(可以简单理解成证据的有效程度),那么整个公式便可以简单理解成P(你后来的观点)= 似然比 * P(你一开始的观点)。当有新的证据出现之后,别忙着不变,也别忙着立马推翻自己的态度,看看证据的有效性如何,如果真的有效,那就多调整一点自己的态度,如果证据的力度不大,那就少调整一点。卡尔·萨根说过一句话:“超乎寻常的论断需要超乎寻常的证据”,在贝叶斯看来这句话的意思不过是,要想从根本上说服我,你必须拿出唬得住我的东西来。而佛说:哪有什么一定之论,在我眼里,全是概率。
                                          
 如果只想知道哲学上的东西,看官可就此打住,可如果看知道贝叶斯的具体威力,我们不妨来搞一下数学。在狼来了的故事中,我们用A表示小孩可信,B表示小孩说谎。不妨设我们过去对小孩子的印象为P(A)=0.8,P(~A)=0.2。现在我们来计算P(A|B),即小孩说了一次慌滞后的可信程度。在公式中P(B)表示在任何条件下小孩子说谎的概率,可以拆分为P(A)*P(B|A)和P(~A)*P(B|~A),P(B|A)和P(B|~A)分别表示在我们相信他时他说谎的概率和我们不相信他时他说谎的概率,分为设之为0.1和0.5。有一天小孩是说狼来了,80%的可能性狼来了,我们想吃狼肉,于是我们第一次上山打狼,发现狼没有来,即小孩子说了谎。此时P(A|B) = P(A) * P(B|A) / P(B) = 0.8*0.1 / (0.8*0.1 + 0.2*0.5) = 0.444,表明我们上一次当之后对这个小孩的可信程度从0.8下降到了0.444。在此基础之上,有一天小孩又说狼来了,有44.4%的可能性狼来了,本来不想去的,但是上次没吃到狼肉心里痒痒,于是我们又上山打狼,结果小孩又对我们撒了一次谎,狼没有来。我们对他的可信程度P(A|B) =0.444*0.1 /(0.444*0.1 +0.556*0.5) = 0.138,我们上了这小孩两次当,对小孩的可信程度由原来的0.8下降到了0.138。第三次小孩又喊狼来了,我们把小孩子吃了。
  
 有时候明明可以很快用贝叶斯公式解决问题谋得巨大财富,结果我们却迟迟不动,很多时候,并不是贝叶斯公式太难,只不过是我们不知道贝叶斯公式使用的时机。贝叶斯的应用领域极其广泛,语音识别、垃圾邮件过滤、油井钻探、FDA批准新药、Xbox给你的游戏水平打分……各种你想到和想不到的应用,都在使用贝叶斯方法。但是扯这些东西和我们有点儿远,我们的市井生活中什么时候该用贝叶斯公式呢?很简单: 只要还没得到最终结果,就可以请贝叶斯爸爸出场帮你作弊。 你和两位猥琐而胆小的基友在操场上看到了一位身材火辣的性感女神,决定写纸条抽签选一人去要联系方式。每人抽到一个签,中彩概率都是1/3,很公平。你抽到了一张签,觉得自己不会那么背中彩,刚准备看,突然一个基友摊出了自己的纸条,哈哈大笑说:“看不是我,你们两个其中之一中彩了。”此时,天真的你觉得那有啥,反正大家中彩的概率 依旧 还是1/3,而且我运气好,不可能是我。在准备亮出你的纸条的一刹那见,你虎躯一震,隐隐约约感到有些不对劲: 三个人只有一个出了结果,还没有得到最终结果,我可以叫贝叶斯爸爸来帮忙算一下概率 。
                                          
 贝叶斯看了,笑了,说:我们记你中彩为事件A,P(A)=1/3,那个已经摊出纸条的基友没有中彩为事件B,P(B)=2/3,傻子,你现在中彩的概率P(A|B)=P(A) * P(B|A) / P(B) = (1/3) * 1 /(2/3)= 1/2。心中暗自骂到:卧槽,他看了一眼他自己的纸条,我的gay率就由1/3变成1/2了,还好发现得早。于是机智的你抢过另一个基友还没看的纸条,把它和你的纸条一起吃掉,说:“我太饿了,我们重新抽签吧。“