当前位置:文库下载 > 所有分类 > 工程科技 > 信息与通信 > 基于代价敏感的AdaBoost算法改进
免费下载此文档侵权投诉

基于代价敏感的AdaBoost算法改进

第3 0卷第 1 0期 2 0 1 3年 1 O月

计算机应用与软件 Co mp u t e r Ap p l i c a t i o ns a n d S o twa f r e

Vo 1 . 3O No . 1 0 Oc t .2 01 3

基于代价敏感的 Ad a B o o s t算法改进 王学玲 王建林 (滨州学院计算机科学技术系山东滨州 2 5 6 6 0 0 )

(吉林大学生物与农业工程学院

吉林长春 1 3 0 0 2 5 )

针对传统的 A d a B o o s t算法只关注分类错误率最小的问题,在分析传统的 A d a B o o s t算法实质基础上,提出一种基于代价

敏感的改进 A d a B o o s t算法。首先在训练基分类器阶段,对于数据集上的不同类别样本根据其错分后造成的损失大小不同来更新样本权值,使算法由关注分类错误率最小转而关注分类代价最小。然后,在组合分类器输出时采用预测概率加权方法来取代传统 A d— a B o o s t算法采用的预测类别加权的方法。最后通过实验验证了改进算法的有效性。 关键词 A d a b o o s t算法权重更新集成学习 代价敏感 T P 1 8 1 文献标识码 A D O I: 1 0 . 3 9 6 9/ j . i s s n . 1 0 0 0 - 3 8 6 x . 2 0 1 3 . 1 0 . 0 3 4

中图分类号

I M PRoVI NG ADABoo S T ALGoRI THM BAS ED oN Co S T. S ENS I TI VE

Wa n g X u e l i n g Wa n g J i a n l i n , ( D e p a r t m e n t o fC o m p u t e r S c i e n c e a n d T e c h n o l o g y, B i n z h o u U n i v e r s i t y,B i n z h o u 2 5 6 6 0 0, S h a n d o n g,C h i n a ) 。 ( C o l l e g e f o B i o l o g i c a l a n d A g r i c u l t u r a l E n g i n e e r i n g,J i l i n U n i v e r s i t y, C h a n g c h u n 1 3 0 0 2 5, J i l i n, C h i n a ) Ab s t r a c t I n v i e w o f t h e p r o b l e m t h a t t r a d i t i o n a l Ad a B o o s t

a l g o i r t h m o n l y c o n c e r n s t h e i s s u e o f c l a s s i i f c a t i o n e r r o r r a t e mi n i mu m,b a s e d O n

a n ly a s i n g t h e e s s e n c e o f t r a d i t i o n a l Ad a B o o s t lg a o i r t h m,a n i mp r o v e d Ad a B o o s t a l g o it r h m b a s e d o n c o s t - s e n s i t i v e i s p r o p o s e d i n t h i s p a p e r .

F i r s t,i n t h e p h a s e o f t r a i n i n g t h e b a s e c l a s s i i f e r,f o r s a mp l e s o f d i f f e r e n t c a t e g o ie r s i n d a t e s e t,t h e v a l u e o f t h e s a mp l e i s u p d a t e d a c c o r d i n g t o t h e l o s s d e g r e e o f t h e s m p a l e c a u s e d b y b e i n g e r r o n e o u s l y c l a s s i i f e d t o o t h e r c a t e g o r y,t h i s ma k e s t h e a l g o i r t h m t u r n t o c o n c e n r t h e c l a s s i i f c a t i o n c o s t mi n i mu m b u t n o t t h e c l a s s i i f c a t i o n e r r o r r a t e mi n i mu m. S e c o n d l y,wh e n t h e c o mp o s i t e c l a s s i i f e r s a r e o u t p u t i n g,t h e

p r e d i c t e d p r o b a b i l i t y we i g h t i n g me t h o d i s a d o p t e d i n s t e a d o f t h e p r e d i c t e d c a t e g o y r we i g h t i n g me t h o d u s e d b y t r a d i t i o n a l A d a B o o s t

a l g o it r h m. F i n l a e x p e i r me n t p r o v e s t h e e f f e c t i v e n e s s o f t h e i mp r o v e d lg a o r i t h m. Ke y wo r d s Ad a B o o s t lg a o r i t h m W e i g h t u p d a t e E n s e mb l e l e a r n i n g C o s t - s e n s i t i v e

来确定合适的错分损失系数。此外,在最后组合分类器输出时

0 引言 S c h a p i r e证明的著名弱学习定理’促进了集成学习的研 究。集成学习研究的重点就是如何训练和选择基分类器以及如

采用预测概率加权方法来取代传统 A d a B o o s t算法采用的预测类别加权的方法,使输出结果更符合实际。最后的实验验证了本文改进算法的有效性。

何组合分类器来最大限度提升组合分类器的分类精度。作为一 种集成学习算法的 A d a B o o s t算法因其卓越表现从而成为学 者们关注的焦点,已被成功应用于人脸检测等领域。关于

1 A d a B o o s t算法 1 . 1算法描述 给定样本空间 (。, Y ), (:, Y: ),…, ( , Y ),类标签 Y

A d a B o o s t算法的有效性解释,付忠良等人从理论角度给出了解释 J。鉴于目前的分类算法一般仅关注分类错误率最小,但实 际问题中仅仅考虑分类错误率是不够的。比如,银行的客户信用评估中将客户区分为“违约”和“不违约”两类样本,前者错分给银行所带来的损失显然比将后者错分要大的多;再比如在某些疾病的初期诊断中,将“得病”的人误诊为“没得病”显然也要比将“没得病”的人误诊为“得病”的损失代价要大。于是,便引出了代价敏感分类 J,由于目前代价敏感分类一般是引入损失矩阵,不仅会增加系统开销,而且在实际情况下损失矩阵只是基于某种假设并不确定。因此,本文从分析 A d a B o o s t算法的实质出发,在调整样本权重时引入错分损失,尝试采用实验的方式

{ Y . -, Y }。A d a B o o s t算法将调用某个弱学习算法 (分类器 ), 对训练样本集进行轮训练,从中选择分类

效果较好的分类器 序列加权组合为强分类器。算法流程如下:

1 )初始化样本权值, ,=1/ m, i=1,…, m; 2 )F o r t=1, 2,…, (弱分类器数量 ) ①归一化权值,使得训练数据集上的权值分布为 D ( i ); ②用弱学习算法训练数据样本集,得到弱分类器 h ( ); 收稿日期: 2 0 1 2—0 7— 2 1。山东省自然科学基金项目( Z R 2 O O 9 G L O

0 1 )。王学玲,讲师,主研领域:数据挖掘。王建林,副教授。

基于代价敏感的AdaBoost算法改进

第1页

免费下载Word文档免费下载:基于代价敏感的AdaBoost算法改进

(下载1-1页,共1页)

猜你喜欢

返回顶部