本文是一篇评高工论文发表范文,主要针对基于类别重要度的MIMLBoost改进算法进行了一些论述,搜论文知识网收录了大量的免费文献以供大家参考,有需要发表论文的作者可以联系本站在线编辑进行咨询。
摘要:针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法。该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以聚类簇为单位,利用TFIDF算法对每个类别标记进行重要度评估和筛选,去除重要度低的标记,并将簇中的示例包与其余的类别标记拼接起来,以此来减少大类样本的出现,完成多示例多标记样本向多示例单标记样本的转化。在自然数据集上进行了实验,实验结果发现,改进算法的性能整体上优于原算法,尤其在Hamming loss、 coverage、 ranking loss三个评测指标上尤为明显,说明所提算法能够有效降低分类的出错率,提高算法的精度和分类效率。
关键词:多示例多标记,MIMIBoost算法,TFIDF算法,聚类,类别不平衡
0引言
多示例多标记(MultiInstance MultiLabel, MIML)学习[1-2]是基于对象的歧义性[3]而提出的一种学习框架,是对多示例学习和多标记学习的扩展。在该学习框架下,真实世界的对象由包含多个示例的示例包所描述,且其对应的类别标记不再唯一,而是多个标记组成的集合。例如在文档分类中,一篇文档可划分为不同的章节段落,每一个章节段落都可用一个示例来描述,且一篇文档既可认为属于“体育”类,也可认为属于“娱乐”类,具有多种类别;又比如一幅图像可划分为几个区域,每个区域都可用一个示例来表示,且根据图像具有的不同内容,可将其归为多个类别等。
学习系统通过对训练集中具有多个标记的示例包进行学习,以尽可能地预测未知对象的类别标记集合。为了发挥MIML框架的能力,研究者已设计了多种有效的算法,如MIMLBoost[1-2]、MIMLSVM[1-2]、INSDIF[4]、M3MIML[5]等算法。其中,较直观的方法是把多示例多标记问题以多示例学习[6]或多标记学习[7]为桥梁,退化为传统的监督学习问题进行求解,代表性的有MIMLBoost算法和MIMLSVM算法。其中,MIMLBoost算法通过示例包与类别标记的拼接,实现多示例多标记样本向多示例单标记样本的退化。这种方法简捷方便,而且效率高,在场景分类与文本分类上取得了比多示例学习框架和多标记学习框架更好的学习效果。
1MIMLBoost算法思想
设χ为示例空间,Y表示标记空间,数据集D={(X1,Y1),(X2,Y2),…,(Xm,Ym)},其中: Xi是χ的一组示例{xi1,xi2,…,xini},xij∈χ(j=1,2,…,ni)为第i个包的第j个示例,YiY为Xi的一组合适的类别标记,{yi1,yi2,…,yiki},ni为Xi所含示例的个数,ki为Yi所含标记的个数。多示例多标记学习的目标是得到f:2χ→2Y,MIMLBoost算法以多示例学习为桥梁,将学习目标转换为fm:2χ×y→{-1,+1},然后在进一步转换为传统监督学习问题。具体做法是:对示例空间和标记空间进行拼接,将每个示例包Xi与类别标记y拼接起来,原样本(Xi,Yi)就变为|Y|个多示例单标记样本{([Xi,y],φ [Xi,y])|y∈Y},其中, [Xi,y]包含ni个示例{(xi1,y),(xi2,y),…,(xini,y)},φ[Xi,y]=+1当且仅当y∈Yi,否则φ[Xi,y]=-1。上述转换过程完成后,再利用文献[8]中的多示例学习算法MIBoosting进行求解。以上就是MIMLBoost算法的基本过程,其在场景分类及文本分类问题上取得了良好的学习效果。
实际上,在大多数问题中,由于获取正例的成本比反例高,所以训练集中具有多个类别标记的样本所占比例并不高。那么,大部分样本在被拼接转化后,得到的反包将多于正包。例如,对于一个多示例多标记样本(X1,Y1),假设标记空间含有5个类别标记{y1,y2,y3,y4,y5}且Y1={y11,y12},则此样本转化后为:([X1,y1],+1)、([X1,y2],+1)、([X1,y3],-1)、([X1,y4],-1)、([X1,y5],-1),其中反包3个、正包2个。这就使得整个训练集样本转化为多示例单标记样本后,出现的反包将远远多于正包,造成类别间的不平衡[9],如此训练得到的分类器具有很大的偏向性,影响算法的性能。
针对这一问题,本文采用人工降采样思想,引入类别标记重要度概念,通过聚类和TFIDF算法[10]评估每个标记在各个聚类簇中的重要度,并以聚类簇为单位,去除重要度较低的类别标记,来减少拼接过程出现的反包样本,使转化后的训练集样本类别趋于平衡,降低噪声出现的概率,提高算法的性能。
2MIMLBoost算法改进
MIMLBoost算法在解决实际问题时,其拼接过程会造成数据集的类别不平衡问题,使训练出的分类器性能下降。为解决此问题,本文运用人工降采样思想,提出了一种新的退化方法。该方法首先通过聚类算法将示例包样本聚成d簇,每个簇可以看作是包含在示例包中的概念;将每个类别标记量化到这d个簇上,运用文本检索中的TFIDF算法评估出每个类别标记y(y∈Y)对于每个簇的重要度;最后筛选对于每个簇重要度高的类别标记与簇中的示例包拼接起来,这样不仅考虑了类别标记与示例包潜在概念的关系,还能有效减少反包的出现,使数据趋于平衡。
2.1利用TFIDF算法计算类别标记的重要度
TFIDF算法是一种用于资讯检索与资讯探勘的常用加权技术,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。其主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TFIDF包含两个部分:TF(词频)和IDF(逆向文件频率)。TF指的是某一个给定的词语在某个文件中出现的次数;IDF则是一个词语普遍重要性的度量,其计算方法分别为: TF: tfi, j=ni, j∑knk, j(1)
IDF: idfi=lbD{j:ti∈dj}(2)
对于数据集D,通过聚类算法将其聚成d簇Q={Q1,Q2,…,Qd},标记空间Y={y1,y2,…,yg}含有g个类别标记,将各个类别标记量化到每个簇上。如果把每个簇看成一篇文章,每个标记看成一个词,那么就可以利用式(1)、(2)得到第s个标记对于第t个簇的重要度wst:
wst=lbQ{t:ys∈Qt}+1×ns,t∑knk,t(3)
其中:Q表示聚类总簇数,t:ys∈Qt表示出现ys(1≤s≤g)标记的簇的数量,ns,t表示簇Qt(1≤t≤d)中属于标记ys的示例包数,∑knk,t表示簇Qt中属于各个标记的示例包数之和。
2.2基于类别标记评估的退化方法
本文运用人工降采样思想,结合聚类和TFIDF方法,在原算法的退化过程中引入类别重要度,提出一种新的基于类别标记评估的退化方法。其主要目的是,根据类别标记重要度有选择地将聚类簇中的示例包与标记相拼接,以减少拼接过程中出现的反包。实际上,由于训练集数据分布较为均匀,所以每个标记的IDF值相差不大,标记的重要度高低主要受其TF值影响。若某个标记对于某个簇的重要度较低,则说明该簇中属于该标记的示例包较少,簇中的示例包在与该标记拼接时,就会出现大量的反包。因此,对于一个簇来说,可以把这类标记去除,让簇中的示例包与其他重要度高的标记拼接,这样就可以减少反包的出现,使训练集趋于平衡。对于某个聚类簇,这种做法虽然会丢失部分样本信息,但相对于整个训练集来说,这部分损失很少,对实验结果的影响也很小,可以忽略。
改进算法的伪代码如下所示:
程序前
Label_Evaluating (Train_bags, d, Cluster, Y, Classifier,
MIBoosting)
Description:Train_bags: a train set of m bags
d: the number of the cluster
Y: the label space
Cluster: clustering algorithm
Λ ←
For Bi∈Train_bags do
Λ ← Λ∪{Bi}
End
/*把所有示例包聚成d簇*/
{Q1,Q2,…,Qd}=Cluster(Λ, d)
/*把类别标记量化到d个簇*/
NumTrain←
For yj∈Y do
For k∈{1,2,…,d} do
njk←Count(yj, Qk)
End
NumTrain← NumTrain∪{(nj1,nj2,…,njd)}
End
/*利用TFIDF方法评估每个标记对于d个簇的重要度*/
ConvertTrainBags←
For k∈ {1,2,…,d} do
For yj∈Y do
Tf(k, j)=CountTF(NumTrain)
Idfj=CountIDF(NumTrain)
TFIDF (k, j)=Tf (k, j)*Idfj
End
Z ←
/*筛选出重要度高的标记与簇中示例包拼接*/
Z ← Select(TFIDF (k, j), n, Y)
For Bi∈Qk do
For yj∈Z do
If yj∈Yi then
ConvertTrainBags←ConvertTrainBags∪ {[(Bi, yj),+1]}
Else
ConvertTrainBags←ConvertTrainBags∪ {[(Bi, yj),-1]}
Endif
End
End
End
/*利用MIBoosting算法学习转化后的训练集得到分类器*/
Classifier←MIBoosting (ConvertTrainBags)
程序后
3实验与分析
3.1实验数据
实验均在Matlab平台上完成,数据集选用自然场景分类数据。该数据集包含2000幅自然场景图像,所有可能的概念类为desert、 mountains、 sea、 sunset,以及trees,数据集中具有两个或两个以上标记的图像约占数据集的22%,表2给出了该数据集的具体描述信息。
3.2实验结果与分析
算法的性能评估选用以下5个评测指标[11]:Hamming loss↓、oneerror↓、coverage↓、ranking loss↓、Average precision↑(↓表示值越小越好,↑表示值越大越好)。本文方法中的聚类算法选用kmedoids[12]算法,k表示聚类簇数,实验比较结果如表2~4所示。
由表2和表4可以看出,本文算法性能明显优于AdaBoost.MH[13]算法,且各项评测指标相差较大;由表2和表3可以看出,本文算法在Hamming loss、 coverage、 ranking loss三个指标上优于原算法,在oneerror、 Average precision两个指标上与原算法相当,说明本文解决类别不平衡问题的方法是有效的。对比实验结果,可以看出本文算法能够有效降低反例样本对算法分类性能的影响,降低分类的出错率,提高算法的精度。 3.3簇数k对算法性能的影响
表5和表6是改进算法在不同簇数下的实验结果。
由表2、表5和表6可以看出,改进算法的评测性能随着簇数k的增大而不断提高。为了进一步研究算法性能与k值之间的关系,分别在不同的数据集上进行了实验,设定簇的数量变化范围为50到400,实验结果如图1所示。
从图1可以看出,无论使用哪个数据集,随着聚类簇数的变化,改进算法的分类正确率呈现先递增后在一定范围上下波动的规律。簇数量的变化,可以看作是对数据集挖掘程度高低的变化。簇数量较少时,数据挖掘的程度较低,生成的潜在概念相对较少,数据仍存在很大的不平衡性,因此分类正确率不高;随着簇数量的不断增加,对数据集挖掘程度越来越高,数据趋于平衡,分类正确率也不断增加;但随着簇数量的进一步增加,一些起到关键性作用的概念被分解成更小的概念,从而使正确率有所下降,与此同时,另一些起到关键作用的概念也被挖掘出来,又致使正确率有所回升,因此造成了正确率在一定范围内上下波动。
4结语
本文针对MIMLBoost算法退化过程引起的类别不平衡问题,采用人工降采样思想,结合TFIDF及聚类算法,评估类别标记的重要度,通过去除重要度低的标记,达到减少反包的目的。实验证明,改进后的方法能有效减少大类样本,使训练集趋于平衡,提高算法的性能。另外,改进算法的性能受到数据分布的影响,在考虑数据分布特点的同时,研究数据不平衡对于改进算法的影响将是未来的工作重点。
参考文献:
[1] ZHOU Z, ZHANG M. Multiinstance multilabel learning with application to scene classification[C]// Proceedings of the 2006 Conference Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2007: 1609-1616.
[2] ZHOU Z, ZHANG M, HUANG S, et al. Multiinstance multilabel learning[J]. Artificial Intelligence, 2012, 176(1): 2291-2320.
[3] HOMAN P, RALPH M A L, ROGERS T T. Semantic diversity: a measure of semantic ambiguity based on variability in the contextual usage of words[J]. Behavior Research Methods, 2013, 45(3):718-730.
[4] ZHANG M, ZHOU Z. Multilabel learning by instance differentiation[C]// Proceedings of the 22nd Conference on Articial Intelligence. Menlo Park: AAAI Press, 2007: 669-674.
[5]
ZHANG D, HE J, LAWRENCE R. MI2LS: multiinstance learning from multiple information sources[C]// Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2013: 149-157.
评高工论文发表期刊推荐《电子测量与仪器学报》旨在开展学术交流活动,沟通同行业科技人员之间的信息,以促进国内、外电子测量仪器的发展和科学技术的进步。