第6期
赵彦清等:基于Q学习的异构网络选择新算法
1463
占贪婪算法来选择动作。3
基于Q学习的网络选择新算法
由系统模型中的分析可知,本文对网络进行选择时,考虑
的因素有网络的负载情况、业务属性、终端的移动性以及根据终端在网络中的位置不同而划分的用户类型。3.1问题映射
将Q学习用于该场景中,Q学习的各要素与本文模型的映射关系如下所述。
1)状态空间|s。
由于会话的到达(包括始呼业务的到达和切换业务的到达)和结束的一系列事件都会影响网络的状态,但是因为会话的结束不会引起JRRM控制器的操作,所以在这里只把会话的到达与模型相关联,只要有会话请求到来就按照算法进行网络选择。
对于本文所考虑的因素,状态不仅取决于每个网络的不同业务的负载情况(这里用每个网络的不同业务的用户数来表示),还要对业务的属性和移动性加以区分,因为即使在相同的网络负载情况下,业务不同或者移动性不同,所应该选择的最合适的网络也不会相同。所以可以将状态定义为:
S={k,m,L}
(4)
其中:k表示业务种类,因为本文只考虑语音和数据两种业务,所以k的取值是0或1,分别表示数据业务和语音业务;m表示发起会话的终端的移动性,本文只将移动性用静止和移动加以区分,为了简单起见没有再对移动速度进行定义,所以m的取值也只有0和l两种情况,分别表示静止和移动江表示两个网络的两种业务的负载情况,是用两种业务的用户数来表征。
除了上述定义外,由于考虑到了发起会话的终端在网络中所处位置的不同将导致终端最大吞吐量的不同,所以还要对位置加以区分。为此本文在建立Q表时,需要将四种不同的用户分开,可以用Q∞,Q。。,Q,。,Q,。分别表征系统模型中所定义的四种用户所对应的Q表。
2)可选动作集A。
在由HSDPA和WiMax构成的无线异构网络中,JRRM控制器需要根据它所学习来的知识选择一个最合适的网络分配给终端,所以动作集合可以被定义为JRRM控制器所能选择的网络:
A={1,2}(5)
其中:1表示选择WiMax网路,2表示选择个HSDPA网络。
3)回报函数r。
即时回报是评价JRRM控制器所选择动作的好坏,驱使JRRM控制器选择最佳动作的直接信号。本文的目的是根据网络的固有属性,将发起会话的业务属性、终端的移动性和到网络基站的距离进行区分,在保证服务质量和资源利用率的情况下为每个会话找到最优的网络选择策略。因此可以将每次接入选择所获得的频谱效用作为算法的回报函数。每次接入选择策略就是为了能使频谱效用最大化。
本文用匹配性来定义频谱效用,即对于语音业务而言如果所选网络与业务属性和终端移动性相匹配则频谱效用最大,否则便较小;对于数据业务不仅要考虑以上匹配性,由于数据业务对带宽的要求比较高,还要根据终端到两个基站的不同距离保证终端所选择的动作能获得的带宽最大,此时称频谱效用最大,否则便较小。因此,文中频谱效用的定义因业务不同而不同,对于语音业务的频谱效用定义如下:
万方数据
suy=rl。,+田呦b(6)
其中z"Oser表示业务属性与网络的匹配系数,71础表示移动性与网络的匹配系数。具体数值将在下面仿真参数中给出。
对于数据业务,其频谱效用定义如下:
sud=叩柏,+’7。0b+口
(7)
其中曰表示终端接入网络时所获得的带宽与叼。。,和叩mob在大小上平衡之后的带宽因子。
B=b/150
(8)
其中b表示终端接入网络时所获得带宽,150Kbps表示数据业务的最小带宽(hod,于该最小带宽,本次呼叫将被阻塞)。因为b在数值上远远要大于叼。和叼。。,如果直接用b去定义数据业务的sud就不能明显体现出匹配系数的作用,所以这里要用B。
从另一个方面来看曰也体现了网络负载情况对频谱效用的影响,能够起到负载均衡的作用。因为如果某个网络的负载重,曰就会减小,频谱效用就会降低,回报自然也会降低,进而会使在当前状态下选择该网络的可能性降低,反之则频谱效用和回报都增高。
同时为了使语音业务的回报函数也能体现网络负载情况对动作选择的影响,实现负载的均衡,不能直接用其频谱效用作为它的回报,还应该加上一个负载因子声,即所选网络的剩余频谱资源占总的频谱资源的百分比。
因此,回报函数可以定义为:
r={三::哕’霎嘉盏霎
(9)
3.2算法实现过程
综合考虑网络的负载情况、业务属性、终端的移动性以及根据终端在网络中的位置不同而划分的用户类型四种因素,基于Q学习方法,根据上述映射,得到了异构无线网络中接人选择的新方法,具体步骤如下:
1)初始化Q(s,a),比如0或者是随机产生的值,设定折扣因子y和出示学习率Ot,以及动作选择算法中的初始探索概率8;
2)获取当前状态s,包括当前各网络的各业务用户数,发 …… 此处隐藏:372字,全部文档内容请下载后查看。喜欢就下载吧 ……