手机版

基于Q学习的异构网络选择新算法(2)

时间:2025-05-13   来源:未知    
字号:

1462

计算机应用第31卷

本文考虑的是由HSDPA和WiMax紧耦合构成的异构无线网络,如图1所示。在接入网中设置了联合无线资源管理(JRRM)控制器¨“。JRRM是一套旨在最优化无线资源利用率和最大化系统容量的网络控制机制¨“,能够支持不同无线接入技术之间的智能联合会话/呼叫接入控制,以及业务流、功率等资源的分配功能。本文将Q学习算法用于其中,使其具有一定的学习能力。通过JRRM控制器的不断学习,在保证服务质量和资源利用率的情况下能够根据网络负载情况、发起会话的业务属性、终端的移动性和终端在网络中的不同位置,为每个会话找到最优的网络选择策略。

图1网络覆盖模型

本文只考虑了信道的大尺度路径损耗,而没有考虑多径衰落。因为接入选择属于中等时间尺度(从若干秒到若干分钟)的无线资源管理策略,而多径衰落的时间尺度为毫秒级别的,所以可以忽略不计。如果用d来表示系统的基站发射机与用户的终端接收机之间的距离,则用户在该系统中的路径损耗可以表示为:

PL(d)=20

lg(竿)+10“lg(丢)

(1)

其中:do为参考距离,a为路径损耗指数,A为系统中的信号波长。

从链路预算得到的HSDPA和wiMax两个网络的最大吞吐量随着距离的变化如图2所示一]。

距离/km

图2

HSDPA和WiMax最大吞吐量随距离的变化情况

在本文场景中,网络的选择首先要基于两个网络的负载情况,如果某个网络的负载过重自然不再适合新业务的加入;其次还要根据发起会话的业务属性和终端的移动性。本文对业务进行了语音和数据的划分,根据两个网络的属性可知,WiMax网络的容量大且覆盖范围广,更适合于数据业务的接人;而HSDPA网络虽然容量较小,但是实时通信能力较强,更适合于语音业务的接入。所以如果是语音业务应该首选接入HSDPA,数据业务则首选接入WiMax。再由两个网络对移动业务的支持能力可知如果是高速移动的终端首选应该是HSDPA,静止的终端则两个网络都可为其服务。最后还要考虑到终端在网络中的分布位置,对于语音业务而言,由于其对

万方数据

速率的要求不高,一般10Kbps就能满足用户的需求,相对于数据业务这个速率需求很小,而且语音业务对实时性的要求比较高,所以本文假设无论语音业务选择接人哪个网络都能直接获得10Kbps的速率。对于数据业务而言就涉及到所能获得的最大速率的问题,终端所能获得的速率不仅与所选网络以及所选网络的用户数有直接的关系,还受制于每个网络的最大吞吐量。这个吞吐量本身又与终端在小区中的位置有关系,因为与基站的距离不同就导致传输损耗或信噪比的不同,式(1)和图2充分说明了这一点。为简单起见,本文只将两个网络的覆盖范围分为两个等级,即靠近基站和远离基站。这样按照终端在网络中的不同位置就可以将发起会话的用户分为四种,第一种是终端同时靠近两个网络的基站,第二种是终端靠近WiMax的基站远离HSDPA的基站,第三种是终端远离WiMax的基站靠近HSDPA的基站,第四种是终端远离两个网络的基站。2

算法模型

强化学习的基本原理是若智能体(Agent)的某个动作策

略导致环境产生正的奖赏(强化信号),那么Agent以后采取这个动作策略的趋势便会加强,反之采取这个动作策略的趋势就会减弱,这和生理学中的条件反射原理是接近的MJ。

基本的强化学习模型是由反映当前环境情况的状态集合S=h,s:,…,s.},学习者可执行的动作集合A={a。,Ⅱ:,…,a。f,回报函数(强化信号)r和学习者的策略丌:s—A等基本要素构成。

Q学习是强化学习中最典型的一个算法。Q函数Q(s,a)表示在状态s下执行动作a,以及采取后续策略的折扣奖赏和的期望。该定义的奇妙之处在于当前状态和动作的Q值囊括了所有需要的信息,以确定在状态s下选择动作a时,将来会获得的折扣累积回报。Q值函数的学习是通过Q值迭代来完成的。每次迭代更新一个Q(s,a),为了能更新所有的Q(s,a),Agent需要不断地与环境交互。当Q值函数经过多次迭代后,所有的Q值都不再发生较大的变化时,即可认为Q值函数收敛,Q学习结束。它在每一轮的迭代中,首先感知当前的环境状态s∈S,并查找相应的所有Q值,根据当前的策略仃选择动作a

A作用于环境;环境状态会由此变化为s’∈S,同

时根据所执行动作的效果获得一个强化信号(称为“回报”)r(s,a);学习者便据此按照式(2)更新其策略,并进入下一轮迭代。

Q。l(s,a)=(1一n。)Q。(s,a)+a。(rI+

7max

Q。(s’,ap))(2)

其中,a∈[0,1)为学习率。随着t一*,若每对(s,a)的Q值能够经历无穷多次更新,且a递减至0,则Q。(s,a)将以概率1收敛到最优值Q+(s,a)。如此循环下 …… 此处隐藏:163字,全部文档内容请下载后查看。喜欢就下载吧 ……

基于Q学习的异构网络选择新算法(2).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
×
二维码
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)