手机版

基于Q学习的异构网络选择新算法(2)

时间：2025-07-09 来源：未知

小中大

字号：

１４６２

计算机应用第３１卷

本文考虑的是由ＨＳＤＰＡ和ＷｉＭａｘ紧耦合构成的异构无线网络，如图１所示。在接入网中设置了联合无线资源管理（ＪＲＲＭ）控制器¨“。ＪＲＲＭ是一套旨在最优化无线资源利用率和最大化系统容量的网络控制机制¨“，能够支持不同无线接入技术之间的智能联合会话／呼叫接入控制，以及业务流、功率等资源的分配功能。本文将Ｑ学习算法用于其中，使其具有一定的学习能力。通过ＪＲＲＭ控制器的不断学习，在保证服务质量和资源利用率的情况下能够根据网络负载情况、发起会话的业务属性、终端的移动性和终端在网络中的不同位置，为每个会话找到最优的网络选择策略。

图１网络覆盖模型

本文只考虑了信道的大尺度路径损耗，而没有考虑多径衰落。因为接入选择属于中等时间尺度（从若干秒到若干分钟）的无线资源管理策略，而多径衰落的时间尺度为毫秒级别的，所以可以忽略不计。如果用ｄ来表示系统的基站发射机与用户的终端接收机之间的距离，则用户在该系统中的路径损耗可以表示为：

ＰＬ（ｄ）＝２０

ｌｇ（竿）＋１０“ｌｇ（丢）

（１）

其中：ｄｏ为参考距离，ａ为路径损耗指数，Ａ为系统中的信号波长。

从链路预算得到的ＨＳＤＰＡ和ｗｉＭａｘ两个网络的最大吞吐量随着距离的变化如图２所示一］。

距离／ｋｍ

图２

ＨＳＤＰＡ和ＷｉＭａｘ最大吞吐量随距离的变化情况

在本文场景中，网络的选择首先要基于两个网络的负载情况，如果某个网络的负载过重自然不再适合新业务的加入；其次还要根据发起会话的业务属性和终端的移动性。本文对业务进行了语音和数据的划分，根据两个网络的属性可知，ＷｉＭａｘ网络的容量大且覆盖范围广，更适合于数据业务的接人；而ＨＳＤＰＡ网络虽然容量较小，但是实时通信能力较强，更适合于语音业务的接入。所以如果是语音业务应该首选接入ＨＳＤＰＡ，数据业务则首选接入ＷｉＭａｘ。再由两个网络对移动业务的支持能力可知如果是高速移动的终端首选应该是ＨＳＤＰＡ，静止的终端则两个网络都可为其服务。最后还要考虑到终端在网络中的分布位置，对于语音业务而言，由于其对

万方数据

速率的要求不高，一般１０Ｋｂｐｓ就能满足用户的需求，相对于数据业务这个速率需求很小，而且语音业务对实时性的要求比较高，所以本文假设无论语音业务选择接人哪个网络都能直接获得１０Ｋｂｐｓ的速率。对于数据业务而言就涉及到所能获得的最大速率的问题，终端所能获得的速率不仅与所选网络以及所选网络的用户数有直接的关系，还受制于每个网络的最大吞吐量。这个吞吐量本身又与终端在小区中的位置有关系，因为与基站的距离不同就导致传输损耗或信噪比的不同，式（１）和图２充分说明了这一点。为简单起见，本文只将两个网络的覆盖范围分为两个等级，即靠近基站和远离基站。这样按照终端在网络中的不同位置就可以将发起会话的用户分为四种，第一种是终端同时靠近两个网络的基站，第二种是终端靠近ＷｉＭａｘ的基站远离ＨＳＤＰＡ的基站，第三种是终端远离ＷｉＭａｘ的基站靠近ＨＳＤＰＡ的基站，第四种是终端远离两个网络的基站。２

算法模型

强化学习的基本原理是若智能体（Ａｇｅｎｔ）的某个动作策

略导致环境产生正的奖赏（强化信号），那么Ａｇｅｎｔ以后采取这个动作策略的趋势便会加强，反之采取这个动作策略的趋势就会减弱，这和生理学中的条件反射原理是接近的ＭＪ。

基本的强化学习模型是由反映当前环境情况的状态集合Ｓ＝ｈ，ｓ：，…，ｓ．｝，学习者可执行的动作集合Ａ＝｛ａ。，Ⅱ：，…，ａ。ｆ，回报函数（强化信号）ｒ和学习者的策略丌：ｓ—Ａ等基本要素构成。

Ｑ学习是强化学习中最典型的一个算法。Ｑ函数Ｑ（ｓ，ａ）表示在状态ｓ下执行动作ａ，以及采取后续策略的折扣奖赏和的期望。该定义的奇妙之处在于当前状态和动作的Ｑ值囊括了所有需要的信息，以确定在状态ｓ下选择动作ａ时，将来会获得的折扣累积回报。Ｑ值函数的学习是通过Ｑ值迭代来完成的。每次迭代更新一个Ｑ（ｓ，ａ），为了能更新所有的Ｑ（ｓ，ａ），Ａｇｅｎｔ需要不断地与环境交互。当Ｑ值函数经过多次迭代后，所有的Ｑ值都不再发生较大的变化时，即可认为Ｑ值函数收敛，Ｑ学习结束。它在每一轮的迭代中，首先感知当前的环境状态ｓ∈Ｓ，并查找相应的所有Ｑ值，根据当前的策略仃选择动作ａ

Ｅ

Ａ作用于环境；环境状态会由此变化为ｓ’∈Ｓ，同

时根据所执行动作的效果获得一个强化信号（称为“回报”）ｒ（ｓ，ａ）；学习者便据此按照式（２）更新其策略，并进入下一轮迭代。

Ｑ。ｌ（ｓ，ａ）＝（１一ｎ。）Ｑ。（ｓ，ａ）＋ａ。（ｒＩ＋

７ｍａｘ

Ｑ。（ｓ’，ａｐ））（２）

其中，ａ∈［０，１）为学习率。随着ｔ一＊，若每对（ｓ，ａ）的Ｑ值能够经历无穷多次更新，且ａ递减至０，则Ｑ。（ｓ，ａ）将以概率１收敛到最优值Ｑ＋（ｓ，ａ）。如此循环下 …… 此处隐藏：163字，全部文档内容请下载后查看。喜欢就下载吧 ……

基于Q学习的异构网络选择新算法(2).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

上一篇：Pep5教学计划

下一篇：社区工作基础知识辅导资料

×

二维码

相

关

文

章

分类导航

幼儿教育小学教育初中教育教学研究专业资料资格考试教育文库外语考试高等教育求职职场高中教育实用文档

基于Q学习的异构网络选择新算法(2)

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签

基于Q学习的异构网络选择新算法(2)

推荐阅读

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签