Clustering Enabled Wireless Channel Modeling Using Big Data Algorithms
文章目录
- Clustering Techniques
- Partitioning-Based Algorithms
- Density-Based Algorithms
- Hierarchical-based algorithms
- Clustering Enabled Channel Modeling
- Cluster-Based Channel Models
- Clustering Algorithms
Clustering Techniques
聚类是一种已被广泛用于数据分析的技术。聚类的目标是以某种方式发现一组对象的自然分组,使得同一组(称为一个簇)中的对象彼此之间的相似性(在某种意义上)要大于与其他组中对象的相似性。它有助于获取数据的潜在结构并从数据中获得洞察力,因此被认为是分析海量数据的强大工具。
聚类算法用于将数据划分成簇,其中簇的数量既可以预先指定,也可以是聚类过程的结果。通常,不同的聚类算法可以大致分为 [2, 3]
- 基于划分的算法
- 基于密度的算法
- 基于层次的算法。
Partitioning-Based Algorithms
基于划分的算法通常通过优化一个准则函数来产生簇。平方误差和函数是最直观且常用的准则之一,它对于处理孤立且紧凑的簇效果很好。K-means算法是基于平方误差的最著名的聚类算法,因其易于实现和低复杂度而广受欢迎,这也促使了其在无线信道建模中的应用,具体将在后文报告。图1a阐释了K-means算法的主要思想。它从一个随机的初始划分开始,并不断地将每个对象重新分配到最近的簇,直到满足收敛准则。K-means算法的一个主要问题是它对初始划分和簇的数量很敏感,并且K-means的迭代优化过程不能保证收敛到全局最优。其他基于划分的算法包括K-medoids、K-modes、fuzzy c-means等。
Density-Based Algorithms
在这种情况下,首先需要定义数据的密度,然后将密度高于数据集其余区域的区域作为簇。因此,基于密度的算法能够发现任意形状的簇,并且不需要预先指定簇的数量。最流行的基于密度的聚类算法是DBSCAN。在DBSCAN中,所有数据点被分为核心点(core points)、密度可达点(density-reachable points)和离群点(outliers)。图1b阐释了DBSCAN的主要思想。DBSCAN通过吸收一个数据对象邻域半径内的所有对象(即,从该对象可达的对象)来创建一个新簇,并且该邻域需要满足用户指定的密度阈值(即,形成一个簇所需的最少点数)。DBSCAN算法的一个主要问题是它对密度阈值的选择很敏感。如果数据没有被很好地理解,选择一个有意义的密度阈值是具有挑战性的。其他基于密度的算法包括OPTICS、DENCLUE等等。
Hierarchical-based algorithms
特别是其中的凝聚式算法,其起始时每个观测点自成一簇,然后以“自下而上”的方式将簇逐层合并。然而,为大型数据集构建一个谱系图(树)的计算开销可能是巨大的。许多其他的聚类算法被用于大数据,例如,图论和基于模型的算法(见[2, 3]及其参考文献)。由于它们在信道建模中使用较少,本文不介绍其细节。
Clustering Enabled Channel Modeling
无线信道建模的目的是精确地模拟无线信道中的多径分量(MPC),其动因在于许多测量活动已发现MPC具有簇结构,即,一些MPC组具有相似的特性(例如,角度、时延)。聚类确保了主导的MPC和相应的散射体能够被更好地识别,物理环境可以在传播层面得到更好的分析;如前所述,通过分离簇内和簇间统计数据,它还提供了一个更紧凑的描述。
测量数据的分析通常包括三个阶段,如图2所示:
-
通过使用一些估计算法从原始数据中提取MPC。
-
MPC聚类:这是一种依据多径分量(MPC)的特征将其分组的统计学方法,在信道建模中起着关键作用。聚类流程对最终生成的信道模型具有重大影响,因为它决定了从数据中提取哪些特征以及这些特征的呈现方式。值得一提的是,物理信道的特性深刻地影响着“对于MPC而言,何为一次好的聚类?”这一问题的答案,同时,验证标准(validation criteria)也为如何设计能达成预期结果的算法提供了深刻的洞见。
-
MPC/簇的表征,这主要涉及参数估计,如路径损耗、衰落、时延和角度扩展等。利用这些参数和基础知识,就可以建立一个信道模型。
Cluster-Based Channel Models
基于簇的信道建模已被学术界和工业界广泛接受,主要原因如下:
- 许多高分辨率算法被用于MPC提取,因此可以更频繁地观察到聚类的MPC。
- 4G和5G系统中的多输入多输出(MIMO)和大规模MIMO要求 a double-directionally characterized channel,这再次有助于更清晰地看到MPC的聚类结构。
- 聚类信道建模已被证明可以在保持精度的同时降低复杂性。
从用于单输入单输出(SISO)信道的Saleh-Valenzuela模型到MIMO信道模型(如COST 259、COST 2100等)[1],基于簇的信道建模已被广泛采用。通常,信道模型中使用以下四种簇的概念:
时延域簇:主要在时延域中观察到(例如,从SISO信道冲激响应CIR中),尤其是在测量带宽较大时。单个时延域主导簇的功率时延分布(PDP)通常被建模为单边指数函数,如图3a所示,不同的簇可能具有相同或不同的初始时延和衰减时间常数。时延域聚类的一个典型应用是Saleh-Valenzuela模型。
角度域(或角-时延域)簇:当从定向(或MIMO)信道探测中提取出MPC的角度(例如,到达角AOA和离开角AOD)时,通常会发现离散的MPC在角度域或联合角-时延域中呈簇状分布,如图3b所示。为了表征此类簇,需要根据角扩展和簇内角度分布来对MPC的角度进行建模。这类簇被广泛用于双向信道模型中,例如COST 259。
孪生簇:在基于几何的随机信道模型中,当表征一个MPC与环境的多次相互作用所带来的影响时被广泛使用。如图3c所示,孪生簇是两个耦合的等效相互作用对象的簇,用于表示多次反射或衍射的MPC。孪生簇的位置可以独立选择,从而允许在发射机和接收机处对角度进行独立调整。孪生簇的概念已被COST 273信道模型采纳为一种基础建模方法。
公共簇:用于模拟多链路场景中链路间的相关特性。其主要思想是通过允许不同链路中的一定比例的能量通过相同的簇进行传播,从而控制不同链路之间的相关性。如图3d所示,如果两个传播链路受到同一个簇(即公共簇)的影响,那么相应的两个链路就是相关的。公共簇被用于COST 2100信道模型的多链路仿真中。
值得注意的是,上述这些簇的概念是相互重叠的,例如,孪生簇或公共簇可以以角-时延域簇的形式存在,或者它们可以在几何(x−y−zx-y-zx−y−z)平面中被描述。请注意,聚类也可以在传播环境的几何维度上进行,特别是当它基于射线追踪时。然而,由于篇幅所限,本文的其余部分将专注于时延/角度域的聚类。
Clustering Algorithms
由于MPC受到随机且复杂的传播环境的显著影响,簇的概念往往是凭直觉而非明确定义的。大多数情况下,不存在客观上“正确”的聚类结果。在2007年之前,MPC聚类主要通过目视检查完成,因为人眼即使在嘈杂的数据中也能检测到模式和结构。然而,这种方法耗时、易错(人眼即使在完全随机的数据中也倾向于检测到簇),并且无法对多维数据进行聚类。这些缺点,加上测得的MPC在数量和种类上的增加,限制了目视检查的应用。因此,信道建模需要自动聚类算法。
尽管如前所述,聚类分析已在大数据分析中得到广泛讨论,但找到好的MPC聚类算法在很大程度上仍是一个开放性课题。接下来,我们将介绍该领域最广泛使用的聚类算法,这些算法也总结在表1中。
KPowerMeans算法 [4]:该算法基于K-means框架,并在确定MPC的质心时包含了其功率。选择簇的方式是使MPC到其质心的总距离最小化。簇数量的上限和下限必须预先知道,最终的簇数量通过使用一些有效性指标来确定,这些指标强调每个簇的紧凑性以及簇之间的隔离度。由于KPowerMeans算法需要关于簇数量的先验知识,如何选择簇的数量仍然是一个开放性课题,尽管文献中已提出了各种标准。图4a和4b展示了使用KPowerMeans算法对室内测量进行MPC聚类分析的结果,其中MPC分布在时延域和角度域。图4b中的簇数量是通过目视检查确定的,其产生的聚类结果通常不具说服力。
基于KPD的算法 [5]:最近提出的基于核功率密度(KPD)的聚类算法是一个基于密度的聚类框架。在基于KPD的算法中,通过使用MPC的核功率密度估计来融入MPC的建模行为,并且仅考虑KKK个最近的MPC来更好地识别局部密度变化。MPC的聚类是通过检测MPC之间的密度可达路径来自动进行的。该算法不需要关于簇的先验知识,并且在簇数量多和簇的角度扩展大的情况下表现良好。图4c显示了使用基于KPD的算法对室内测量进行MPC聚类分析的结果,并提供了对簇数量的可信估计。图4c还显示了MPC簇在角-时延空间中被很好地分开了。
基于峰度(Kurtosis)的算法 [6]:该算法基于一个假设,即一个簇中MPC的幅度呈对数正态分布,并使用峰度测量来融入这一假设。聚类通过使用区域竞争技术进一步执行。该算法不需要特定于信道的设置;然而,它只能用于在时延域中对MPC进行聚类。
基于稀疏度(Sparsity)的算法 [7]:该算法考虑了Saleh-Valenzuela模型的一个特征,即一个簇的PDP是单边的,并随着时延的增加呈指数下降,它利用基于稀疏度的优化来恢复信道冲激响应(CIR)。研究发现,与直接在原始CIR中识别簇相比,使用恢复后的CIR进行簇识别提高了准确性。该算法不需要关于簇的初始信息的先验知识;然而,它依赖于这样一个假设,即每个簇的PDP都是以一个突然的起始然后紧随一个衰减开始的。图4d-4f显示了在与图4a相似的环境下使用测量数据得到的PDP聚类结果,其中MPC分布在时延域。研究发现,基于稀疏度的算法提供的聚类结果很好地反映了Saleh-Valenzuela模型的建模假设。图4e中的KPowerMeans算法未能提供与Saleh-Valenzuela模型一致的结果。
其他:一些其他的算法也被用于MPC聚类,例如,[8]中使用了模糊c均值(Fuzzy-c-means)算法,[9]中使用了DBSCAN算法,并且在仿真信道上获得了良好的性能。对于测量数据的进一步验证仍是必要的。