网络流量数据缺失?新算法可减少误差,提升数据恢复的精确度

武汉加油 共渡难关

摘要

福州大学物理与信息工程学院的研究人员汪灿、冯心欣,在2019年第12期《电气技术》杂志上撰文指出(论文标题为“基于交替最小二乘法的时空张量填充算法”),在网络系统中,无论采用何种流量测量系统,都无法避免数据的丢失。为解决网络流量数据的缺失问题,本文提出了一种基于交替最小二乘法的时空张量填充算法以恢复流量数据张量中的缺失值。

本文提出的算法不仅利用了张量分解及其低维表示,还充分考虑了网络流量数据的时空相关性,进一步提高了数据恢复的准确性。本文使用Abilene数据集对算法进行测试,并与现有的填充方法进行对比。实验结果表明,本文提出的方法能够有效地减少流量数据恢复的误差,提升了数据恢复的精确度。

网络流量数据是实现更好的网络管理的必要条件,作为整个网络的概述,它是许多网络任务的关键输入参数,如流量工程、容量规划和异常检测。由于流量测量系统受硬件和传输的影响,在采集过程中,不可靠的连接和传输协议造成流量数据结构丢失。如何有效地处理这些缺失数据仍然是一个挑战。因此,准确地从流量数据中恢复缺失值非常重要。

目前,数据填充算法主要包括基于机器学习的K近邻法(K-nearest neighbors, KNN)等,基于矩阵的稀疏正则化矩阵分解(sparsity regularized matrix factorization, SRMF)和奇异值阈值算法(singular value thresholding, SVT)等,以及基于张量的张量最小交替二乘法(tensor alternating least squares, TenALS)和低秩张量填充算法(tensor matrix completion, TMac)等。

在对网络流量的缺失数据进行处理时,上述方法都存在着一些缺点。例如,K近邻法需要大量的历史数据,造成计算量过大;基于矩阵的方法不能利用数据的多维特性,导致数据恢复的精确度仍然较低;基于张量的方法没有充分考虑数据潜在的时空相关性,无法达到令人满意的恢复结果。

交替最小二乘法是矩阵分解中使用的一种算法,它能有效地估算稀疏矩阵中的缺失值,因此,在众多领域中得到广泛应用。如,运用多元曲线分辨-交替最小二乘法(multivariate curve resolution- alternating least squares, MCR-ALS)研究各种药物之间的相互作用,以及在Spark框架下利用交替最小二乘法优化各种推荐算法等。

时空张量(矩阵)填充算法利用数据之间的时空相关性来提高缺失数据的恢复准确性。如,Roughan等人利用时空矩阵填充算法估算网络流量矩阵的缺失值,以及Lin等人利用时空张量填充算法提高交通数据张量的恢复精度。

为了提高网络流量缺失数据的恢复精度,本文提出了一种基于交替最小二乘法的时空张量填充算法。该算法不仅利用了张量分解及其低维表示,还充分考虑了网络流量数据的时空相关性,进一步提高了流量数据恢复的准确性。

结论

本文研究了网络流量数据的缺失问题。为了减少数据估计的误差,本文利用张量CP分解和网络流量数据的时空相关性,提出了一种基于ALS的时空张量填充算法(TenALS-ST)以恢复流量数据的缺失值。本文使用真实的网络数据集对提出的算法进行测试,实验结果表明,所提出的方法在各种缺失率下都能实现较好的恢复精确度。

(0)

相关推荐

  • 陈小天:还在靠人工处理特征?时间序列模型了解下!

    编辑整理:帖雨薇 小米 出品平台:DataFunTalk 导读:随着公司业务的不断扩大,包括金融领域在内的各个领域中,逐渐积累了大量的时序数据,通过时序数据建立模型和制定策略能为业务提供有效地帮助.目 ...

  • EEG脑机接口算法

    目前大多数基于EEG的脑机接口的算法都是基于机器学习算法.正如我们在2007年的论文中写的,这个领域中使用了多种多样的分类器.现在,在那篇综述发表后的十年内,许多新的算法已经被开发和测试,用来对脑机接 ...

  • 抖音涨粉慢怎么做?抖音刷粉丝可行吗?

    很多朋友在问小编,抖音应该怎么玩?怎么过做涨粉才快?应该生产什么样的内容才会上热门才会火?我们要回答这些问题,那么就得重头说起走. 抖音是不是风口?我们一切以数据说话 小编在网上看到一篇鸡汤文,大致意 ...

  • 人工智能领域,新数据比新算法更重要

    8月科技特训营干货: 导师:张薇  前哨团成员 美国最大的资产管理公司 BlackRock 量化基金经理 演讲主题:<人工智能与金融科技> 千万不要把人工智能当成一种迷信,第一个迷信是认为 ...

  • 【学术论文】多层概率决策的网络大数据协作融合算法

    摘要:  为了改善网络大数据传输效率及其精度,降低网络数据传输负荷,基于多层概率网络模型和联合决策研究了一种网络大数据协作融合算法.首先,以复杂异构多层网络的数据采集与缓存为对象,以实时感知数据及其准 ...

  • 米多大数据引擎破译了江小白的“流量爆款”营销算法

    在米多智能营销公众号后台,有位做快消品的粉丝向我哭诉,她说她公司自新零售来袭后,销量一直都不景气,老板开始"磨刀霍霍向市场部",但她公司市场部只有一两个人,老板逼着她们学越来越火的 ...

  • 三问新算法:从流量导向到价值观导向之变有多难?

    当下的互联网界都流行道歉. 京东刚道完歉,头条接上.张一鸣的话音还未落,快手宿华热腾腾的致歉信又来了. 特约撰稿丨景轩  编辑 | 秦言 来源丨懂懂笔记(ID:dongdong_note) 只不过,京 ...

  • 青出于蓝而胜于蓝,超越MixUp、CutMix的样本混合数据增广新算法FMix

    深度学习实践中,数据的增广有很多种方法,比如在计算机视觉任务中除了常规的对单样本进行缩放.颜色扰动.旋转.镜像等外,也可以通过对两个样本进行混合,生成新的虚拟样本训练集.这类方法被称为样本混合数据增广 ...

  • 告别视频通话“渣画质”,英伟达新算法最高压缩90%流量

    为了让网速慢的用户用上高清通话,英伟达可谓绞尽脑汁.他们开发的新AI算法,可以将视频通话的流量最高压缩90%以上. 和其他视频相比,通话的场景比较单一,基本上只有人的头部在运动.因此只要能把头像数据大 ...

  • 新算法配合大数据,助力人类科学“解梦”

    美国诺基亚贝尔实验室的科学家建立了一种新算法来分析人的梦境,并通过机器自动分析了来自"梦境银行"(DreamBank.net)网站的24000份数据,证实了这种算法的有效性.该成果 ...

  • 【学术论文】一种高效动态LEO卫星网络流量调节路由算法

    摘要: 针对考虑负载均衡的LEO卫星网络路由算法存在控制网络开销偏大.路由更新不及时以及流量调节机制分配不均等问题,提出了一种基于负载均衡的动态LEO卫星网络路由算法DRLB.根据卫星节点路径记录信息 ...

  • 监听网络流量命令tcpdump学习知识?Linux命令

    tcpdump命令是一个截获网络数据包的包分析工具.tcpdump可以将网络中传送的数据包的"头"完全截获下来以提供分析.它支持针对网络层.协议.主机.端口等的过滤,并支持与.或. ...