十四五规划云计算大数据,大数据-互联网大规模数据挖掘与分布式处理

  十四五规划云计算大数据,大数据:互联网大规模数据挖掘与分布式处理

  预测交通的未来(18):基于时空多图累积网络的网约车需求预测

  1.商品信息《Spatiotemporal Multi-Graph Convolution Network for Ride-hailing Demand Forecasting》。

  2019年AAAI会议AAAI论文,被引用5次。

  2.区域需求预测是网约车服务的一项重要任务。区域具有复杂的时空相关性,现有方法主要集中在对空间相邻区域间的欧式相关性进行建模。我们发现,可能相距遥远的地区之间的非欧洲相关性对于准确预测也非常重要。为此,提出一种时空多图卷积网络(ST-MGCN)。首先将区域间的非欧几里德两两相关编码成多个图,然后通过多图卷积对这些相关进行建模。为了使用全局上下文信息来建模时间相关性,我们进一步提出了上下文门控递归神经网络,它使用上下文感知门控机制来重新加权不同的历史观察值。我们在两个真实的大规模网约车需求数据集上对提出的模型进行了评估,与最先进的基准模型相比,模型提高了10%以上。

  3.引言区域网约车需求预测的目标是根据历史观测,预测城市区域未来的需求。这项任务的挑战主要在于复杂的时空相关性。一方面,不同地区之间存在复杂的依赖关系。例如,一个地区的需求通常受其空间邻居的影响,它与具有相似上下文的遥远地区有关。另一方面,不同时间观测值之间存在非线性依赖关系。某一时刻的预测通常与各种历史观测相关联,比如一小时前、一天前甚至一周前。

  在时空相关性的建模中,有两个重要方面被忽略了。首先,这些方法主要是对不同区域之间的欧几里德相关性进行建模,但是我们发现非欧几里德成对相关性对于准确预测也非常重要。图1显示了一个例子。对于1区来说,除了2街坊,还可能和一个功能相似的较远的3区有关,就是都在学校和医院附近。此外,区域1也可能受到区域4的影响,区域4通过道路与区域1直接相连。第二,在这些方法中,当RNN被用于建模时间相关性时,每个区域被独立处理或者仅基于局部信息被处理。然而,我们认为全球和背景信息也很重要。比如全球网约车需求的增减,通常预示着一些事件的发生,会影响未来的需求。

  为了解决这些问题,我们提出了一种新的深度学习模型,称为时空多图卷积网络(ST-MGCN)。主要贡献如下:

  在网约车需求预测中,我们识别出区域间的非欧相关性,并提出用多个图进行编码。然后,我们进一步使用提出的多图卷积来显式地建模这些相关性。

  提出了基于上下文门控的RNN模型,并将全局上下文信息引入到时态依赖建模中。

  4.文献综述(1)城市计算中的时空预测

  欧洲的非结构化数据也存在于城市计算中。通常基于站点的预测任务,比如基于站点的出租车需求预测,基于站点的自行车流量预测,都是非欧的。因为数据格式不再是矩阵,卷积神经网络变得不那么有用。特征工程或图形卷积网络是处理非欧结构数据的最新技术。与以往的研究不同,圣MGCN将区域之间的两两关系编码成语义图。尽管圣MGCN是为基于地区的预测而设计的,但地区之间的不规则关系使其成为非欧洲数据的预测问题。然而,这些方法都没有明确地模拟区域之间的非欧洲成对关系。在这项工作中,圣MGCN可以利用多图卷积融合相关领域的特点,可以从不同角度预测相关领域的需求值。

  (2)地块体积

  (3)通道式注意是通道的注意机制。

  通道式关注的初衷是学习每个通道的权重,以便找到最重要的通道,并通过赋予它们更高的权重来强调它们。

  Fpool是一个全局平均池操作,它将每个通道汇总成一个标量Zc,其中C是通道索引。然后通过注意力操作对向量Z进行非线性变换,生成自适应权重s、W1、W2对应的权重, 分别为ReLU和sigmoid函数。然后,通过通道方向上的点积将权重s应用于输入。最后,基于学习权重缩放输入通道。在本文中,我们采用了通道式注意的思想,并将其扩展到一系列图之间的时间依赖建模。

  5、主要内容(一)区域网约车需求预测

  将全网的需求网格化,用过去的T个时间段来预测T 1个时间段。提议的圣MGCN模型的系统架构如图2所示。我们将区域之间的三种类型的关系表示为多个图,其中顶点表示区域,边表示区域之间的关系对。首先,在时间上,我们使用提出的上下文门控递归神经网络(CGRNN)考虑全局上下文信息,总结不同时间的观察结果,将多个时间步长融合为一个时间步长。然后,在空间上,应用多图卷积来捕获区域之间不同类型的相关性。最后,全连接层用于融合特征并将其转换为预测。

  (2)空间依赖性建模

  所谓多图卷积,是指各种空间相关性的图卷积,然后进行特征融合。

  在本节中,我们将展示如何使用多图来编码区域之间不同类型的相关性,以及如何使用所提出的多图卷积来对这些关系进行建模。我们使用图来模拟区域之间的三种相关性,包括(1)邻域图,编码空间邻近性,(2)区域功能相似性图,编码区域周围兴趣点的相似性,以及(3)交通连通性图,编码遥远区域之间的连通性。

  (1)领域地图

  区域的邻域根据空间接近度来定义。在一个33的网格中,我们将一个区域与八个相邻的区域连接起来构成一个图。

  (2)功能相似图

  在对一个地区进行预测时,可以直观地参考其他功能相似的地区。一个区域的功能可以用它周围每一类的POI来表征,两个顶点(区域)之间的边定义为POI相似度:

  Pvi和Pvj分别是区域vi和vj的POI向量,其维数等于POI类别的数量,每个条目表示该区域中具体POI类别的数量。

  (3)交通连接图

  交通系统也是进行时空预测时的一个重要因素。直观来说,那些地理上距离较远,但交通便利的地区,是可以相互联系的。这些连接是由高速公路、高速公路或地铁等公共交通诱发的。这里,我们将这些道路直接相连的区域定义为“连通性”,相应的边定义为:

  是vi和vj之间连通性的指数函数。注意,为了避免冗余关联,从连通图中删除了邻域图,这也会导致图稀疏。

  (4)多图卷积用于时空依赖建模。

  利用以上三种类型的图,我们用下面的公式进行卷积,f(A;I)代表遗忘的太阳矩阵。

  在实际过程中,f(A;)被选为健忘孙算子l的K阶多项式函数,图3给出了卷积层的一个例子。K表示vi可以通过K步到达vj。在卷积运算中,k定义了提取空间特征时感测域的大小。

  基于多图卷积的空间依赖建模不限于上述三种类型的区域关系,可以很容易地扩展到其他区域关系和其他时空预测问题的建模。它从区域关系中提取特征,并对空间依赖性进行建模。当k较小时,特征提取将集中在近区。增加k值或重叠多个卷积层将增加感知域,从而鼓励模型捕捉更多的全局依赖性。

  (C)与时间相关的建模

  即通过多步处理,将多个时间步的信息融合成一张图片。这首曲子很难理解。首先解释一下维度关系。对于图4左上角的TVP,t代表t个时间步长,其中每个时间步长是一个正方形,正方形的高度(V)代表所有节点,宽度(P)代表嵌入图中的每个节点的高维表示。

  图4的左下角其实和图4的左上角是一样的数据,只不过左下角的数据是每个时间步加权的,所以他画的有些方块是粗的,有些方块是细的,这就是所谓的通道式注意。其中使用的权重是根据通道式注意中的公式6、7、8得到的,比较复杂(公式6画卷积,公式7汇集卷积结果。

  在图4的右边,他所说的RNN共享权重实际上是通过RNN将多个图像融合成一个图像。根据原理,对于每个节点,利用过去的T个时间步预测未来的T个时间步,要训练1个RNN,用50个rnn训练50个节点。然而,为了简化模型,本文将RNN模型应用于所有节点。右侧中间的黑色方块展开RNN,代表T个时间步,最后输出一个时间步,也就是合并成一张图片。(实际上,共享权重的RNN效应肯定不如为每个节点训练一个RNN,但文章说了这样做的原因:区域间共享RNN是为了给所有区域找到一个共同的聚合规则,从而促进模型的泛化,降低模型的复杂度。)

  这部分在下面详细解释。

  在这一部分中,我们提出了一种基于上下文门控的循环神经网络来模拟不同时间点观测值之间的相关性。CGRNN使用具有上下文感知门控机制的RNN将上下文信息集成到时态建模中,其架构如图4所示。

  首先将相关区域的信息作为上下文信息,通过k阶图(式6)的卷积运算,使用对应的图健忘孙矩阵进行卷积。上下文门控机制的设计是先对行图进行卷积,然后进行池化,使池化操作包含拓扑信息。

  其次,我们使用全局平均池化Fpool将所有节点的信息汇总到一个节点中(公式7)。

  然后,通过注意力操作对向量Z进行非线性变换,并且生成自适应权重S(公式8)。W1和W2, 对应的权重分别是ReLU和sigmoid函数。

  最后,将s应用于每个时间步长的权重(等式9)。

  在获得按时间步长加权的多个图像之后,价值共享RNN的使用权将这些图像融合成一个图像(公式10);在区域之间共享RNN是为了给所有区域找到一个共同的聚集规则,从而促进模型的泛化,降低模型的复杂度。

  6.总结与展望。本文的模型已经应用在滴滴在北京和上海的车上,实验部分不再介绍。处理POI数据和路网数据会比较麻烦。

  一般来说,本文首先提取三个关系图,即三个不同的健忘孙矩阵L,然后将每个关系图的多个时间步融合成一个时间步,即一个图。融合后得到只包含一个时间步长的三幅图,分别对这三幅图进行卷积,然后对结果进行特征融合,即可得到预测值。

  在今后的工作中,我们计划研究以下几个方面:(1)评估提出的模型对其他时空预测任务的影响;(2)扩展了多步序列预测方法。

  关注微信微信官方账号《当交通遇上机器学习》,

  在后台回复“数据”,即可获得多达175G的四个月滴滴GPS数据和滴滴订单数据,以及从数据处理(Oracle数据库)、模型建立(机器学习)、编程实现(python)到可视化(ArcGIS)的一系列视频教程。

  后台回复“纽约”即可获得纽约10年的出租车轨迹数据和7年的自行车共享轨迹数据。

  后台回复“芝加哥”获取美国芝加哥6年自行车共享赛道数据。

  后台回复“加州”获取加州近20年交通流量监测数据。

  微信官方账号以交通大数据为主线,专注于人工智能、机器学习、深度学习在道路交通、轨道交通领域的研究前沿和应用,正在交通大数据、机器学习的道路上越走越远!

十四五规划云计算大数据,大数据-互联网大规模数据挖掘与分布式处理