一种一票制公交数据的分析挖掘方法与流程

本发明涉及交通
技术领域
,尤其涉及一种一票制公交数据的分析挖掘方法。
背景技术
:近年来智能公交系统快速发展,挖掘公交刷卡大数据成为指导运营规划的新手段,但一票制公交缺乏乘客的下车站点信息,阻碍了相应新数据的应用。随着技术不断发展,交通大数据成为当前的研究热点,相比于传统的交通调查方式,交通大数据获取成本更低,但包含的信息却更为丰富,这些信息一方面使得从个体层面研究乘客的交通行为成为可能,为传统交通研究提供了新的视角;另一方面,挖掘交通大数据还可以进行城市结构探测、城市规划等其它研究。在多个领域,既有研究均表明了交通大数据具有广阔的应用前景。近年来智能公交系统在全国范围内的快速发展,乘客ic卡自动收费系统和车载gps自动定位系统得到广泛的使用,积累了丰富的交通大数据资源,这为获取实时、全面的公交客流数据提供了新的技术手段。但是国内目前大多数城市只有地铁和部分快速公交线路采用进出站刷卡形式,对于覆盖面更广、客流量更大的常规公交,通常采用一票制,乘客仅需要在上车时进行刷卡,下车时无需刷卡,导致刷卡记录中缺失上下车站点、换乘记录等信息,使得这些数据无法直接得到利用。技术实现要素:有鉴于此,本发明的目的是提供一种一票制公交数据的分析挖掘方法,以解决
背景技术
中的问题。本发明提供了一种一票制公交数据的分析挖掘方法首先对公交ic卡数据、公交gps数据、车载机数据和单程站点信息进行清洗。进一步,公交乘客ic卡数据中有效字段包括交易卡编号、交易日期、行车线路和车牌号,主要字段及解释如表1所示。表1公交ic卡数据主要字段及其解释字段字段说明cardno交易卡编号tradedate交易时间routecode线路vehiclecode车牌号对公交刷卡进行数据清洗,主要是删除逻辑上明显不合理的记录,主要处理方法如下:s1:首先提取研究所需字段,删除无用字段;s2:然后删除部分字段丢失的记录。进一步,公交的车载gps数据中共有59个字段,但部分字段目前尚未启用,为空值,其中有用字段包括车载机编号、到离站信息、定位时间、定位经纬度、线路编号、子线编号、顺序号、公交车速度、公交车行驶里程等字段,主要字段及解释如表2。表2gps数据主要字段及其解释字段字段说明字段字段说明productid车载机编号latitude纬度isarrlft到离站信息routeid线路号actdatetime定位时间subrouteid子线号longitude经度stationseqnum站点顺序号公交车进出站时会产生gps定位记录,会在站点前后5米内分别产生到站和离站数据,针对gps数据,主要的数据清洗过程为:s1:提取研究所需字段,删除无用字段;s2:基于arcgis删除经纬度在监测区域范围外的记录;s3:删除只有到站或只有离站的数据。进一步,车载机数据,车载机信息是指车载机编号对应的车牌号及线路名称,用于匹配gps数据对应的车牌号,以及对gps数据和ic卡数据的关联融合,其数据样本如表3所示。表3车载机信息对照表车载架编号车牌号线路名称20111271aa127142路20111601aa1601306路进一步,单程站点信息表,单程站点关系表是线路号、子线号对应的站点顺序号、站点名称及站点类型,鉴于gps数据中只存在站点顺序号,并没有定位站点名称,所以使用单程站点关系表将定位站点名称匹配到gps数据中,该表样本数据如表4所示。通过筛选线路号和子线号后,站点顺序号和站点名称为一一对应关系。表4单程站点关系表线路号子线号站点类型编号站点顺序号站点名称11343博物馆(单)(东)11344档案馆(东)11345民主党派大楼(东)单程站点关系表中,许多站点分东西南北四个方向,同一个站点gis地图中往往存在许多个相邻的经纬度,为方便起见,结合gis数据中站点信息,将同一个站点不同方向不同行别的经纬度取平均值进行融合,获得站点的唯一经纬度值,如图1所示。将gps数据与车载机信息和融合后的单程站点关系表进行融合,获取包含车牌号、站点名称,站点经纬度的到离站gps数据,数据样本如表5所示。表5匹配经纬度后的单程站点关系表线路号子线号站点顺序号站点名称经度纬度220013人民医院106.252319238.5045019220014人民医院106.252319238.5045019220015花园106.25138338.4981606进一步,站点推断方法:“一票制”公交的乘客刷卡数据中缺少乘客的上下车站点及换乘站点信息,为了将这些信息补全,提出了下列算法:乘客上车站点推断:将公交gps数据与乘客ic卡数据进行融合,通过比对乘客刷卡时间及车站gps数据更新时间以确定乘客的上车站点,其推断算法如下:输入原始乘客刷卡数据userdata;公交车gps数据vehiclesgps;车牌号列表vehicles;输出:匹配后的刷卡数据集result;其中,selectdata(data,condition)函数表示从data中提取满足condition条件的数据;computeinterval(a,b)函数表示计算a、b之间的时间间隔。由于gps定位时间和刷卡时间的误差,算法中将gps定位时间和刷卡时间差大于180秒的数据进行剔除,以保证匹配结果的准确性。具体步骤如下:输入:原始乘客刷卡数据userdata;公交车gps数据vehiclesgps;车牌号列表vehicles;输出:匹配后的刷卡数据集result;定义i表示每一个车牌号,a为乘客刷卡数据中车牌号为i的记录,b为公交gps数据中车牌号为i的记录,j为a中每一条刷卡记录;首先设初始化上车站点为空;初始化时间间隔为无穷大,记录站点名称为k,记录j中添加上车站点名称,selectdata(data,condition)为b中每一条记录,computeinterval(a,b)为记录j和记录k时间间隔,将gps定位时间和刷卡时间差大于180秒的数据进行剔除,将添加上车站点后的记录j记录到result中;然后执行下一次循环。进一步,乘客下车站点推断有两种方法:不同乘客每一天利用公交出行的次数不同,部分乘客一天出行多次,而大量乘客一天之中只进行一次公交出行,针对这两种不同的情况,利用下述的两种方法完成乘客下车站点的推测过程。进一步,乘客下车站点推断的第一种方法基于乘客出行链的下车站点推断针对一天之中利用公交出行多次的乘客,其一天数据中包括多条刷卡记录,能够形成闭合公交出行链或非闭合公交出行链,本文利用乘客出行链推测乘客下车站点,过程如下:s1:提取乘客刷卡记录中卡号相同的一天内的全部刷卡记录,并按刷卡时间排序;s2:针对一名乘客,首先根据该乘客前一条记录中的上车站点,获取该名乘客此次出行所乘坐线路的所有站点;s3:计算乘客下一条乘车记录中,与上一次乘坐线路所有车站空间距离最近的车站,则此车站为乘客前一次乘车时的下车站点;s4:当s2中的刷卡信息为该卡号的最后一次刷卡记录时,则利用该名乘客第一条刷卡记录作为下一次乘客记录,从而推算其最后一次乘坐公交车时的下车地点,该卡号的下车站点推算结束;s5:针对所有卡号,不断运行步骤s1-s4,直至所有卡号完成推断过程。进一步,乘客下车站点推断的第二种方法基于概率的下车站点推断:对于一天内无连续公交出行的乘客,本文应用基于站点下车概率的乘客下车站点估计模型,既有研究表明公交站点吸引强度与发生强度基本平衡,因此可用站点的发生强度等价替换站点的吸引强度。根据乘客上车站点推断结果,可统计得任一条线路各个站点的上车人数,由此计算站点的吸引强度如式2所示:式中,si表示第i站上车的人数。乘客下车的概率pij、与公交平均公交出行的站数和站点的吸引强度pi有关,居民公交出行的乘站数主要集中在一定的范围内,统计经验表明,在固定的行驶方向上,公交乘站数近似符合泊松分布,如式3所示:式中zij表示乘客第i站上车j站下车的概率;λ表示公交出行的平均乘站数,当i站以后的站点数目小于λ时,λ=(n-λ),n为单线公交站点总数,由此可以构造出乘客从站点i上车站点j下车的概率如式4所示:至此,可得任意i站上车j站下车的乘客总数如式5所示:mij=si×pij(式5)进一步,换乘站点推断公交换乘识别可从时间角度与空间角度进行考虑。如图2所示,公交乘客在p1站点t1时刻刷卡上车,公交车经过t1时间至t2时刻到达p2站点,步行距离l,耗时t2到达换乘站点p3,等待t3时间至t3时刻刷卡上车,乘坐换乘路线公交站点,最终运行时间t4至t4时刻到达终点站点p4,完成本次出行。则换乘过程时耗用ts如式1表示:ts=t3-t2=twalk+twait=t3-t1-tv(式1)其中twalk为下车站点至换乘站点的步行时间;twait为在换乘站点的等待时间;tv为上一次在车时间。进一步,分析公交车乘车时间tv、换乘步行时间twalk、换乘站点等待时间twait的最大值,便可以得到换乘最大时间间隔,本文结合既有文献和交通调查,取最大可能换乘阈值为60min。则换乘识别过程步骤如下:s1:提取一条公交ic卡记录,记录刷卡时刻记为t1,获取同一卡号相邻刷卡记录,记录刷卡时刻为t2;s2:计算刷卡时间间隔ti=t2-t1,若ti≤tmax,且换乘站间距离l<500m则认为乘客后一次出行为换乘行为,否则认为一次出行;s3:对同一卡号的所有数据进行判断,并记录识别的结果;s4:重复步骤s1-s3,直到最后一张卡,完成乘客换乘行为识别。本发明的一种一票制公交数据的分析挖掘方法的有益效果:提出了完整的一票制公交数据挖掘流程,其中包含原始数据清洗、乘客上下车站点推测、乘客换乘站点推测等方法,汇集了大量的人流数据,基于此数据方便为公交运营及线路规划提供可靠的数据支持,本算法识别主要客流集散地分布;获取了在营线路日客流量,以及空间分布情况,从而宏观上对居民的出行需求有了直观的了解;分析了现有运营方案下乘客换乘量较大的站点分布,为后续线路的调整提供了可靠的的参考数据。附图说明图1是本发明的公交站点融合前后示意图;图2是本发明的异站换乘示意图;图3是本发明的公交站点上客流量图;图4是本发明的公交站点下客流量图;图5是本发明的全天客流量前15站点;图6是本发明的日客流量过万的线路;图7是本发明的各线路客流量;图8是本发明的换乘客流量前15站点;图9是本发明的站点换乘客流量空间分布;图10是本发明的整体算法运行流程图。具体实施方式以下将结合附图和具体实施例对本发明进行详细说明,显然,所描述的实施例仅仅只是本申请一部分实施例,而不是全部的实施例,基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本实施例中,本发明的一种一票制公交数据的分析挖掘方法图3和图4为公交站点的上下客流量,图例中标记了相应客流量的站点的数。从空间分布来看,上下客流量较大的站点均集中于城市东部,表明东部为城市的核心区域;由站点客流量的分布情况,站点上客量超过2000的站点共有282个,站点下客量超过2000人次的站点共有174个,与此同时上客量低于300人次的站点数量及下客量低于300人次的站点数量均超过1800个,这反映了城市单极化发展导致公交发展存在不均衡现象。图5为全天客流量排名前15为的站点,由图中可知这15个站点的日客流量均超过3600人次,是重要的客流集散地,其中全天客流量最大的站点为北门公交车场,其日客流量达到了6511人次,这些站点附近客流量均较大,针对这些站点进行相关的优化,有利于提升公交的服务水平。本实施例中,线路运行状况如下:基于乘客上下车站点识别结果,可以得到公交实际运营中,每一条线路的全天客流量,图6为全天客流量超过1万人次的线路,共有15条,其中81路日均客流达到41650人次,是191路客流量的1.6倍,是316路客流量的4倍,这一方面表明该条线路在公交线网中具有重要作用,另一方面,通过详细分析该条线路的客流od,对相关线路进行调整,分担该线路的部分功能,可以有效提升公交线网的服务水平。通过各线路客流量的空间分布情况如图7所示,其中红色的线路表示日客流量超过15000人次,这些线路是公交线网的骨干线路,由图中所示,这些线路主要用于沟通城市核心区与周边区域,主要为城市西部。而连接城市的东西部的线路客流量差异较大,客流分布集中于一条线路,这与图6中反应的不同线路客流量的巨大差异相适应,通过调整公交线路,使客流分配更为均匀,可以有效的提升突发事件下公交的服务水平。本实施例中,换乘站点利用上述算法识别了银川市一天内的各公交站点换乘客流量,图8为换乘客流量最大的15个车站,其中以北门公交车场站点换乘客流量最大,日换乘客流量达到1037人次。其空间分布情况如图9所示,换乘量大的站点集中分布于城市的东部核心区,针对这些站点进行进一步的调查研究,进而进行相关线路的调整,可以有效减少换乘乘客的数量,提升乘客的满意度。以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。本发明未详细描述的技术、形状、构造部分均为公知技术。当前第1页1 2 3

(0)

相关推荐