新华(大庆)商品交易所
新闻中心

分析策略/NEWS

大数据预测打车费用的方法论:数据分析和机器

2019-03-05 08:18

  美国纽约的出租车,因为统 、显眼的黄色车身,被老美们戏称为“小黄车”。纽约小黄车是纽约客日常出行的主要交通工具之 ,但对于大部分乘客而言, 定很想在上车之前就知道到达目的地的打车车费是多少。于是,Emanuel Kamali就通过数据分析与建模,对纽约出租车车费做出预测,并且还发现了 些有趣的现象,快来 起看看吧。

  随着科技发展不断推动各行业的信息化进程,纽约标志性的出租车小黄车们却拖了后腿。在Uber、Lyft等共享出行平台的竞争下,小黄车也开始和Google合作,让自己的服务变得更加以数据为。小黄车希望Google可以通过它们提供的数据,设计出 些新的功能从而进行出租车价格的预测。这些数据信息包括:

  纽约市出租车小黄车、Google和美国大数据竞赛平台Kaggle合作,设置了 个数据应用竞赛,让想要“把玩”这些数据的玩家们可以尝试通过这些数据集来设计 个机器学习算法,用以预测车费。我们的目标就是,通过分析这些数据集,设计出 些新的功能,让新的数据可以在我们的算法和代码中运转,并较终得出预测车价。

  为了设计 个有效的机器学习模型,我们需要先做 些事情来保证模型是准确的。先就需要对小黄车有更多的了解,所以我先做了 些研究,弄明白它的计费模式。

  于是我进 步探索数据,研究不同的时间点打车是否影响价格。在对数据进行处理前,我先研究了 下打车价格数据的分布情况。

  可以看到,这组数据是十分分散的,也就是说我们的数据集里有很多异常值。我把这些异常值去除,可以更直观地看到价格的分布情况。

  从上图可以看出,周五周六和周四的乘车次数较多。这可以理解,因为在美国人们通常会更多的使用出租车。如下图,当我们研究某 个给定日期内不同时间点的平均价格时,会发现并没有太大的区别。

  接下来,我的研究了 下打车人数数据,发现有些蹊跷的地方。 辆小黄车可以搭载7名乘客,但是在数据中我们只找到非常少的7人满载搭车的情况。另外,还有 些数据显示搭载人数为0,这也不合常理。于是这些数据可以被筛选清理掉。

  研究完了小黄车 天不同时间的不同价格,我开始研究为什么这几年打车价格不断上升。我把指标改为年-月的计量单位。这样我可以看到不同年份的价格变化。

  从中也可以看到2012-13年的价格飙涨。作为 个数据科学家,这是我想要进 步挖掘的发现。我在网上搜索后发现,2012年9月3日 篇纽约时报文章对当时纽约车费的上涨做过报道。

  纽约的出租车管理机构在当时批准了新的计价方法,并开始允许出租车运营机构使用新方法,并导致费率上涨了17%。

  在我清理了数据、将上下车地点数据换算成里程公里数后,我开始将数据输入到我的机器学习模型中。我使用了三种模型:多重线性回归,随机森林实现以及GBR(gradient boosting regression)。

  我使用均方根误差(RMSE, root mean square error)来判断哪个模型表现佳。在展示结果前,我们先看 看随机森林和GBR的模型的不同。

  对于随机森林,关键的影响因子是Haversine-dist,也就是上下车地点间的距离。其他的因素影响很小。

  而对于GBR而言,Haversine-dist也是很重要,但是其他的包括上车地点、下车地点也很重要。

  从结果看,随机森林模型表现好。它的均方根误差为2.418左右,这意味着当我们的模型算出 个预测值时,线美元。

  今后还可以做更多的尝试,来提高准确度。比如,如果我们可以把去机场的车和其他地点的车分隔开,就可以进 步研究在纽约市打车的人们都去了哪里。

  Emanuel Kamali,纽约州立大学宾汉姆顿大学艺术与应用数学专业毕业,除了喜欢研究机器学习外,还对讲述故事以及数据科学的创造性 面非常感兴趣。