通过自行车流量了解西雅图骑行上班族的工作习惯

This notebook originally appeared as a post on the blog Pythonic Perambulations. The content is BSD licensed.

2015年7月25日更新:根据我的同事Ariel Rokem的建议,增加了一些图片。


去年我写过一篇文章,研究西雅图自行车流量的变化趋势,以及与天气、日照时间、日期等因素的关系。

这次,我从另外一个角度出发重新研究这些自行车流量数据。上次是先做出假设,再建立模型描述数据的规律,这次不做任何假设,看看从这些数据本身能够得到什么信息。或者说,上次是使用"有监督机器学习方法"进行数据建模,这次使用“无监督学习方法”进行数据挖掘。

本文将展示使用Python导入数据,转换格式,以及数据可视化和数据分析的技巧。主要使用PandasMatplotlibScikit-learn等扩展包。本文还将展示如何使用无监督机器学习算法挖掘数据信息,如主成分分析(PCA)、高斯混合模型(GMM)等。

当然,我们最关心的问题是,通过分析自行车流量数据,能否了解西雅图骑行上班族的工作习惯。

Read more…