【Matplotlib】ヒストグラムを作成する方法

 

こんにちは、のっくんです。

 

この記事では、PythonのMatplotlibを使ってヒストグラムを表示してみます。

 

大量のデータを分析するときに、Matplotlibを使って可視化することで見やすくなります。

 

Pythonなら数行のコードで書けるのでぜひ試してみてください。

 

スポンサーリンク

 

事前準備

 

matplotlibとpandasを使います。

Anacondaを使っている場合は以下のコマンドでインストールできます。

 

使用するデータ

 

NYCflights13 dataを使います。これは2013年のニューヨークを出発した航空会社ごとの遅れた時間が含まれています。

データ数は30万以上のリアルなデータなので、分析にはもってこいのデータですね!

 

実際に中身をみてみましょう。

 

各航空会社ごとのデータが入っています。

到着時刻がマイナスになっているのは、到着が早まったと言うことでしょう。

 

ヒストグラム

 

 

30万のデータが一目瞭然ですね。遅れるよりも少し早めに到着する飛行機が多いのがわかります。

ビン幅を調節する

 

ビン幅をそれぞれ調整して4つのグラフを表示してみましょう。

 

 

航空会社ごとにヒストグラムを表示する

 

Matplotlibのヒストグラムでは、カテゴリごとに別の色でヒストグラムを表示することができます。

side-by-sideヒストグラムと言います。

 

カラフルで良いですが、ラベルとバーが一致していないので見方がよく分からない図になってしまいました。ヒストグラムだけでは、複雑なデータを扱うのは難しいですね。

Density Plotという方法が良いらしいので時間があったら今度やってみようと思います。

 

おわり。

 

参考

Medium,

https://towardsdatascience.com/histograms-and-density-plots-in-python-f6bda88f5ac0

 

ABOUTこの記事をかいた人

のっくん

理系院卒で大企業の研究所に就職。 趣味はプログラミング、レアジョブ英会話、筋トレ、旅行。 Twitter:@yamagablog