Pandas 是基于NumPy 的一个python扩展工具,该工具是为了高效的解决数据分析任务而创建提供了操作大型数据集所需的一些便捷方法,同时Pandas 也提供了一个常见的可视化方法(基于matplotlib包),本文主要向大家展示如何用Pandas可视化你的数据。
# 安装pandas
pip install pandas
# 用conda安装
conda install pandas
1)散点图
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(50, 4), columns=['a', 'b', 'c', 'd'])
# 散点图
df.plot.scatter(x='a', y='b', s=df['a'] * 200)

2)饼图
import pandas as pd
import numpy as np
df = pd.DataFrame(3 * np.random.rand(4), index=['a', 'b', 'c', 'd'], columns=['x'])
# 饼图
df.plot.pie(subplots=True, figsize=(5, 5), autopct='%.2f')

3)面积图
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(10, 4), columns=['a', 'b', 'c', 'd'])
df.plot.area()

4)盒状图
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(10, 5), columns=['A', 'B', 'C', 'D', 'E'])
df.plot.box(sym='r+')
df.plot.box(vert=False, positions=[1, 4, 5, 6, 8])


5)柱状图
import pandas as pd
import numpy as np
df = pd.DataFrame({'a':np.random.randn(1000)+1,'b':np.random.randn(1000),'c':np.random.randn(1000) - 1}, columns=['a', 'b', 'c'])
df.plot.hist(bins=20)

6)堆积图
import pandas as pd
df = pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d'])
# 堆积柱状图
df.plot.bar(stacked=True)
# 堆积条形图
df.plot.barh(stacked=True)


7)折线图
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10,4),index=pd.date_range('1/1/2000',
periods=10), columns=list('ABCD'))
df.plot()

总体来说,pandas自带的可视化函数基本满足大部分数据可视化要求。非常的简单实用。
参考资料:
1.https://pandas.pydata.org/
2.https://www.tutorialspoint.com/python_pandas/python_pandas_visualization.htm