箱体图Boxplot是一种表示数据分布的方法(wiki:boxplot),一个基本的箱体图从上到下分别表示最大值,上四分位,均值,下四分位,最小值。有的箱体图中还会加入异常值等。
箱体图有以下几个优点:
1. 可以直观明了地识别数据中的异常值
2. 利用箱体图可以判断数据的偏态和尾重
3. 利用箱体图可以比较不同批次的数据形状
2.1 环境介绍
系统环境:mac
编程环境:pycharm
所需要的包:numpy,matplotlib,pandas
2.2 安装pandas
sudo pip install pandas
2.3 Python绘制箱体图
# -*- coding:utf-8 -*-
"""
绘制箱体图
Created on 2017.09.04 by ForestNeo
"""
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
"""
generate data from min to max
"""
def list_generator(number, min, max):
dataList = list()
for i in range(1, number):
dataList.append(np.random.randint(min, max))
return dataList
#generate 4 lists to draw
list1 = list_generator(100, 20, 80)
list2 = list_generator(100, 20, 50)
list3 = list_generator(100, 50, 100)
list4 = list_generator(100, 5, 60)
data = pd.DataFrame({
"dataSet1":list1,
"dataSet2":list2,
"dataSet3":list3,
"dataSet4":list4,
})
#draw
data.boxplot()
plt.ylabel("ylabel")
plt.xlabel("different datasets")
plt.show()