본문은 80만개가 넘는 들쭉날쭉 데이터에 도수 분포를 그릴때 만나는 문제와 대처방안을 다룬다.
먼저 80만개의 데이터를 플롯 했다.

평균(mean) : 176.8 , 중앙값(Median) 28 이다.
다음은 히스토그램이다.

도수 분포가 편중되어 성질을 파악하기 어렵다.
3분위 값이 114임을 감안할때 큰 값들을 가차 없이 눌러야 적절한 플롯이 나온다.
로그를 이용해서 튀는 값들을 눌러 보았다.

측정 값들이 크지 않아서 로그의 밑수(base number)를 1.1 정도로 잡았다.
그리고 히스토그램이다.

20 ~ 50 사이의 빈도가 높다.
측정 치로 볼때, 6 ~ 117의 사이의 값이다.
참고
판다스 사용 코드 모음
# 평균 값
stone.mean()
# 분위 값
stone.quantile([.25,.5,.75])
# ggplot 스타일의 플롯
with plt.style.context(('ggplot')):
stone.plot()
# 히스토그램 bins 지정
stone.hist(bins=30)
# 로그 적용
cristal = stone.applymap(lambda i: math.log(i,1.1))
# ggplot 스타일에 y 라벨 추가
with plt.style.context(('ggplot')):
ax = cristal.plot()
ax.set_ylabel('log')
# 거듭제곱를 통한 측정치 구간
"%d ~ %d" % (pow(1.1,20),pow(1.1,50))
히스토그램 ( histogram )
도수분포를 정보 그림으로 나타내는 한 가지 방법이다.
도수분포
범주(계급)을 나누고 각 범주에 속하는 측정치의 수를 도수라 한다.
도수의 흩어짐 정도를 분포라 하고, 표나 그림(도)를 통해서 표현한다.
0 개의 댓글:
댓글 쓰기