2016년 1월 9일 토요일

들쑥날쑥한 데이터 히스토그램 그리기

본문은 80만개가 넘는 들쭉날쭉 데이터에 도수 분포를 그릴때 만나는 문제와 대처방안을 다룬다.

먼저 80만개의 데이터를 플롯 했다.


평균(mean) : 176.8 , 중앙값(Median) 28 이다.

다음은 히스토그램이다.


도수 분포가 편중되어 성질을 파악하기 어렵다.
3분위 값이 114임을 감안할때 큰 값들을 가차 없이 눌러야 적절한 플롯이 나온다.

로그를 이용해서 튀는 값들을 눌러 보았다.


측정 값들이 크지 않아서 로그의 밑수(base number)를 1.1 정도로 잡았다.

그리고 히스토그램이다.


20 ~ 50 사이의 빈도가 높다.
측정 치로 볼때, 6 ~ 117의 사이의 값이다.



참고

판다스 사용 코드 모음
# 평균 값
stone.mean()
# 분위 값
stone.quantile([.25,.5,.75])
# ggplot 스타일의 플롯
with plt.style.context(('ggplot')):
    stone.plot()
# 히스토그램 bins 지정
stone.hist(bins=30)
# 로그 적용
cristal = stone.applymap(lambda i: math.log(i,1.1))
# ggplot 스타일에 y 라벨 추가
with plt.style.context(('ggplot')):
    ax = cristal.plot()
    ax.set_ylabel('log')
# 거듭제곱를 통한 측정치 구간
"%d ~ %d" % (pow(1.1,20),pow(1.1,50))

히스토그램 (  histogram )
도수분포를 정보 그림으로 나타내는 한 가지 방법이다.

도수분포
범주(계급)을 나누고 각 범주에 속하는 측정치의 수를 도수라 한다.
도수의 흩어짐 정도를 분포라 하고, 표나 그림(도)를 통해서 표현한다.

0 개의 댓글:

댓글 쓰기