2016년 1월 30일 토요일

블로거 활동 6개월

작년 7월 부터 본격적으로 블로거 활동을 시작했다. 데이터를 다루는 경험들을 정리하기 시작 했고, 구글 애널리틱스 연동 4인방을 통한 컨텐츠의 생산과 소비 할동 분석에 학습의 의미를 두었다. 6개월이 지난 시점에 잊고 있던 애드센스 승인이 났고 흐뭇한 마음에 소회를 남긴다. 블로거는 망각 되었을 지식을 담아두는 도서관이 되었고, 급하게 경험을 찾는 은행이 되었다. 기술을 재해석하는 기쁨을 누렸고, 자신을 되돌아 보는 일기장이 되었다. 손에 쥔 수첩처럼 함께 하고, 친구처럼 늘 곁에 있다. 글은...

2016년 1월 28일 목요일

협업적 여과 방법

전자상거래 추천 자주 사용되고 있는 협업적 여과 방법을 이해하고, 관련한 주요 알고리즘을 알아 본다. 협업적 여과 방법 (Collaborative Filtering, CP) 사용자로 부터 얻은 기호 정보에 따라 관심사를 자동적으로 예측하게 해주는 방법이다. 널리 애용되는 방식이며 데이터가 풍부할 수록 정확한 예측에 유리하다. 사용자 기반의 유사 기호 군집 나누기 인구통계학적인 접근  - 연령대, 성별, 지역 … 고객 세분화 기법  - RFM (Recency, Frequency,...

전자상거래에서 상품 추천 방법들

본문은 영감을 얻을 수 있는 다양한 추천 방법들을 정리한다. 협업적 여과 (Collaborative Filtering) 추천 사용자로 부터 얻은 기호 정보에 따라 관심사를 자동적으로 예측하게 해주는 방법이다. 관점에 따라 다음 두 가지로 나뉜다. 사용자 기반 사용자의 유사도를 기반으로 선호 아이템을 추천하는 기법이다. 예) 비슷한 성향을 가진 A 그룹에 속해 있는 사람에게 A 그룹에서 선호하는 아이템을 추천한다. 아이템 기반 아이템의 유사도를 기반으로 연관 아이템을 추천하는 기법이다. 예) A 아이템 구매 고객에게 같이 팔리는 빈도가 높은 아이템을 추천한다. 아이템 계층 기반 추천 아이템의 계층 구조를 기반으로...

2016년 1월 27일 수요일

구글 애널리틱스 활용하기 - vs 마케팅

구글 애널리틱스(약칭 GA)의 활용도를 크게 두 가지로 나눠 본다. vs 사이트 사이트의 구조 및 상품 노출을 개선하고 GA 리포트를 확인하는 사이클이다. vs 마케팅 GA 리포트를 활용해서 마케팅에 활용하는 사이클이다. 본문은 후자(vs 마케팅)에 활용하는 사이클에 대한 한 가지 방법을 다룬다. 요약하자면, 수집된 데이터에서 의미 있는 군집을 정의하고, 리마케팅에 활용하는 방법이다. 절차는 다음과 같다. 1. 분석 다양한 차원 기능를 활용해 의미 있는 행동 패턴을 가진 집단을...

2016년 1월 26일 화요일

이베스트 투자 증권 API 연동 방법

자동 주식 매매를 위한 이베스트투자증권 API 연동 방법을 요약한다. 1. 이베스트 계좌 개설 (오프라인) 근처 은행에서 통장에 연계 계좌를 개설한다. 2. 이베스트 계좌를 등록 (온라인) 인터넷으로 이베스트 계좌 및 (증권용) 공인 인증서를 등록한다. 3. API 사용 등록 (온라인) 홈피에서 API 사용에 동의한다. 4. Xing API 설치 및 사용 Xing API를 설치한 폴더에 reg.bat 파일을 “관리자 권한”으로 수행한다. DevCenter를 실행하고, reg 파일을...

2016년 1월 20일 수요일

자바 사용 시 궁금한 내용 메모하기

본문은 자바 프로그래밍 언어를 접하면서 궁금한 내용들을 정리한다. 자바 로컬 환경 구성하기 1. 통합 도구 설치     1. 통합 개발툴 이클립스 설치 2. 웹 어플리케이션 서버 환경 구성     1. 톰켓 설치         1. 바이너리 다운로드         2. bin/*.sh 실행권한 주기     2. 이클립스 서버 환경에 톰켓 위치 등록    ...

2016년 1월 19일 화요일

가설 검정을 위한 scipy 라이브러리 모음

통계적 추론의 가설 검정을 위해 사용한 scipy 라이브러리를 정리한다. scipy는 과학 기술 컴퓨팅을 다루는 과학자, 분석가, 엔지니어링이 사용하는 오픈소스 파이썬 라이브러리 이다. matplotlib, SymPy, Pandas와 같이 NumPy를 기반으로 사용된다. T 검정 scipy.stats.ttest_1samp  Calculates the T-test for the mean of ONE group of scores. scipy.stats.ttest_ind Calculates the T-test for the means of TWO INDEPENDENT samples of scores. This...

기초 통계 용어 정리

본문은 통계 관련 용어를 메모합니다. 가설 검정 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적인 추론이다. 통계적인 유의성을 검정하는 것으로 유의성 검증 이라고도 한다. 가설의 두 가지 귀무가설 H0 비교하는 값과 차이가 없다는 것을 기본 개념으로 하는 가설이다. 대립가설 H1 (연구가설) 주장하는 가설로 차이가 있다는 것을 기본 개념으로 하는 가설이다. 직접 수행하기 불가능하여 귀무가설의 기각을 통해 받아들여 지는 반증을 거친다. 오류 제1종 오류(a error) 귀무가설...

T-Test 검정 실습

본문은 먼저 작성한 T 검정 방법을 통한 실습 내용을 다룬다. 먼저 샘플 데이터를 생성한다. 100명의 학생 (남학생 40, 여학생 60)의 성적 표본을 만들었다. 데이터 샘플 4개이다. genderscore1score2 12M79.10212278.820603 31M81.70105178.597056 52F80.87003682.106735 28M80.09334081.895030 상세 보기 내용이다. score1score2 count100.000000100.000000 mean79.48151580.947656 std2.0918501.954426 min73.46330376.973637 25%78.07064379.708372 50%79.72120280.781994 75%80.68171882.232054 max86.46994986.001438 다음은...

T-Test 검정 방법

추론을 통해 가설을 세웠다면, 검정을 통해서 유의성을 확인하게 된다. 본문은 여러 방법 중에 하나인 T 검정을 사용하는 방법을 다룬다. 표본 종류별 T 검증 단일표본 T 검정 독립표본 T 검정 대응표본 T 검정 정의 표본과 모집단의 평균차이 분석 독립된 두 표본의 평균 차이 분석 짝을 이룬 데이터의 평균 변화의 분석 가정 정규성, 등분산성 정규성, 등분산성 정규성 귀무가설 (H0) H0: μA=μ H0: μA=μ H0: μA=μ 대립가설 (H1) H1: μB≠μ H1: μB≠μ H1: μB≠μ 비모수 X Mann-Whitney...

통계적 추론에 대해서

본문은 통계적 추론에 대한 카테고리를 다룬다. 통계적 추론 (statistical inference)이란, 모집단에 대한 미지의 양상을 알기 위해 통계학을 이용하는 과정을 지칭한다. 추론은 추정과 가설 검정로 나눌 수 있다. 추정 (estimation)은, 표본을 통해 모집단의 특성의 추측하는 과정이다. 가설 검정 (testing hypothesis)은, 표본이 가지고 있는 정보를 이용해 가설을 검정하는 과정이다. 추정은 점 추정과 구간 추정으로 나눌 수 있다. 점 추정 (Point...

2016년 1월 16일 토요일

대신증권 API 연동 방법

자동 주식 매매를 위한 대신증권 API 연동 방법을 요약한다. 1. 대신증권 계좌 개설 (오프라인) 근처 은행에서 통장에 연계 계좌를 개설한다. 2. 대신증권 계좌를 등록 (온라인) 인터넷으로 대신증권 계좌 등록 및 (증권용) 공인 인증서를 발급 받는다. 3. CYBOS 5 설치 4. CYBOS Plus 로그인 및 사용 동의 CYBOS Plus를 통해서 로그인 한다. 주문 오프젝트 사용 동의를 한다. 5. 파이썬 설치 아나콘다(anaconda)를 통해서 python3.x 32bit...

2016년 1월 15일 금요일

Kivy 개발 퀵가이드

Kivy로 어플리케이션을 만드는 퀵가이드를 작성한다. 1. 코딩 kivy 라이브러리를 이용한 코딩을 한다. 코딩의 결과는 Kivy $(pwd)/<filename>.py 를 통해서 확인한다. 2. 빌드 및 배포 buildozer는 쉽게 패키지를 배포해 주는 도구이다. ios로의 배포는 아직 구현되지 않았다. 순서는 spec 파일을 생성하고, 원하는 내용을 수정하고, 빌드한다. 소스가 있는 폴더에서 다음을 수행한다. 메인 코드는 main.py를 사용한다. 안드로이드의 경우, buildozer init buildozer android debug deploy run 맥OS의 경우, buildozer init buildozer...

2016년 1월 11일 월요일

파이썬 포멧 메소드

문자(String)을 조작하는 “% operator(조작자)” 와 format method(메소드)를 다룬다. 본문은 영문 가이드 문서의 이해를 높이기 위한 예제를 소개한다. % 조작자를 사용한 예제이다. class hero:     first = '귀도'     middle = '반'     last = '로썸' # 순서대로 상수를 넘겨 준다. print("%s %s %s"  % (hero.first, hero.middle,...

자바 기반의 웹 프레임워크 구현

자바 기반의 웹 프레임워크 구현을 위한 기반 요소를 다룬다. 1. MVC 아키텍처 패턴 2. 자바 프로젝트 빌드 도구 3. 스프링 프레임워크 모델-뷰-컨트롤러(Model–View–Controller, MVC) 소프트웨어 공학에서 사용되는 아키텍처 패턴이다. 이 패턴을 성공적으로 사용하면, 사용자 인터페이스로부터 비즈니스 로직을 분리하여 애플리케이션의 시각적 요소나 그 이면에서 실행되는 비즈니스 로직을 서로 영향 없이 쉽게 고칠 수 있는 애플리케이션을 만들 수 있다.  referenced...

2016년 1월 9일 토요일

들쑥날쑥한 데이터 히스토그램 그리기

본문은 80만개가 넘는 들쭉날쭉 데이터에 도수 분포를 그릴때 만나는 문제와 대처방안을 다룬다. 먼저 80만개의 데이터를 플롯 했다.  평균(mean) : 176.8 , 중앙값(Median) 28 이다. 다음은 히스토그램이다.  도수 분포가 편중되어 성질을 파악하기 어렵다. 3분위 값이 114임을 감안할때 큰 값들을 가차 없이 눌러야 적절한 플롯이 나온다. 로그를 이용해서 튀는 값들을 눌러 보았다.  측정 값들이 크지 않아서 로그의 밑수(base number)를...

2016년 1월 8일 금요일

네이버 뉴스 관심도 보기

뉴스에 피드백(댓글)은 사람들의 능동적인 관심을 볼 수 있다. 본글은 연도별 네이버에 대한 관심과 섹션(분야) 비중을 다루었다. 1. 연도별 네이버 관심도 뉴스 댓글수수집 기사수 2004235145963 20051768871582 2006395449972764 2007590529673747 2008641619669141 2009107011974783 2010109192175476 2011141264275527 2012985043776212 20132254274476045 20142811589376015 20152504893276461 수집된...