2016년 2월 29일 월요일

웹분석 - 방문자 식별 방법

웹분석에서 방문자를 정의 한다고 할때, IP나 쿠키를 생각할 수 있다. IP 방식은 구현이 간편하지만, IP의 유동성이나 NAT 환경에서 대표성으로 인해서 세밀하지 못하다. 일반적으로는 브라우저 단위로 세분화 가능한 쿠키 방식을 사용한다. 본문에서는 방문자 식별이 쓰이는 사례와 방법을 예시한다. 먼저 웹분석의 기본 요소를 통해서 방문자 식별 사례를 본다. 방문 최초 이벤트 발생을 시점으로 방문이 일어나고 특정 조건 하에서 방문은 유지 된다. IDLE이 특정 시간이 지나면 방문이 끊어진...

2016년 2월 25일 목요일

piwik 데이터 모델 요약

오픈 소스 기반의 웹분석 도구인 PIWIK의 데이터 모델을 요약한다. 1. 데이터 생성 과정을 다룬다. 2. 테이블의 용도 및 필드명을 설명한다. 3. 테이블 명세서 시트를 기록한다. 첫번째 데이터 생성 과정이다. 가. 로그 데이터 수집 (Log Data) 나. 보관 처리 (Archiving Process) 다. 보관 데이터 생성 (Archive Data) ** 데이터 수집 대상은 4가지로 요약할 수 있다.  - visits(방문), action types(행위), conversions(전환), ecommerce items(전자상거래) 조회 효율을 높이기 위해서 패턴 질의에 대한 보관(요약:summary)...

2016년 2월 22일 월요일

2016년 2월 7일 일요일

전자 상거래 상품 이름 분석 II

상품 이름의 단어 조각을 트랜잭션 단위의 부분 집합(조합)으로 간주하고 연관성을 찾는 과정을 알아 본다. 본문은 자주 활용되는 연관 규칙(Association Rules)에 대한 작업 과정을 다룬다. 도구는 Python으로 전처리를 하고 분석은 R을 사용했다. 먼저 트랜잭션 데이터 소스 형태이다. 가. 장바구니 형태 (basket) 상품 이름 사각 똑딱 핀 4P 손톱 매직 파일 헤어 집게 2P 오각 스펀지 12P 손톱 버퍼 2종 세트 나. 테이블 형태 (single) 트랜잭션 단어 1 사각 1 똑딱 1 핀 1 4P 2 손톱 두...

2016년 2월 5일 금요일

전자 상거래 상품 이름 분석 I

전자 상거래에 사용되는 상품 이름이 가지는 특징을 알아본다. 상품 이름은 단어(의미) 조각들로 이루어져 있고 조각들은 관계가 있을 것이다. 온라인 마켓 상품 이름을 수집한다. 상품 이름 아이스 트레이(미니) 볼메이슨 와이드 자_946ML 클레어 패브릭 액자_10CMx15CM 아동용 버드 욕실화_블루 스타 미니 바스켓_3P * 상품 이름이 친절하지 않으면 형태소 분석기를 활용하자. 상품 이름을 단어 단위로 쪼개고 태그를 부여한다. 단어 빈도 분류 단어 길이 유리 89 형질 2 세트 86 - 2 사각 86 형태 2 베이지 72 칼라 3 핑크 72 칼라 2 단어에...

2016년 2월 4일 목요일

카이제곱 검정 실습

본문은 기 작성한 “T-Test 검정 실습”에 대한 확장된 내용을 카이제곱 검정과 함께 다룬다. 모수 검정은 표본 평균과 표본 분산을 이용하는 방법이 있다. 표본 평균의 차이를 이용하는 방법 T 분포, Z 분포 표본 분산의 차이를 이용하는 방법 F 분포, 카이제곱 분포 T-Test와 카이제곱의 공식이다. T-TEST 공식     ( 표본평균1 - 표본평균2 ) /  Sqrt( 표본분산1 / 표본개수1 + 표본분산2 / 표본개수2  ) 카이제곱 공식  ...