2016년 11월 9일 수요일

RDD - Resilient Distributed Dataset

rdd (Resilient Distributed Dataset)는 사전 그대로 탄력적인 분산 데이터 집합을 말한다. 생성 후 변경이 불가능한 데이터 집합이며, 이에 따라 단순한 구조에서 오는 성능적인 이점을 가지고 있다. rdd 에서는 map, reduce, filter 와 같은 변경 ( transformation ) 요소와 collect, count와 같은 실행 ( action ) 요소를 가진다. 실제 수행은 action 에서 발생한다. 분산 형태의 파일을 로딩 할 때, - sqlContext.sql(“<QEURY>”),...

HIVE 질의 하기 on SPARK

SPARK 에서 HIVE 질의 하는 과정이다. SPARK CONTEXT 포인트를 얻는다. from pyspark import SparkContext, SparkConf conf = SparkConf().setAppName(‘HIVE SQL TEST01’) sc = SparkContext(conf=conf) HIVE CONTEXT 포인트를 얻는다. from pyspark.sql import HiveContext sqlContext = HiveContext(sc) HIVE SQL 질의를...

2016년 11월 7일 월요일

sqlite3 to hdfs with hive

sqlite3 에서 사용하던 이력 데이터의 용량이 너무 커져서 하둡 (hive)으로 옮기는 과정을 다룬다. hive 저장 포맷에 대한 간략한 비교도 포함한다. 목차 sqlite3 to hdfs ( hadoop file system ) hdfs to hive performance as hive format sqlite3 에서 hdfs 로 파일 저장하기 sqlite3 -csv big.db “select * from big;” | hadoop fs -put - /user/me/big.csv ** 결과를...

2016년 11월 3일 목요일

구글 애널리틱스 전자상거래 - 관련 상품 가져오기

GA 전자상거래 기능인 "관련 상품" 기능을 알아 본다. 아마존 성공 사례인 상품 기반 추천의 “같이 구매한 상품들”과 유사한 기능이다. 목차 GA에서 기능 활성화 API로 데이터 가져오기 UI 조회 도구 파이썬 도구 샘플 데이터 1. GA에서 기능 활성화 하기 “관리” -> “보기” -> “전자상거래  설정” 의 관련 상품을 체크한다. 2. API 로 데이터 가져오기 가. UI 조회 도구로 확인 및 가져오기 UI 조회 도구 <- 클릭 https://ga-dev-tools.appspot.com/query-explorer/? dimensions=ga:queryProductId,ga:relatedProductId &metrics=ga:correlationScore,ga:queryProductQuantity,ga:relatedProductQuantity &filters=ga:queryProductId==A ** GA...

Linux Repository 만들기

hortonworks hdp 2.5 repository 가 느린 이유로 로컬  repository가 필요했다. ambari-server 에서 cluster 구성 시에 참조하는 repository를 만드는 방법이다. ** 여기서는, 서버를 <hdp_repo> 라 이름한다. 가. repository 를 생성 도구들 설치한다. yum -y install yum-utils createrepo 나. repository 를 위한 데이터를 다운 받는다. reposync -r HDP-2.5 reposync -r Updates-ambari-2.4.1.0 reposync -r HDP-UTILS-1.1.0.21 ** 쉽게...

2016년 11월 2일 수요일

hortonworks 하둡 구성하기

호튼에서는 가볍게 기능적인 부분을 확인 할 수 있는 sandbox와 실제 하둡 구성을 도와주고 관리하는 ambari 기반을 제공한다. 두 가지를 구성 할 때, 주의 할 내용들을 요약한다. HDP 2.5 on hortonworks sandbox HDP 2.5 with Ambari 2.4 HDP 2.5 on hortonworks sandbox sandbox는 기본 8GB 메모리를 요구한다. hue는 기본 패키지에 없어서 추가로 설치했다. ** hue 접속 에러 발생 시에 대응 방안이다. 가....