2016년 11월 9일 수요일

HIVE 질의 하기 on SPARK

SPARK 에서 HIVE 질의 하는 과정이다.

SPARK CONTEXT 포인트를 얻는다.
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName(‘HIVE SQL TEST01’)
sc = SparkContext(conf=conf)

HIVE CONTEXT 포인트를 얻는다.
from pyspark.sql import HiveContext
sqlContext = HiveContext(sc)

HIVE SQL 질의를 하고 결과를 가져온다.
result = sqlContext.sql("SELECT * FROM tb_test01”).collect()

PANDAS DATAFRAME 형태로 변환한다.
import pandas as pd
df = pd.DataFrame(result,columns=result[0].asDict().keys()) if len(result) > 0 else ‘nothing’

**
result 는 list 타입이고, spark 명세 row 포맷을 element 로 가진다.

뒷문은 언제나 잘 잠근다.
sc.stop()


참조

HIVE를 위한 콘솔 ( console ) CLI 사용 도구
사용자 ( end-user )에게 인터렉티브 ( interactive ) CLI 환경을 제공한다.

가. beeline
예제 :: beeline> !connect jdbc:hive2://<thrift server>:10000
SQL 문장이 바로 수행이 가능하다.

나. spark-sql
본문 방식으로 동작하며 CLI 를 제공한다.
hive metastore service를 이용하고, thrift server 와는 대화하지 않는다.

커버 사진

0 개의 댓글:

댓글 쓰기