SPARK CONTEXT 포인트를 얻는다.
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName(‘HIVE SQL TEST01’)
sc = SparkContext(conf=conf)
HIVE CONTEXT 포인트를 얻는다.
from pyspark.sql import HiveContext
sqlContext = HiveContext(sc)
HIVE SQL 질의를 하고 결과를 가져온다.
result = sqlContext.sql("SELECT * FROM tb_test01”).collect()
PANDAS DATAFRAME 형태로 변환한다.
import pandas as pd
df = pd.DataFrame(result,columns=result[0].asDict().keys()) if len(result) > 0 else ‘nothing’
**
result 는 list 타입이고, spark 명세 row 포맷을 element 로 가진다.
뒷문은 언제나 잘 잠근다.
sc.stop()
참조
HIVE를 위한 콘솔 ( console ) CLI 사용 도구사용자 ( end-user )에게 인터렉티브 ( interactive ) CLI 환경을 제공한다.
가. beeline
예제 :: beeline> !connect jdbc:hive2://<thrift server>:10000
SQL 문장이 바로 수행이 가능하다.
나. spark-sql
본문 방식으로 동작하며 CLI 를 제공한다.
hive metastore service를 이용하고, thrift server 와는 대화하지 않는다.
커버 사진
0 개의 댓글:
댓글 쓰기