2016년 10월 22일 토요일

spark에서 aws s3 접근하기

spark standalone 모드에서 s3 접근 테스트를 시도했다.

2016년 10월 21일 기준,

스파크 홈페이지에서 hadoop 2.4 빌드 버전 가져온다.

spark-2.0.1-bin-hadoop2.4

**
하둡 2.7 버전에서는 다양한 에러가 발생했다.

s3 접근을 위한 환경 설정을 한다.

 * conf/spark-defaults.conf 에서 변경하는 방법
spark.hadoop.fs.s3n.awsAccessKeyId      <aws_accesss_key>
spark.hadoop.fs.s3n.awsSecretAccessKey  <aws_accesss_key>

 * 수행 코드에서 변경하는 방법
sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", <aws_accesss_key>)
sc.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", <aws_accesss_key>)

**
sc : SparkContext

s3n protocol을 사용한다.

rdd = sc.textFile(“s3n://<bucket_name>/<path>”)
rdd.count()

**
최초 한번의 질의 시에 에러가 발생하고, 이후 질의 부터는 괜찮다.
SignatureVersion 문제로 차후 fix 버전이 나올 것으로 기대된다.


참조 이미지

0 개의 댓글:

댓글 쓰기