spark standalone 모드에서 s3 접근 테스트를 시도했다.
2016년 10월 21일 기준,
스파크 홈페이지에서 hadoop 2.4 빌드 버전 가져온다.
spark-2.0.1-bin-hadoop2.4
**
하둡 2.7 버전에서는 다양한 에러가 발생했다.
s3 접근을 위한 환경 설정을 한다.
* conf/spark-defaults.conf 에서 변경하는 방법
spark.hadoop.fs.s3n.awsAccessKeyId <aws_accesss_key>
spark.hadoop.fs.s3n.awsSecretAccessKey <aws_accesss_key>
* 수행 코드에서 변경하는 방법
sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", <aws_accesss_key>)
sc.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", <aws_accesss_key>)
**
sc : SparkContext
s3n protocol을 사용한다.
rdd = sc.textFile(“s3n://<bucket_name>/<path>”)
rdd.count()
**
최초 한번의 질의 시에 에러가 발생하고, 이후 질의 부터는 괜찮다.
SignatureVersion 문제로 차후 fix 버전이 나올 것으로 기대된다.
참조 이미지
0 개의 댓글:
댓글 쓰기