
rdd (Resilient Distributed Dataset)는 사전 그대로 탄력적인 분산 데이터 집합을 말한다.
생성 후 변경이 불가능한 데이터 집합이며, 이에 따라 단순한 구조에서 오는 성능적인 이점을 가지고 있다.
rdd 에서는
map, reduce, filter 와 같은 변경 ( transformation ) 요소와 collect, count와 같은 실행 ( action ) 요소를 가진다.
실제 수행은 action 에서 발생한다.
분산 형태의 파일을 로딩 할 때,
- sqlContext.sql(“<QEURY>”),...