빅데이터

[Spark] 스파크가 뭘까?(+zeppelin)

홍또~ 2020. 10. 25. 05:31

1.아파치 스파크

Spark 로고

Apache spark는 Hadoop의 Mapreduce의 단점을 보완한 분산처리 엔진이다.

인메모리의 사용으로 메모리 효율증가를 이끌어내어 반복처리작업시 

기존 Disk 기반으로 처리되는 Hadoop Mapreduce의 속도보다10~1000배까지 빠르게 설계되었다.

이를 통해 데이터 실시간 스트리밍 처리가 가능하다.

기존 Hadoop Mapreduce의 한계

  • 맵리듀스 잡의 결과를 다른 잡에서 사용하려면 이 결과를 HDFS 에 저장해야 하기 때문에, 이전 잡의 결과가 다음 잡의 입력이 되는 반복 알고리즘에는 본질적으로 맞지 않다

  • 하둡은 low-level 프레임워크이다 보니 데이터를 조작하는 high-level 프레임워크나 도구가 많아 환경이 복잡하다.

2.기능

Apache Spark 아키텍처

  • 그래프 알고리즘 (Spark GraphX)

  • 머신 러닝 알고리즘 (Spark MLlib)

3.특징

Hadoop과 연계가능하며, Hadoop위에 Spark를 얹어 실시간처리는 Spark가 맡도록 하는

아키텍쳐가 많이 쓰이고 있다.

4.Zeppelin

Apache Zeppelin은 Spark를 통한 데이터 분석의 불편함을 Web기반의 Notebook을 통해서 해결해보고자 만들어진 어플리케이션 - 쉽게말해 Spark에 gui적 요소를 넣어서 접근및 테이블 시각화를 쉽게 만든 툴.

'빅데이터' 카테고리의 다른 글

[Spark] Centos7에 Apache Spark 설치하기(+zeppelin)  (0) 2020.10.27
[Hadoop] Centos7에 하둡 설치하기  (0) 2020.10.27
[Hadoop] 하둡이 뭘까?  (0) 2020.10.25
GCP 에서 hadoop 설치  (0) 2020.04.24