[Spark] 스파크가 뭘까?(+zeppelin)

빅데이터

홍또~ 2020. 10. 25. 05:31

1.아파치 스파크

Apache spark는 Hadoop의 Mapreduce의 단점을 보완한 분산처리 엔진이다.

인메모리의 사용으로 메모리 효율증가를 이끌어내어 반복처리작업시

기존 Disk 기반으로 처리되는 Hadoop Mapreduce의 속도보다10~1000배까지 빠르게 설계되었다.

이를 통해 데이터 실시간 스트리밍 처리가 가능하다.

기존 Hadoop Mapreduce의 한계

맵리듀스 잡의 결과를 다른 잡에서 사용하려면 이 결과를 HDFS 에 저장해야 하기 때문에, 이전 잡의 결과가 다음 잡의 입력이 되는 반복 알고리즘에는 본질적으로 맞지 않다
하둡은 low-level 프레임워크이다 보니 데이터를 조작하는 high-level 프레임워크나 도구가 많아 환경이 복잡하다.

Hadoop과 연계가능하며, Hadoop위에 Spark를 얹어 실시간처리는 Spark가 맡도록 하는

아키텍쳐가 많이 쓰이고 있다.

Apache Zeppelin은 Spark를 통한 데이터 분석의 불편함을 Web기반의 Notebook을 통해서 해결해보고자 만들어진 어플리케이션 - 쉽게말해 Spark에 gui적 요소를 넣어서 접근및 테이블 시각화를 쉽게 만든 툴.

[Spark] Centos7에 Apache Spark 설치하기(+zeppelin) (0)	2020.10.27
[Hadoop] Centos7에 하둡 설치하기 (0)	2020.10.27
[Hadoop] 하둡이 뭘까? (0)	2020.10.25
GCP 에서 hadoop 설치 (0)	2020.04.24

홍또의블로그

IT 신기술, 서버 관련정보 등등 IT 종사자로써의 블로그 + 게임

아파치, 픽셀 영웅 공략, pixel idle heroes, 드래곤볼, 드래곤볼 모바일, 픽셀영웅 공략, Apache, 픽셀 히어로, 메이븐, 픽셀 드래곤볼, 젠킨스, jenkins pipeline, 픽셀영웅, 픽셀영웅 도감, jenkins, #픽셀영웅 #드래곤볼 #pixel idle heroes #픽셀 히어로 #픽셀 드래곤볼 #픽셀영웅 공략, 픽셀 영웅, 드래곤볼 슈퍼, 픽셀 영웅 도감, 드래곤볼 게임,