빅데이터 5

[Spark] Centos7에 Apache Spark 설치하기(+zeppelin)

1. open jdk 설치(root권한상태) $ yum install java-1.8.0-openjdk-devel.x86_64 java -version으로 설치 확인 2. Scala 설치 (root권한상태) 2-1 scala 2.12.12 다운로드 $ wget https://downloads.lightbend.com/scala/2.12.12/scala-2.12.12.tgz 2-2 파일이동 $ mv scala-2.12.12.tgz /home/"사용할 계정"/ 2-3 압축해제 $ tar -xvzf scala-2.12.12.tgz 2-4 폴더명,권한 변경 $ cd /home/"사용할계정" $ mv scala-2.12.12.tgz scala $ chown -R "사용할계정":"사용할계정" scala 2-5 환경..

빅데이터 2020.10.27

[Hadoop] Centos7에 하둡 설치하기

1. open jdk 설치(root권한상태) $yum install java-1.8.0-openjdk-devel.x86_64 java -version으로 설치 확인 2. ssh keygen 생성(root권한상태) $ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa $cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys $chmod 0600 ~/.ssh/authorized_keys $ssh localhost $exit 3. hadoop설치(버전 3.1.2)(root권한상태) $wget "http://archive.apache.org/dist/hadoop/common/hadoop-3.1.2/hadoop-3.1.2.tar.gz" 4. hadoop파일 이동..

빅데이터 2020.10.27

[Spark] 스파크가 뭘까?(+zeppelin)

1.아파치 스파크 Apache spark는 Hadoop의 Mapreduce의 단점을 보완한 분산처리 엔진이다. 인메모리의 사용으로 메모리 효율증가를 이끌어내어 반복처리작업시 기존 Disk 기반으로 처리되는 Hadoop Mapreduce의 속도보다10~1000배까지 빠르게 설계되었다. 이를 통해 데이터 실시간 스트리밍 처리가 가능하다. 기존 Hadoop Mapreduce의 한계 맵리듀스 잡의 결과를 다른 잡에서 사용하려면 이 결과를 HDFS 에 저장해야 하기 때문에, 이전 잡의 결과가 다음 잡의 입력이 되는 반복 알고리즘에는 본질적으로 맞지 않다 하둡은 low-level 프레임워크이다 보니 데이터를 조작하는 high-level 프레임워크나 도구가 많아 환경이 복잡하다. 2.기능 그래프 알고리즘 (Spark..

빅데이터 2020.10.25

[Hadoop] 하둡이 뭘까?

1. 하둡이란 정의: 아파치 하둡(Apache Hadoop)은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이며, 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)과 맵리듀스를 구현한 것이다. 하둡의 핵심철학이 "코드(가벼움)를 데이터(무거움)가 있는 곳으로 보낸다" 인것에도 알 수 있듯이, 1대의 컴퓨터에 100개의 데이터를 처리하는 것이 아닌 100개의 각 컴퓨터에 1개의 데이터를 처리하는 병렬처리 개념으로 처리속도를 비약적으로 올린것이 하둡이다. 2. 하둡의 특징 Distributed: 수십만대의 컴퓨터에 자료 분산 저장 및..

빅데이터 2020.10.25