hadoop 2.x VS hadoop 3.x

hadoop 2.x VS hadoop 3.x

날짜: 5월 10, 2018

hadoop 2.x VS hadoop 3.x 간단정리

java

Hadoop 2.x -> Java 7 ~
Hadoop 3.x -> Java 8 ~

Erasure Coding

Hadoop 2.x 에서 데이터를 입력할때, 데이터 유실에 대비해 2개의 복제본과 원본이 함께 저장된다. 이러면 하둡에 저장할때 비용이 2배나..
Hadoop 3.x 는 Erasure Coding을 이용해 데이터를 복제하던 기존 방식이 아닌, 오류 정정 코드만 저장해 원본에 문제가 생기면 복원이 가능하도록 함

Erasure Coding에 대해 잘 모르겠다.

NameNode

Hadoop 2.x : name node 하나만 active하다. 대신 standby nameNode가 있었음
Hadoop 3.x : nameNode 두개이상을 Running 상태로 운영할 수 있게 함(두개 모두 오류가 날 수 있나?/두개 모두 돌릴 필요 없는데 돌리면 오히려 리소스를 잡아먹지는 않을까?)

--- 추후 업뎃 예정

댓글