hadoop 2.x VS hadoop 3.x



hadoop 2.x VS hadoop 3.x 간단정리 

  1. java
    • Hadoop 2.x -> Java 7 ~ 
    • Hadoop 3.x -> Java 8 ~
  2. Erasure Coding
    • Hadoop 2.x 에서 데이터를 입력할때, 데이터 유실에 대비해 2개의 복제본과 원본이 함께 저장된다. 이러면 하둡에 저장할때 비용이 2배나..
    • Hadoop 3.x 는 Erasure Coding을 이용해 데이터를 복제하던 기존 방식이 아닌, 오류 정정 코드만 저장해 원본에 문제가 생기면 복원이 가능하도록 함
      • Erasure Coding에 대해 잘 모르겠다. 
  3. NameNode
    • Hadoop 2.x : name node 하나만  active하다. 대신 standby nameNode가 있었음 
    • Hadoop 3.x : nameNode 두개이상을 Running 상태로 운영할 수 있게 함(두개 모두 오류가 날 수 있나?/두개 모두 돌릴 필요 없는데 돌리면 오히려 리소스를 잡아먹지는 않을까?) 
--- 추후 업뎃 예정

댓글