분석활용인프라매뉴얼 - kbig.kr¶„석활용인프라 사용자 설명서.pdf · 1...

Post on 27-Jun-2020

1 views 0 download

Transcript of 분석활용인프라매뉴얼 - kbig.kr¶„석활용인프라 사용자 설명서.pdf · 1...

빅데이터분석활용센터

분석활용 인프라매뉴얼

1 분석활용 인프라

1. 개요

1.1 개요 1

목 차

2. 메뉴구조도

2.1 메뉴구조도 2

3. 화면설명

3.1 플라밍고 로그인 3

3.2 데스크탑 화면 8

3.3 대시보드 9

3.4 워크플로우 디자이너 13

3.5 파일시스템 브라우저 27

3.6 Apache Hive 편집기 42

3.7 Apache Pig 편집기 48

3.8 BI Matrix 52

3.9 Mdp 53

3.10 R Studio 58

3.11 Visual 59

1. 개요

1.1 개요

1) 플라밍고는 웹 브라우저에서 빅데이터 분석을 하는 도구이며, 빅데이터 분석가들이 터미널 환경에서 수고

스럽게 작업하던 환경을 개선했다.

2) 편리하게 플라밍고를 사용하는 사용법 및 각종 분석 도구에 대한 설명을 기술했다.

2. 메뉴구조도

2.1 메뉴구조도

3. 화면설명

3.1 플라밍고 로그인

1) 빅데이터 전략센터에 로그인한 다음 분석활용 인프라를 예약한다.

3. 화면설명

3.1 플라밍고 로그인

2) 관리자 승인 후 “실행” 버튼을 클릭하여 분석활용 인프라를 사용한다.

3. 화면설명

3.1 플라밍고 로그인

3) 플라밍고 화면

3. 화면설명

3.2 데스크탑 화면

1) 데스크탑 바탕화면의 실행 아이콘

3. 화면설명

3.2 데스크탑 화면

2) 시작메뉴

3. 화면설명

3.2 데스크탑 화면

3) 작업표시줄

3. 화면설명

3.3 대시보드

1) 워크플로우 이력

3. 화면설명

3.3 대시보드

2) 실행 중인 워크플로우

3. 화면설명

3.4 워크플로우 디자이너

1) 워크플로우 작성

- “컴포넌트”를 끌어다 “워크플로우 디자이너”의 “캔버스”에 놓는다.

- "Start“ 노드와 ”컴포넌트“를 연결하고, ”컴포넌트“와 ”End" 노드를 연결하여 작업흐름을 완성한다.

- “워크플로우 이름”을 입력한다.

- 컴포넌트를 더블클릭하여 필수정보를 입력한다.

3. 화면설명

3.4 워크플로우 디자이너

1) 워크플로우 작성

3. 화면설명

3.4 워크플로우 디자이너

1) 워크플로우 작성

3. 화면설명

3.4 워크플로우 디자이너

2) 워크플로우 저장

3. 화면설명

3.4 워크플로우 디자이너

2) 워크플로우 저장

- 워크플로우를 저장할 폴더를 선택하고 확인을 눌러 좌측 트리에 워크플로우를 저장한다.

3. 화면설명

3.4 워크플로우 디자이너

3) 워크플로우 실행

3. 화면설명

3.4 워크플로우 디자이너

3) 워크플로우 실행

- 워크플로우 “실행” 버튼을 클릭하고, “예”를 클릭한다.

- 워크플로우 실행 성공 메시지

3. 화면설명

3.4 워크플로우 디자이너

3) 워크플로우 실행

- 워크플로우 실행결과를 “대시보드”에서 확인한다.

3. 화면설명

3.4 워크플로우 디자이너

4) 워크플로우 불러오기

- 좌측 트리에서 워크플로우를 더블클릭하여 워크플로우를 불러온다.

3. 화면설명

3.4 워크플로우 디자이너

5) 워크플로우 XML 보기

- “XML 보기”를 클릭하여 저장한 XML을 확인한다.

3. 화면설명

3.4 워크플로우 디자이너

6) 워크플로우 복사

- “복사”를 클릭하여 복사할 경로를 지정한 후 복사를 한다.

3. 화면설명

3.4 워크플로우 디자이너

6) 워크플로우 복사

- 복사한 워크플로우는 트리에서 주황색이며, 저장하면 파란색으로 변한다.

3. 화면설명

3.4 워크플로우 디자이너

7) 워크플로우 삭제

- 트리에서 마우스 오른쪽 버튼을 클릭하고 “삭제”를 선택한다.

3. 화면설명

3.4 워크플로우 디자이너

8) 워크플로우 이름변경

- 트리에서 마우스 오른쪽 버튼을 클릭하고 “이름변경”을 선택한다.

3. 화면설명

3.4 워크플로우 디자이너

9) 워크플로우 변수 설정

- ”캔버스” 우측의 워크플로우 변수에서 Key-Value를 등록하면 ${Key} 값이 value의 값으로 치환된다.

3. 화면설명

3.4 워크플로우 디자이너

10) 워크플로우 알고리즘 설명

- ”워크플로우 디자이너” 우측 상단의 “?”를 클릭한다.

3. 화면설명

3.5 파일시스템 브라우저

1) 디렉토리 생성

- ”디렉토리 생성” 버튼을 클릭하고, 입력필드에 “디렉토리 명”을 입력한다.

3. 화면설명

3.5 파일시스템 브라우저

2) 디렉토리 복사

- ”디렉토리 복사” 버튼을 클릭하고, 복사할 디렉토리를 선택한다.

3. 화면설명

3.5 파일시스템 브라우저

3) 디렉토리 이동

- ”디렉토리 이동” 버튼을 클릭하고, 이동할 디렉토리를 선택한다.

3. 화면설명

3.5 파일시스템 브라우저

4) 디렉토리 이름 변경

- ”디렉토리 이름 변경” 버튼을 클릭하고, 변경할 이름을 입력한다.

3. 화면설명

3.5 파일시스템 브라우저

5) 디렉토리 삭제

- ”디렉토리 삭제” 버튼을 클릭하고, “예”를 클릭한다.

3. 화면설명

3.5 파일시스템 브라우저

6) Hive 데이터베이스 생성

- ”Hive 데이터베이스 생성” 버튼을 클릭하고, 필수 입력 필드를 채운다.

3. 화면설명

3.5 파일시스템 브라우저

6) Hive 데이터베이스 생성

- 데이터베이스 아이콘으로 변한다.

3. 화면설명

3.5 파일시스템 브라우저

7) Hive 테이블 생성

- “Hive 테이블 생성” 버튼을 클릭한다.

3. 화면설명

3.5 파일시스템 브라우저

8) 파일 복사

- 그리드에서 “복사” 버튼을 클릭한다.

3. 화면설명

3.5 파일시스템 브라우저

9) 파일 이동

- 그리드에서 “이동” 버튼을 클릭한다.

3. 화면설명

3.5 파일시스템 브라우저

10) 파일 이름변경

- 그리드에서 “이름변경” 버튼을 클릭한다.

3. 화면설명

3.5 파일시스템 브라우저

11) 파일 삭제

- 그리드에서 “삭제” 버튼을 클릭한다.

3. 화면설명

3.5 파일시스템 브라우저

12) 파일 업로드

- 그리드에서 “업로드” 버튼을 클릭한다.

3. 화면설명

3.5 파일시스템 브라우저

13) 파일 다운로드

- 그리드에서 “다운로드” 버튼을 클릭한다.

3. 화면설명

3.5 파일시스템 브라우저

14) 파일 보기

- 그리드에서 “파일 보기” 버튼을 클릭한다.

3. 화면설명

3.6 Apache Hive 편집기

1) Hive 테이블 추가

- 좌측 트리에서 “테이블 추가” 버튼을 클릭한다.

3. 화면설명

3.6 Apache Hive 편집기

2) Hive 데이터베이스 추가

- 좌측 트리에서 “데이터베이스 추가” 버튼을 클릭한다.

3. 화면설명

3.6 Apache Hive 편집기

3) Hive 쿼리 작성

- 우측 편집기에서 Hive 쿼리를 작성하고, “Hive 쿼리 이름”을 입력하고 “저장” 버튼을 클릭한다.

3. 화면설명

3.6 Apache Hive 편집기

4) Hive 쿼리 실행

- 편집기 우측 상단의 “실행” 버튼을 클릭한다.

3. 화면설명

3.6 Apache Hive 편집기

5) Hive 이력

- “이력” 탭에는 쿼리 실행 정보및 실행 결과가 나타난다.

3. 화면설명

3.6 Apache Hive 편집기

6) Hive 쿼리 이력

- “Hive 쿼리” 탭에는 저정한 쿼리가 나타난다.

3. 화면설명

3.7 Apache Pig 편집기

1) Pig 쿼리 작성

- 편집기에서 Pig Script를 작성한다.

3. 화면설명

3.7 Apache Pig 편집기

2) Pig 쿼리 실행

- 편집기에서 “실행” 버튼을 클릭하고, 실행 정보창이 나타난다.

3. 화면설명

3.7 Apache Pig 편집기

3) Pig 이력

- “이력” 탭에는 쿼리 실행 정보및 실행 결과가 나타난다.

3. 화면설명

3.7 Apache Pig 편집기

4) Pig 쿼리 이력

- “Pig Latin 스크립트” 탭에는 저장한 스크립트가 나타난다.

3. 화면설명

3.8 BI Matrix

1) BI Matrix

- 데스크탑에서 “BIMatrix” 아이콘을 클릭하여 창의 띄운다.

- 참조 : http://www.bimatrix.co.kr/product/matrix01.html

3. 화면설명

3.9 Mdp

1) Mdp

- MDP 스크립트 작성법은 사용자 홈 폴더의 “/mdp/MDP-설명서.txt” 파일로 작성되어 있다.

MDP는 원본 자료에서 일부 필드를 변형하여 새로운 데이터를 생성하는 ETL툴입니다. (ETL, Extract-Transform-Load)

샘플 예제는 mdp_demo.ats 라는 파일로서 local FS에 수집된 PDS 1개월 데이터를 ETL로 정제하여 HDFS 로드 하는 코드입니다.

주의: 파일 내에 있는 계정 폴더(/home/demo02)명을 자기 계정에 맞게 수정해 줘야 합니다.

자기 ID 가 userid-7 이면 /home/userid-7 로 수정해 줘야 합니다.

예제 파일: /home/demo02/mdp/mdp_demo.ats

로컬 파일: /home/demo02/mdp/POS_RAW_201201.txt (입력파일)

출력 파일: hdfs: /home/demo02/PDS/POS_CLEANED_DATA_201201.txt (출력파일)

결과적으로 생긴 하둡의 파일은 다음 명령어로 볼 수 있습니다.

$ hadoop fs -cat /home/demo02/PDS/POS_CLEANED_DATA_201201.txt | more (파일브라우저로 HDFS 디렉토리에서 볼 수 있습니다.)

입력 파일은 다음 명령어로 볼 수 있습니다.

$ cat /home/demo02/mdp/POS_RAW_201201.txt | more (파일브라우저로 로컬 디렉토리에서 볼 수 있습니다.)

3. 화면설명

3.9 Mdp

2) Mdp 쿼리 작성

3. 화면설명

3.9 Mdp

2) Mdp 쿼리 저장

- “저장” 또는 “다른 이름으로 저장” 버튼을 클릭한다.

3. 화면설명

3.9 Mdp

3) Mdp 쿼리 실행

- “실행” 버튼을 클릭한다.

3. 화면설명

3.9 Mdp

4) Mdp 작업 히스토리

3. 화면설명

3.10 R Studio

1) R Code 작성 및 실행

3. 화면설명

3.10 R Studio

2) R Hdfs

// rhdfs를 사용하기 위한 Dependency Library import

library(“rJava”, lib.loc=“/usr/lib64/R/library”);

// rhdfs를 사용하기 위한 Library import

library(“rhdfs”, lib.loc=“/usr/lib64/R/library”);

// hdfs 초기화

hdfs.init();

// list 명령

hdfs.ls(”/”);

// local fs에서 hdfs로 파일 복사

hdfs.get(”/home/admin/test.csv”, ”/home/admin”, srcFS=hdfs.defaults(”fs”));

// hdfs에서 local fs로 파일 복사

hdfs.put(”/home/admin/test.java”, ”/home/admin”, dstFS=hdfs.defaults(”fs”));

3. 화면설명

3.10 R Studio

3) R Hive

// RHvie를 사용하기 위한 Library import

library("RHive”);

// rhive 초기화

rhive.init();

// 분석활용 인프라

rhive.connect(host=“192.168.3.1”, port=10000, hiveServer2=TRUE, defaultFS=“hdfs://192.168.3.1:8020”);

// 교육실습 인프라

rhive.connect(host=“192.168.1.35”, port=10000, hiveServer2=TRUE, defaultFS=“hdfs://192.168.1.35:8020”);

// databases 보기

rhive.show.databases();

// database 사용

rhive.use.database(“test1”);

// tables 보기

rhive.show.tables();

// rows counting 쿼리 실행

rhive.query(“select count(*) from product”);

3. 화면설명

3.11 Visual

1) Visualazation은 빅데이터 분석자료를 차트로 표시해준다.

차트를 보려면 아래의 4가지 단계를 거쳐야 한다.

1 단계 “데이터셋 선택” 영역에서 입력 파일을 선택한다.

2 단계 “데이터셋 조회” 영역에서 데이터셋의 포멧을 결정해야 한다.

3 단계 “차트 선택” 영역에서 40가지 시각화 차트중에서 선택한다.

4 단계 “시각화 항목/속성”에서 “x축/y축” 등의 표시할 속성을 입력한다.

3. 화면설명

3.11 Visual

2) 1 단계 “데이터셋 선택” 영역에서 입력 파일을 선택한다.

“/home/{userid}/chart” 폴더에는 차트 샘플이 있다.

3. 화면설명

3.11 Visual

3) 2 단계 “데이터셋 조회” 영역에서 데이터셋의 포멧을 결정해야 한다.

입력 파일의 실제 값을 확인하고 구분자를 결정한다.

3. 화면설명

3.11 Visual

4) 3 단계 “차트 선택” 영역에서 40가지 시각화 차트중에서 선택한다.

차트의 모양을 보고 원하는 차트를 선택한다.

3. 화면설명

3.11 Visual

5) 4 단계 “시각화 항목/속성”에서 “x축/y축” 등의 표시할 속성을 입력한다.

차트에 최적화된 색상 및 레이블명 등을 지정한다.

3. 화면설명

3.11 Visual

6) 차트 종류

3. 화면설명

3.11 Visual

6) 차트 종류

3. 화면설명

3.11 Visual

6) 차트 종류

3. 화면설명

3.11 Visual

6) 차트 종류

3. 화면설명

3.11 Visual

6) 차트 종류

3. 화면설명

3.11 Visual

6) 차트 종류

- TREE MAP

3. 화면설명

3.11 Visual

6) 차트 종류

- ZOOMABLE PARTITION LAYOUT

3. 화면설명

3.11 Visual

6) 차트 종류

- WORD CLOUD

3. 화면설명

3.11 Visual

6) 차트 종류