분석활용인프라매뉴얼 - kbig.kr¶„석활용인프라 사용자 설명서.pdf · 1...

빅데이터분석활용센터

분석활용 인프라매뉴얼

1 분석활용 인프라

1. 개요

1.1 개요 1

목 차

2. 메뉴구조도

2.1 메뉴구조도 2

3. 화면설명

3.1 플라밍고 로그인 3

3.2 데스크탑 화면 8

3.3 대시보드 9

3.4 워크플로우 디자이너 13

3.5 파일시스템 브라우저 27

3.6 Apache Hive 편집기 42

3.7 Apache Pig 편집기 48

3.8 BI Matrix 52

3.9 Mdp 53

3.10 R Studio 58

3.11 Visual 59

1. 개요

1.1 개요

1) 플라밍고는 웹 브라우저에서 빅데이터 분석을 하는 도구이며, 빅데이터 분석가들이 터미널 환경에서 수고

스럽게 작업하던 환경을 개선했다.

2) 편리하게 플라밍고를 사용하는 사용법 및 각종 분석 도구에 대한 설명을 기술했다.

2. 메뉴구조도

2.1 메뉴구조도

3. 화면설명

3.1 플라밍고 로그인

1) 빅데이터 전략센터에 로그인한 다음 분석활용 인프라를 예약한다.

3. 화면설명

2) 관리자 승인 후 “실행” 버튼을 클릭하여 분석활용 인프라를 사용한다.

3. 화면설명

3) 플라밍고 화면

3. 화면설명

3.2 데스크탑 화면

1) 데스크탑 바탕화면의 실행 아이콘

3. 화면설명

2) 시작메뉴

3. 화면설명

3) 작업표시줄

3. 화면설명

3.3 대시보드

1) 워크플로우 이력

3. 화면설명

3.3 대시보드

2) 실행 중인 워크플로우

3. 화면설명

3.4 워크플로우 디자이너

1) 워크플로우 작성

- “컴포넌트”를 끌어다 “워크플로우 디자이너”의 “캔버스”에 놓는다.

- "Start“ 노드와 ”컴포넌트“를 연결하고, ”컴포넌트“와 ”End" 노드를 연결하여 작업흐름을 완성한다.

- “워크플로우 이름”을 입력한다.

- 컴포넌트를 더블클릭하여 필수정보를 입력한다.

3. 화면설명

2) 워크플로우 저장

3. 화면설명

2) 워크플로우 저장

- 워크플로우를 저장할 폴더를 선택하고 확인을 눌러 좌측 트리에 워크플로우를 저장한다.

3. 화면설명

3) 워크플로우 실행

3. 화면설명

- 워크플로우 “실행” 버튼을 클릭하고, “예”를 클릭한다.

- 워크플로우 실행 성공 메시지

3. 화면설명

- 워크플로우 실행결과를 “대시보드”에서 확인한다.

3. 화면설명

4) 워크플로우 불러오기

- 좌측 트리에서 워크플로우를 더블클릭하여 워크플로우를 불러온다.

3. 화면설명

5) 워크플로우 XML 보기

- “XML 보기”를 클릭하여 저장한 XML을 확인한다.

3. 화면설명

6) 워크플로우 복사

- “복사”를 클릭하여 복사할 경로를 지정한 후 복사를 한다.

3. 화면설명

6) 워크플로우 복사

- 복사한 워크플로우는 트리에서 주황색이며, 저장하면 파란색으로 변한다.

3. 화면설명

7) 워크플로우 삭제

- 트리에서 마우스 오른쪽 버튼을 클릭하고 “삭제”를 선택한다.

3. 화면설명

8) 워크플로우 이름변경

- 트리에서 마우스 오른쪽 버튼을 클릭하고 “이름변경”을 선택한다.

3. 화면설명

9) 워크플로우 변수 설정

- ”캔버스” 우측의 워크플로우 변수에서 Key-Value를 등록하면 ${Key} 값이 value의 값으로 치환된다.

3. 화면설명

10) 워크플로우 알고리즘 설명

- ”워크플로우 디자이너” 우측 상단의 “?”를 클릭한다.

3. 화면설명

3.5 파일시스템 브라우저

1) 디렉토리 생성

- ”디렉토리 생성” 버튼을 클릭하고, 입력필드에 “디렉토리 명”을 입력한다.

3. 화면설명

2) 디렉토리 복사

- ”디렉토리 복사” 버튼을 클릭하고, 복사할 디렉토리를 선택한다.

3. 화면설명

3) 디렉토리 이동

- ”디렉토리 이동” 버튼을 클릭하고, 이동할 디렉토리를 선택한다.

3. 화면설명

4) 디렉토리 이름 변경

- ”디렉토리 이름 변경” 버튼을 클릭하고, 변경할 이름을 입력한다.

3. 화면설명

5) 디렉토리 삭제

- ”디렉토리 삭제” 버튼을 클릭하고, “예”를 클릭한다.

3. 화면설명

6) Hive 데이터베이스 생성

- ”Hive 데이터베이스 생성” 버튼을 클릭하고, 필수 입력 필드를 채운다.

3. 화면설명

6) Hive 데이터베이스 생성

- 데이터베이스 아이콘으로 변한다.

3. 화면설명

7) Hive 테이블 생성

- “Hive 테이블 생성” 버튼을 클릭한다.

3. 화면설명

8) 파일 복사

- 그리드에서 “복사” 버튼을 클릭한다.

3. 화면설명

9) 파일 이동

- 그리드에서 “이동” 버튼을 클릭한다.

3. 화면설명

10) 파일 이름변경

- 그리드에서 “이름변경” 버튼을 클릭한다.

3. 화면설명

11) 파일 삭제

- 그리드에서 “삭제” 버튼을 클릭한다.

3. 화면설명

12) 파일 업로드

- 그리드에서 “업로드” 버튼을 클릭한다.

3. 화면설명

13) 파일 다운로드

- 그리드에서 “다운로드” 버튼을 클릭한다.

3. 화면설명

14) 파일 보기

- 그리드에서 “파일 보기” 버튼을 클릭한다.

3. 화면설명

3.6 Apache Hive 편집기

1) Hive 테이블 추가

- 좌측 트리에서 “테이블 추가” 버튼을 클릭한다.

3. 화면설명

2) Hive 데이터베이스 추가

- 좌측 트리에서 “데이터베이스 추가” 버튼을 클릭한다.

3. 화면설명

3) Hive 쿼리 작성

- 우측 편집기에서 Hive 쿼리를 작성하고, “Hive 쿼리 이름”을 입력하고 “저장” 버튼을 클릭한다.

3. 화면설명

4) Hive 쿼리 실행

- 편집기 우측 상단의 “실행” 버튼을 클릭한다.

3. 화면설명

5) Hive 이력

- “이력” 탭에는 쿼리 실행 정보및 실행 결과가 나타난다.

3. 화면설명

6) Hive 쿼리 이력

- “Hive 쿼리” 탭에는 저정한 쿼리가 나타난다.

3. 화면설명

3.7 Apache Pig 편집기

1) Pig 쿼리 작성

- 편집기에서 Pig Script를 작성한다.

3. 화면설명

2) Pig 쿼리 실행

- 편집기에서 “실행” 버튼을 클릭하고, 실행 정보창이 나타난다.

3. 화면설명

3) Pig 이력

- “이력” 탭에는 쿼리 실행 정보및 실행 결과가 나타난다.

3. 화면설명

4) Pig 쿼리 이력

- “Pig Latin 스크립트” 탭에는 저장한 스크립트가 나타난다.

3. 화면설명

3.8 BI Matrix

1) BI Matrix

- 데스크탑에서 “BIMatrix” 아이콘을 클릭하여 창의 띄운다.

- 참조 : http://www.bimatrix.co.kr/product/matrix01.html

3. 화면설명

3.9 Mdp

1) Mdp

- MDP 스크립트 작성법은 사용자 홈 폴더의 “/mdp/MDP-설명서.txt” 파일로 작성되어 있다.

MDP는 원본 자료에서 일부 필드를 변형하여 새로운 데이터를 생성하는 ETL툴입니다. (ETL, Extract-Transform-Load)

샘플 예제는 mdp_demo.ats 라는 파일로서 local FS에 수집된 PDS 1개월 데이터를 ETL로 정제하여 HDFS 로드 하는 코드입니다.

주의: 파일 내에 있는 계정 폴더(/home/demo02)명을 자기 계정에 맞게 수정해 줘야 합니다.

자기 ID 가 userid-7 이면 /home/userid-7 로 수정해 줘야 합니다.

예제 파일: /home/demo02/mdp/mdp_demo.ats

로컬 파일: /home/demo02/mdp/POS_RAW_201201.txt (입력파일)

출력 파일: hdfs: /home/demo02/PDS/POS_CLEANED_DATA_201201.txt (출력파일)

결과적으로 생긴 하둡의 파일은 다음 명령어로 볼 수 있습니다.

$ hadoop fs -cat /home/demo02/PDS/POS_CLEANED_DATA_201201.txt | more (파일브라우저로 HDFS 디렉토리에서 볼 수 있습니다.)

입력 파일은 다음 명령어로 볼 수 있습니다.

$ cat /home/demo02/mdp/POS_RAW_201201.txt | more (파일브라우저로 로컬 디렉토리에서 볼 수 있습니다.)

3. 화면설명

3.9 Mdp

2) Mdp 쿼리 작성

3. 화면설명

3.9 Mdp

2) Mdp 쿼리 저장

- “저장” 또는 “다른 이름으로 저장” 버튼을 클릭한다.

3. 화면설명

3.9 Mdp

3) Mdp 쿼리 실행

- “실행” 버튼을 클릭한다.

3. 화면설명

3.9 Mdp

4) Mdp 작업 히스토리

3. 화면설명

3.10 R Studio

1) R Code 작성 및 실행

3. 화면설명

3.10 R Studio

2) R Hdfs

// rhdfs를 사용하기 위한 Dependency Library import

library(“rJava”, lib.loc=“/usr/lib64/R/library”);

// rhdfs를 사용하기 위한 Library import

library(“rhdfs”, lib.loc=“/usr/lib64/R/library”);

// hdfs 초기화

hdfs.init();

// list 명령

hdfs.ls(”/”);

// local fs에서 hdfs로 파일 복사

hdfs.get(”/home/admin/test.csv”, ”/home/admin”, srcFS=hdfs.defaults(”fs”));

// hdfs에서 local fs로 파일 복사

hdfs.put(”/home/admin/test.java”, ”/home/admin”, dstFS=hdfs.defaults(”fs”));

3. 화면설명

3.10 R Studio

3) R Hive

// RHvie를 사용하기 위한 Library import

library("RHive”);

// rhive 초기화

rhive.init();

// 분석활용 인프라

rhive.connect(host=“192.168.3.1”, port=10000, hiveServer2=TRUE, defaultFS=“hdfs://192.168.3.1:8020”);

// 교육실습 인프라

rhive.connect(host=“192.168.1.35”, port=10000, hiveServer2=TRUE, defaultFS=“hdfs://192.168.1.35:8020”);

// databases 보기

rhive.show.databases();

// database 사용

rhive.use.database(“test1”);

// tables 보기

rhive.show.tables();

// rows counting 쿼리 실행

rhive.query(“select count(*) from product”);

3. 화면설명

3.11 Visual

1) Visualazation은 빅데이터 분석자료를 차트로 표시해준다.

차트를 보려면 아래의 4가지 단계를 거쳐야 한다.

1 단계 “데이터셋 선택” 영역에서 입력 파일을 선택한다.

2 단계 “데이터셋 조회” 영역에서 데이터셋의 포멧을 결정해야 한다.

3 단계 “차트 선택” 영역에서 40가지 시각화 차트중에서 선택한다.

4 단계 “시각화 항목/속성”에서 “x축/y축” 등의 표시할 속성을 입력한다.

3. 화면설명

3.11 Visual

2) 1 단계 “데이터셋 선택” 영역에서 입력 파일을 선택한다.

“/home/{userid}/chart” 폴더에는 차트 샘플이 있다.

3. 화면설명

3.11 Visual

3) 2 단계 “데이터셋 조회” 영역에서 데이터셋의 포멧을 결정해야 한다.

입력 파일의 실제 값을 확인하고 구분자를 결정한다.

3. 화면설명

3.11 Visual

4) 3 단계 “차트 선택” 영역에서 40가지 시각화 차트중에서 선택한다.

차트의 모양을 보고 원하는 차트를 선택한다.

3. 화면설명

3.11 Visual

5) 4 단계 “시각화 항목/속성”에서 “x축/y축” 등의 표시할 속성을 입력한다.

차트에 최적화된 색상 및 레이블명 등을 지정한다.

3. 화면설명

3.11 Visual

6) 차트 종류

3. 화면설명

3.11 Visual

6) 차트 종류

3. 화면설명

3.11 Visual

6) 차트 종류

3. 화면설명

3.11 Visual

6) 차트 종류

3. 화면설명

3.11 Visual

6) 차트 종류

3. 화면설명

3.11 Visual

6) 차트 종류

- TREE MAP

3. 화면설명

3.11 Visual

6) 차트 종류

- ZOOMABLE PARTITION LAYOUT

3. 화면설명

3.11 Visual

6) 차트 종류

- WORD CLOUD

3. 화면설명

3.11 Visual

6) 차트 종류

분석활용인프라매뉴얼 - kbig.kr¶„석활용인프라 사용자 설명서.pdf · 1...

Documents

Transcript of 분석활용인프라매뉴얼 - kbig.kr¶„석활용인프라 사용자 설명서.pdf · 1...

목 차 - Samsung us

Event System Toolbox · 2018. 9. 11. · Event System Toolbox - 목 차-제 1 장 이산현상 시스템 개요 제 2 장 페트 y 네트 (Petri Net) 모델 2.1 페트네트의 동

목 차 · 2020-05-08 · furniture company limited』라고 표기합니다. 단, 약식으로 표기할 경우 에는 (주)현대리바트라고 표기합니다. 3.설립일자

목 차 - COSMAX

알기 쉬운 - Korea Customs Servicecustoms.go.kr/html/kor/_down/manifest.pdf알기 쉬운 적하목록업무 e-매뉴얼 부산세관 통관지원과 목 차 1장. 해상수입화물의

특 장 차[ ] - kia.com · COMMERCIAL VEHICLE Price List 10 11 내장탑차(1톤 베이스) 차 종 판매가격 (공급가격) 주 요 기 본 품 목 선택품목 특장제원

목 차 - KB증권fdata.kbsec.com/subs/95021.pdf · 2021. 1. 22. · 공동주관회사 kb증권 증권예탁증권 4,602,492 115,062,300,000 1,495,809,900 총액인수 청약기일

근로자재해보장책임보험fy2013)_근로자... · 2016. 1. 14. · 목 차 근로자재해보장책임보험 보통약관 7 근로자재해보장책임보험 특별약관 14

목 차 - pcuc.kr

목 차 - Samsung Electronics America · 2017-03-31 · 삼성화재손해사정서비스, 애니카자동차손해사정서비스, 에스코어, 삼성전자축구단, 휴먼티에스에스,

About Moiin | OasisCity - 목 차 01 개요oasiscity.co.kr/pdf/white_ko.pdf · 2020. 3. 16. · 목 차 01 개요 02 오아시스시티 vr 플랫폼 03 오아시스시티에 사용될

목 차 · 22 hours ago · i. 회사의 개요 1. 회사의 개요 가. 회사에 관한 내용 (1) 회사의 법적, 상업적 명칭 : 이 회사는 주식회사 더존비즈온이라

목 차 - img.cgv.co.kr

목 차 · 1 day ago · 2017.02 인텔리전스 위협관리 플랫폼 Genian Insights 출시 2017.03 지니언스(주) 사명 변경 2017.07 산업통상자원부 우수기술연구센터(ATC)

목 차 - Samsung Electronics America › is › content › samsung › p5 › sec › ir › ... · 2017-03-31 · 애니카자동차손해사정서비스, 에스코어, 삼성전자축구단,

에스컴 용환일 대리 - IBM · 2014-02-28 · 2 목 차 프로젝트 수행 ... DB전체보다개인정보table만부분암호화하는것이타당하다사료됨. AIX 6.1

목 차 · 2013. 9. 13. · 무배당 하이라이프굿앤굿어린이CI보험(Hi1108) 1종 목 차 안 내 사 항 상품안내 보험금 청구 구비서류 안내 보험금 지급절차

목 차 - KOFST

목 차 - oztn.net · assembly.properties 어셈블리 정보 설정 파일 launch.cfg 오즈 리포트 디자이너 설정 파일 OZReportDesignerLayout. xml 오즈리포트디자이너레이아웃정보

목 차 - assets.kpmg · 장 단계에 따른 전략적 회계ㆍ재무ㆍ세무, 성장전략 및 자금조달, 해외진출자문, 기업간 협력 컨설팅 등을 제공함으로써