K - ICT (KBIG.KR) 빅데이터 센터 교육
날짜 : 2016-06-23 ~ 2016-06-24
- 과거는 기술력보다는 데이터의 양이 적어 빅데이터 분석 또는 기계학습을 할 수 있는 수준의 데이터가 부족하였다. 하지만 현재는 데이터량이 방대하고 기술력 또한 좋아져서 각광받고 있다.
- 파이썬 -> 클러스터(Server)를 통해 ICT 인프라를 이용하여 프로그래밍할 예정이다.
1. 빅데이터 정책 및 K-ICT 빅데이터 센터 제공 서비스
- Test-Value 용으로 Center 를 구축하여 인력양상, 사업 검토 등의 준비 사항을 진행 및 활용 할 수 있도록 구축되어있다. + 사업화 지원.
- 활동 빈도가 높은 데이터를 가지고 있다. ( 웹에서 확인 가능 )
- 기술 자문과 같은 부분도 지원한다. Ex) 서울 심야 버스.
- 데이터Set 으로 나와있는 부분은 저작권 이슈로 센터 분석 인프라 내에서만 사용하는 것을 기본원칙으로 한다.
2. K-ICT 센터 고도화
- 전반적인 내용이 센터 소개 및 구성 요소들을 설명한다. 딱히 필요 없거나 이해할 수 없는 부분이다. => 하둡 시스템을 얼른 공부해야될거같다라는 생각이 든다. ( 3학기에 수업듣게 될 예정 )
- 만약 회사 빅데이터 사업 또는 구축하려고할려면 이곳의 도움을 받거나 교육을 받는다면 좋겠다 라는 생각이 듬.
- 홈페이지 플라밍고 사용 실습. => 플라밍고란? 하둡시스템 전체를 UI 형태로 인터페이스 해주는 프로그램.
- 로그인
- 인프라 예약. 최대 3개월 까지 사용가능. 더 사용하려면 추가 연장으로.
- 인프라 관리에서 실행하면 플라밍고를 사용 가능하다.
- 플라밍고를 직접 설치 하려면 설정과 오픈소스를 설치해야된다. 하지만 K-ICT 인프라를 사용한다면 손쉽게 사용가능. ( UI 방식으로 )
- 개인적인 사용자 또한 신청한다면 사용가능하다. 즉, 마지막 프로젝트 또는 중간에 하려면 이쪽을 활용하는 것도 좋을 것 같다.
- 개인적인 파일도 업로드 가능하다. ( 1G로 제한되어 있지만, 요청에 의해 풀어질 수도 있긴하다. )
- ? 도움말 부분을 통해 각 모듈 사용법을 배울 수가 있다.
3. Python 프로그래밍과 데이터 분석.
- 윤형기 (hky@openwith.net), 임팩트라인.
- 06-23 : 언어 (파이썬)
- 06-24 : 데이터 분석
- Library
- numpy : 수치형 데이터 분석. - 선형대수학 How to deal Matrix
- pandas : 데이터 분석에 주료 활용되는 라이브러리.
- mataplotlib : R의 Plot 함수와 동일 한 함수이다. + @ 정도 됨.
- iPython : Shell과 Python 의 결합.
- 기본 교육은 3.5로 진행, 데이터 분석의 경우 2.7로 진행.
- C언어를 활용하여 인터페이스를 하여 보통 CPython을 활용한다.
- Jython : Java for the JVM with Python 도 많이 사용된다.
각각의 시스템과 연동의 되야될 경우는 해당 언어와 연동되는 언어를 사용해서 개발해야 한다. - IronPython : in C# for the .Net environment
- R로 작성하는게 더 쉽다. Python으로 짤 경우 속내용을 볼 수가 있다. ( R은 그저 라이브러리를 이용
- 툴을 활용하면 더욱 좋다. Eclipse, PyCharm
- Script 언어 즉, 다른언어와 섞어서 사용할 수 있다.
- UTF-8로 기본 언어로 한다. 하지만 한글 윈도우의 경우 CP949가 메인이기 때문에 이클립스의 경우 UTF-8로 변경하여 사용하여야한다.
- 확장자를 .py 로 끝나는 것을 모듈이라고 한다. 이러한 것들의 집합을 Package 라고 한다. => 자바랑 동일하다.
- Module : Standard library Module + User library Module\
- 실습내용은 py파일로 저장. => idle로
- Python Structure http://www.openwith.net/?p=1066
- Data Type
- String
- Numberic
- List => array Flexible 한 Array => R의 List와는 다르다 Java, C와 같은 Array 로 보면된다. 하지만 다 다른 데이터 타입으로 존재 할 수 있다. 흠... 결론은 Java 의 Array 형태지만 내용은 R의 List 와 마찬가지로 다양한 Type 을 저장 할 수 있다.
- List[datas] a b c d e => List in 'e' => 있냐 없냐. For 문에서의 in은 안의 내용을 사용하겠다 라는 의미. for a in "group of data or range"
- PPT의 enumerate(['tic','tac','toe']) 는 # 즉 인덱스를 i에 value를 V에 입력.
for i,v in enumerate(data)
0 , tic
1 , tac
2, toe - 해당 소스 안에 주석으로 첨부. d1.zip d2.zip d2_2는 노트북에 있다.
- Eclipse 설치 + PyDev + interinpreter 3.5version으로 설정.
- R vs Python
- R은 Statistics 에서 시작.
- Python은 Computer Science 에서 시작.
- 명확한 문제에 있어서는 R이 우세 아닐 경우 Python 이 우세.
- 머신러닝
- 80%의 trainning data 를 통해 다양한 모델을 생성.
- 20%의 test data 를 통해 모델을 선택.
- Cannopy
4.개인정보 비식별화 기술활용 안내서.
- 데이터 개방과 더불어 산업과 경제< 사회 전반에서 빅데이터 활용 기대.
- 개인정보를 보호하면서 빅데이터 활용을 높일 수 있는 방법으로 개인정보 비식별화 기술에 관심 고조.
- 어떻게 수집해서 관리 하는지. => Insight를 가지고 올 것인지.
- 외국( EU, US 등 ) 소비자의 권리와 보안을 강화를 위해 법률 상정.
- 빅데이터 분석을 통해 개인 식별 문제로 법률 강화 => 빅데이터 발전 & 개인정보 보호 절충안 => 비식별화 기술 발전.
- Which information we have to handle ? => 기업 별로 정하고 문제가 생긴다면 징벌적인 조치.
- 행자부에서 공공정보 활용시 개인정보 비식별화를 요구하는 권고안을 냄. => how?
- 미래부 + 정보화진흥원에서 사례집을 출간.
- 수집단계
- 동의를 얻게 되면 비식별화를 하지 않아도 된다.
- 동의를 하지 않는다면 비식별화 수행.
- 개인정보의 유형과 종류 - 상당히 애매한 기준이 있다. 수집 뿐만 아니라 모든 단계에서 그렇다.
- 고유 식별 정보 : 누구인지 알 수 있는 정보 ex) 운전, 여권, 주민번호 등.
- 민감 정보 : 사상, 신념, 정당의 탈퇴 등의 정보주체의 사생활을 현저히 침해할 우려가 있는 개인정보.
- Ex) 생년월일, 전화번호 뒷자리 => 뉴스에 이러한 정보가 나왔다고 한다면 될수도있다.
이유는 그 정보를 가지고 판단하는 사람이 판단해서 누구인지 알 수 있다면 개인정보가 될 수 있다. - 이용 제공 단계
- 파기 단계
- 원본데이터의 경우 동의를 받았다고 하더라도 언제까지 목적이 있기 때문에 목적이 달성되거나 기간이 있다면 파기해야한다.
- 또는 법령에서 존재하는 기간을 넘어서는 안된다.
- 비식별화 대상 기준
- 데이터내에 개인을 식별할 수 있는 정보가 있는 경우, 이의 일부 또는 전부를 삭제, 또는 일부를 속성 정보로 대체 처리함으로써 다른 정보와
- 결합하여도 특정 개인을 식별하기 어렵도록 하는 조치.
- 적용대상
그 자체만으로도 식별 가능 또는 다른 정보화 결합하여 개인을 식별 할 수 있는 정보 - 적용시기
빅데이터 수집, 활용의 전 단계에서 개인 정보가 식별되는 경우 혹은 이후 정보의 추가 가공 등을 통하여 개인이 식별되는 경우 등. - 비식별화 주요 기술
- 가명처리
- 총계처리 : 통계치로 변경하여 누군지 알 수 없게
- 데이터 값 삭제
- 범주화
- 데이터 마스킹 : * 처리
5.국내 빅데이터 산업 동향.
- 어떻게 기업에서 빅데이터를 사용하는지?
- 이상원 교수. Major : Informatics
- Notion : 머리 속의 개념 Notation : 머리속 개념을 밖으로 표현
- 그 표현을 언어로 표현하면 철학, 수치로 표현한다면 수학 Mathemeatics
- DB의 데이터를 가지고 BI(나에게 의미있는 데이터)를 저장하려고 만들어 놓은 것이 DW (Data Warehouse) 원래는 IB(Information Base)라고 한다. 직접적으로 BI를 DB에서 가지고 오려면 힘들다. 오래걸리고 그래서 DW를 만든것이다.
- Wiki 가 정리 잘 되어있음.
- Center에 선정이 된다면 자료, 교육, 지원금 지원 등 많이 제공해준다. 대기업의 경우 해주는지는 모르겠음.