텍스트

Unstructured Data 정형 데이터 : 표 등의 형태로 구조가 잡혀져 있는 데이터 비정형 데이터 : 그 외의 데이터 대표적인 예 ) 텍스트, 이미지, 비디오, 사운드 등 대부분의 데이터가 비정형 데이터이다. 특히, 텍스트 데이터 So! 텍스트 마이닝을 정리 해보고자 한다. 주로 아래와 같은 형태로 데이터를 수급한 후 분석한다. 많은 데이터들이 웹상에 존재한다. 뉴스, 정부자료, 소비자 리뷰 등 웹 스크래핑 : 자동으로 웹문서를 수집. Tokenize & TDM 토큰(token) : 분석의 단위, 주로 단위 또는 형태소 형태소 : 의미를 가지는 요소로서 가장 작은 말의 단위 단어 + 어미(한글의 경우) ex) 드세요. 들다(동사-알고 싶은 것) + 시(어미) + 어(어미) + 요(어미) 단어 - ..
노무현 대통령 vs 이명박 대통령 - 노무현 대통령과 이명박 대통령 연설문을 텍스트 마이닝을 통해 분석해봤습니다. - 자세한 설명은 아래 코드와 함께 같이 설명 하겠습니다. - 언어 : Python - 자료 : 대통령 연설문 사이트 - 해당 자료 Github 를 통해 자세한 전처리 및 크롤링 크드를 확인 하실 수 있습니다. 필요 Library In [95]: import president # Analytics Module for presidents import pandas as pd import re import wordhandle # Handling TDM & WordCount import numpy as np import matplotlib.pyplot as plt # for basic plots i..
J_Today
'텍스트' 태그의 글 목록