In [1]:
from urllib.parse import parse_qs, urlparse
- GET 방식의 URL 요청을 분해하여 자동화하는데 손쉽게 이용이 가능하다.
In [2]:
result = urlparse('http://blog.naver.com/civilize?Redirect=Log&logNo=220976431562&from=section')
result
Out[2]:
In [3]:
result.netloc # Request를 보내는 main url
Out[3]:
In [5]:
result.path # Request를 보내는 최종 목적지
Out[5]:
In [6]:
result.query # Parameters
Out[6]:
In [7]:
qs = parse_qs(result.query)
qs
Out[7]:
In [14]:
qs.keys()
Out[14]:
In [15]:
qs.values()
Out[15]:
In [16]:
qs['logNo'][0]
Out[16]:
In [17]:
post_url = 'http://blog.naver.com/PostView.nhn?blogId={}&logNo={}'.format(result.path[1:], qs['logNo'][0])
post_url
Out[17]:
In [20]:
from bs4 import BeautifulSoup
import requests
In [21]:
post_res = requests.get(post_url)
bs = BeautifulSoup(post_res.text, 'html.parser')
In [32]:
bs.find_all('div',{"id": "postViewArea"})[0].text.replace("\n","")
Out[32]:
'BIGDATA > TEXT MINING' 카테고리의 다른 글
[Crawling] Beautifulsoup & Requests (Crawling) (0) | 2017.09.11 |
---|---|
[TEXT MINING] ENCODING, 인코딩 (0) | 2017.09.11 |
[Crawling] Web Crawling(크롤링) (2) | 2017.09.10 |
[TEXT MINING] 텍스트마이닝의 기초 (TDM) (0) | 2017.09.10 |
[TEXT MINING] 노무현 대통령 vs 이명박 대통령 (텍스트마이닝) (0) | 2017.09.04 |