[파이썬] 네이버의 검색순위 스크랩하는 방법
네이버 검색순위 스크랩하는 방법
인터넷은 우리의 삶에 많은 정보를 가져다 주지만, 웹페이지는 우리가 원하지 않은 불필요한 정보를 보여준다. 파이썬으로 웹페이지를 크롤링하면 코드를 실행했을때 원하는 텍스트만 골라낼 수 있다. 다방면으로 웹페이지의 정보를 얻고자 할 때 유용한 코드이다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
# -*- coding: utf-8 -*-
import urllib, re
from bs4 import BeautifulSoup
def DTAG(text):
result = re.sub(r'<[^>]+>', '', text)
return result
soup = BeautifulSoup(urllib.request.urlopen('https://www.naver.com/').read(), 'lxml')
Text = "\t검색어 순위 입니다.\n\n"
Order = 1
for item in soup.find_all("span", {"class":"ah_k"}):
Text += " "+str(Order)+"."
Text += str(item)
Order += 1
if Order == 11: #10위까지의 검색어 순위를 보여준다
break
C = DTAG(Text)
print(C)
| cs |
설명:
5~6: 웹페이지의 텍스트를 가져올 수 있게 라이브러리를 가져온다
7~9: HTML의 불필요한 TAG를 제거할 수 있는 FUNCTION이다.
10: BS를 사용해서 네이버에서 HTML을 가져오는 코드
13~18: 검색어가 포함되어있는 AH_K를 가져와서 정렬한다. 검색어는 20위 까지 있기 때문에 10위까지만 표시하게 한다.
19: DTAG를 사용해서 불필요한 TAG를 제거한다.
20: 화면에 표시한다.
댓글 없음: