[파이썬] 네이버의 검색순위 스크랩하는 방법

네이버 검색순위 스크랩하는 방법


Image result for naver logo

인터넷은 우리의 삶에 많은 정보를 가져다 주지만, 웹페이지는 우리가 원하지 않은 불필요한 정보를 보여준다. 파이썬으로 웹페이지를 크롤링하면 코드를 실행했을때 원하는 텍스트만 골라낼 수 있다. 다방면으로 웹페이지의 정보를 얻고자 할 때 유용한 코드이다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# -*- coding: utf-8 -*-
import urllib, re
from bs4 import BeautifulSoup
def DTAG(text):
    result = re.sub(r'<[^>]+>''', text)
    return result
soup = BeautifulSoup(urllib.request.urlopen('https://www.naver.com/').read(), 'lxml')
Text = "\t검색어 순위 입니다.\n\n"
Order = 1
for item in soup.find_all("span", {"class":"ah_k"}):
    Text += " "+str(Order)+"."
    Text += str(item)
    Order += 1
    if Order == 11#10위까지의 검색어 순위를 보여준다
        break
= DTAG(Text)
print(C)
cs

설명:

5~6: 웹페이지의 텍스트를 가져올 수 있게 라이브러리를 가져온다

7~9: HTML의 불필요한 TAG를 제거할 수 있는 FUNCTION이다.

10: BS를 사용해서 네이버에서 HTML을 가져오는 코드

13~18: 검색어가 포함되어있는 AH_K를 가져와서 정렬한다. 검색어는 20위 까지 있기 때문에 10위까지만 표시하게 한다.

19: DTAG를 사용해서 불필요한 TAG를 제거한다.

20: 화면에 표시한다.

댓글 없음:

Powered by Blogger.