[파이썬] 네이버의 검색순위 스크랩하는 방법

네이버 검색순위 스크랩하는 방법

인터넷은 우리의 삶에 많은 정보를 가져다 주지만, 웹페이지는 우리가 원하지 않은 불필요한 정보를 보여준다. 파이썬으로 웹페이지를 크롤링하면 코드를 실행했을때 원하는 텍스트만 골라낼 수 있다. 다방면으로 웹페이지의 정보를 얻고자 할 때 유용한 코드이다.

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

# -*- coding: utf-8 -*-

import urllib, re

from bs4 import BeautifulSoup

def DTAG(text):

    result = re.sub(r'<[^>]+>', '', text)

    return result

soup = BeautifulSoup(urllib.request.urlopen('https://www.naver.com/').read(), 'lxml')

Text = "\t검색어 순위 입니다.\n\n"

Order = 1

for item in soup.find_all("span", {"class":"ah_k"}):

    Text += " "+str(Order)+"."

    Text += str(item)

    Order += 1

    if Order == 11: #10위까지의 검색어 순위를 보여준다

        break

C = DTAG(Text)

print(C)

Colored by Color Scripter
cs

설명:

5~6: 웹페이지의 텍스트를 가져올 수 있게 라이브러리를 가져온다

7~9: HTML의 불필요한 TAG를 제거할 수 있는 FUNCTION이다.

10: BS를 사용해서 네이버에서 HTML을 가져오는 코드

13~18: 검색어가 포함되어있는 AH_K를 가져와서 정렬한다. 검색어는 20위 까지 있기 때문에 10위까지만 표시하게 한다.

19: DTAG를 사용해서 불필요한 TAG를 제거한다.

20: 화면에 표시한다.

[파이썬] 네이버의 검색순위 스크랩하는 방법

네이버 검색순위 스크랩하는 방법

댓글 없음:

Categories

Recent Posts

About

Tags

Popular Posts

[파이썬] 네이버의 검색순위 스크랩하는 방법

네이버 검색순위 스크랩하는 방법

You Might Also Like

댓글 없음:

Categories

Recent Posts

About

Tags

Popular Posts