[Dev log] Python Crawling

Dev Log/Python

[Dev log] Python Crawling

Godwony 2020. 4. 23. 10:27

Python Crawling으로 연예인 이름 crawling을 하자

m.search.daum.net의 #연예인명단 이라는 해시태그 페이지를 이용하여 Crawling 했습니다.

from bs4 import BeautifulSoup as bs
from tqdm import tqdm
import urllib.request
import time, sys, codecs, os, random, csv

def celebrities_names(start,end):
    randomsl = random.uniform(1,3)

    hdr = {'User-Agent': 'Mozilla/5.0'}
    url = "https://m.search.daum.net/kakao?w=smok&DA=AQJ&q=%EC%97%B0%EC%98%88%EC%9D%B8%EB%AA%85%EB%8B%A8&sidx="

    namesList = []
    for j in tqdm(range(start, end, 10)) :
        page = j    
        req = urllib.request.Request(url + str(page), headers=hdr)
        html = urllib.request.urlopen(req).read()
        soup = bs(html, 'html.parser')
        time.sleep(randomsl)

        wrap_cont = soup.select('.wrap_cont')

        for i in wrap_cont :
            temp = []
            try :
                temp.append(i.select_one('.f_link_tit').text)   # name
                temp.append(i.select_one('.cont.f_eb').text)    # job
                temp.append('https://m.search.daum.net/kakao' + i.find('a')['href'])    # profile link
                temp.append(i.select_one('.cont.f_eb.ff_hel').text)     # birth 
            except : 
                temp.append('NaN')  # birth가 없는사람도 있어서 try 처리
            namesList.append(temp)

    with open('celebritiesname' + str(end) + '.csv', 'w', encoding='utf-8', newline='') as f: 
        writer = csv.writer(f)
        writer.writerow(['name', 'job', 'link', 'birth'])
        writer.writerows(namesList)

if __name__ == "__main__":
    start = int(input('Start page 10x input :'))
    end = int(input('How many people will you search : '))
    celebrities_names(start, end)

'Dev Log > Python' 카테고리의 다른 글

[Dev log] selenium page down, scroll down, 스크롤 내리기 (1)	2021.01.14
[Dev log] Python Web crawling selenium for Naver Login (0)	2021.01.12
[Dev log] Python 개행 문자(\n) 삭제 - map, lambda, strip (0)	2021.01.11
[Dev log] Python jupyter notebook에서 kenerl이 안보일때 (0)	2020.06.05
[Dev log] Python image crawling (0)	2020.04.22

현재글[Dev log] Python Crawling

250x250

실제경험, 대형텐트, gpu컴퓨팅, 월패드네트워크불량, Python, 딥러닝, 체리새우사료, 루프박스추천, 시놀로지 나스 도커, 연남동점심, 연남동가성비점심, 카라붐, shn-8070 네트워크불량, 연남동맛집, 국산루프박스, 노스피크, 게르, 퍼시픽오션ex, 게르카라붐, 연남동점심추천,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Hiwony blog

[Dev log] Python Crawling

m.search.daum.net의 #연예인명단 이라는 해시태그 페이지를 이용하여 Crawling 했습니다.

'Dev Log > Python' 카테고리의 다른 글

'Dev Log/Python'의 다른글

티스토리툴바

[Dev log] Python Crawling

m.search.daum.net의 #연예인명단 이라는 해시태그 페이지를 이용하여 Crawling 했습니다.

'Dev Log > Python' 카테고리의 다른 글

'Dev Log/Python'의 다른글

관련글

티스토리툴바