[Data Scraping] 구글에서 고화질 이미지 스크래핑(크롤링) - selenium

728x90

Selenium 에 관해 배웠던 것을 이용하여 구글에서 고화질 이미지를 스크래핑 해보고자 한다

Before Running Data_Scraping.py

1. 먼저 본인의 크롬 브라우저의 버전을 확인한다

크롬창 우측 상단 더보기 -> 도움말 -> Chrome 정보 본인 :버전 108.0.5359.126(공식 빌드) (64비트)

2. 본인의 버전에 맞는 chromeDriver를 설치

https://chromedriver.chromium.org/downloads 에 들어가서 자신에게 맞는 OS를 선택 (맨뒤의 126 등은 무시 가능) ex) 본인 :버전 108.0.5359.126 -> 버전 108.0.5359

3. 본인의 Chromedriver를 저장해주자

압축을 풀고 Sashimi안에 있는 chromedriver.exe를 덮어쓰기 해준다 (main과 같은 경로에 있어야 한다)

4. Data_Scraping.py의 세팅부분을 건드려 주자

4-1. User_agent : 다음링크에 들어가서 User_agent확인

https://www.whatismybrowser.com/detect/what-is-my-user-agent/

User_agent : 일종의 '인증키'라 생각 = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'

4-2. 나머지 부분을 세팅해주자

search_url : 구글이미지 url (고정추천)

(예시) "https://www.google.co.kr/imghp?hl=ko&tab=ri&ogbl"

search_keywords : 검색할 키워드

(예시) ["광어회", "방어회" ,"참치회"]

max_img_num : 최대 다운 이미지 개수

(예시) 1500

Max_scroll_count : 최대 스크롤 수 (1 스크롤 => 약 50장)

(예시) 30

save_path : 결과물 저장 경로

(예시) "C:\Users\tmdwh\Desktop\Sashimi\scraping\output"

DELAY : 각 행동 당 대기시간

(예시) 1.8
(빠른버전) 1

SCROLL_PAUSE_TIME : 한 스크롤 당 대기시간

(예시) 2
(빠른버전) 1.5

+) Max_scroll_count는 1번에 약 50장이지만 중간에 다운로드가 되지 않아

패스되는 이미지들 개수도 고려해야 합니다

+) DELAY, SCROLL_PAUSE_TIME은 만약 너무 빠르다면 작업이 도중에 멈출 수 있습니다

5. 다음과 같은 세팅을 마친 후

Data_Scraping.py를 실행 시켜준다

6. out폴더를 확인한다

size_csv : 각 크롤링된 파일에 대한 크기 정보를 담은 csv keyword 파일 : 각 키워드에 따른 이미지들 모음