728x90
Selenium 에 관해 배웠던 것을 이용하여 구글에서 고화질 이미지를 스크래핑 해보고자 한다
Before Running Data_Scraping.py
1. 먼저 본인의 크롬 브라우저의 버전을 확인한다
크롬창 우측 상단 더보기 -> 도움말 -> Chrome 정보 본인 :버전 108.0.5359.126(공식 빌드) (64비트)
2. 본인의 버전에 맞는 chromeDriver를 설치
https://chromedriver.chromium.org/downloads 에 들어가서 자신에게 맞는 OS를 선택 (맨뒤의 126 등은 무시 가능) ex) 본인 :버전 108.0.5359.126 -> 버전 108.0.5359
3. 본인의 Chromedriver를 저장해주자
압축을 풀고 Sashimi안에 있는 chromedriver.exe를 덮어쓰기 해준다 (main과 같은 경로에 있어야 한다)
4. Data_Scraping.py의 세팅부분을 건드려 주자
4-1. User_agent : 다음링크에 들어가서 User_agent확인
https://www.whatismybrowser.com/detect/what-is-my-user-agent/
User_agent : 일종의 '인증키'라 생각 = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
4-2. 나머지 부분을 세팅해주자
search_url : 구글이미지 url (고정추천)
(예시) "https://www.google.co.kr/imghp?hl=ko&tab=ri&ogbl"
search_keywords : 검색할 키워드
(예시) ["광어회", "방어회" ,"참치회"]
max_img_num : 최대 다운 이미지 개수
(예시) 1500
Max_scroll_count : 최대 스크롤 수 (1 스크롤 => 약 50장)
(예시) 30
save_path : 결과물 저장 경로
(예시) "C:\Users\tmdwh\Desktop\Sashimi\scraping\output"
DELAY : 각 행동 당 대기시간
(예시) 1.8
(빠른버전) 1
SCROLL_PAUSE_TIME : 한 스크롤 당 대기시간
(예시) 2
(빠른버전) 1.5
+) Max_scroll_count는 1번에 약 50장이지만 중간에 다운로드가 되지 않아
패스되는 이미지들 개수도 고려해야 합니다
+) DELAY, SCROLL_PAUSE_TIME은 만약 너무 빠르다면 작업이 도중에 멈출 수 있습니다
5. 다음과 같은 세팅을 마친 후
Data_Scraping.py를 실행 시켜준다
6. out폴더를 확인한다
size_csv : 각 크롤링된 파일에 대한 크기 정보를 담은 csv keyword 파일 : 각 키워드에 따른 이미지들 모음
728x90
'Python > Application' 카테고리의 다른 글
[Python] Streamlit 활용 전 정리 (0) | 2024.06.05 |
---|---|
[Data Scraping] Error : Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the same (0) | 2023.02.10 |
[Scraping] Web Crowling 이라기 보단 Scraping (beautifulsoup4) (0) | 2023.01.24 |
[Scraping] HTML, XPath, Requests,정규식 찍먹해보기 (+User-agent) (1) | 2023.01.19 |