[python] 구글 검색 이미지 크롤링/스크래핑하기

구글 검색 결과 이미지를 파이썬으로 크롤링하는 방법을 정리한다.

Selenium

우선 웹크롤링/스크래핑을 하는 경우 주로 Selenium이라는 패키지를 사용하기에 간단히 알아보고 지나가자.

Selenium은 웹 애플리케이션을 테스트하거나 자동화하는 데 사용되는 프레임워크이다. 주로 웹 브라우저와 상호 작용하며, 웹 페이지를 제어하고 테스트하는 데 유용한 도구로, 다양한 프로그래밍 언어로 지원되며, 웹 페이지의 요소를 찾고 조작할 수 있어 웹 스크래핑 또는 웹 자동화에 활용된다.

<예시 코드>

from selenium import webdriver

# 웹 드라이버 설정
driver_path = "경로/chromedriver"  # 다운로드한 ChromeDriver의 경로
driver = webdriver.Chrome(executable_path=driver_path)

# 구글 검색 페이지 열기
driver.get("https://www.google.com")

# 검색어 입력
search_box = driver.find_element_by_name("q")
search_box.send_keys("Selenium 사용법")

# 검색 실행
search_box.submit()

# 브라우저 닫기
driver.quit()

구글 검색 이미지 크롤링 하기

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import urllib.request
import time
import os

# 페이지를 아래로 스크롤하는 함수
def scroll_down():
    while True:
        time.sleep(3)
        # 페이지 맨 아래로 스크롤
        driver.find_element(By.XPATH, '//body').send_keys(Keys.END)
        time.sleep(3)
        try:
            # '더보기' 버튼이 보이면 클릭
            load_more_button = driver.find_element(By.XPATH, '//*[@id="islmp"]/div/div/div/div/div[1]/div[2]/div[2]/input')
            if load_more_button.is_displayed():
                load_more_button.click()
        except:
            pass
        time.sleep(3)
        try:
            # '더 이상 표시할 콘텐츠가 없습니다.' 메시지가 보이면 종료
            no_more_content = driver.find_element(By.XPATH, '//div[@class="K25wae"]//*[text()="더 이상 표시할 콘텐츠가 없습니다."]')
            if no_more_content.is_displayed():
                break
        except:
            pass

if __name__ == "__main__":
    query = input("검색어 : ") 
    image_cnt = int(input("수집할 이미지 개수 : ")) 

    save_dir = "saved_image"  # 저장할 디렉토리 이름
    os.makedirs(save_dir, exist_ok=True)  # 디렉토리 생성 (이미 존재하면 무시)
    os.chdir(save_dir)  # 작업 디렉토리 변경

    driver = webdriver.Chrome()  # Chrome 웹 드라이버 실행
    URL = 'https://www.google.com/search?tbm=isch&q='
    driver.get(URL + query)  # 검색어를 포함한 URL로 이동

    scroll_down()  # 페이지 스크롤 함수 호출

    # 이미지 정보 추출
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    image_info_list = soup.find_all('img', class_='rg_i')
    image_and_name_list = []

    print('=== 이미지 수집 시작 ===')

    downlaod_cnt = 0
    for i in range(len(image_info_list)):
        if i == image_cnt:
            break
        if 'data-src' in image_info_list[i].attrs:
            save_image = image_info_list[i]['data-src']

            image_path = os.path.join(query.replace(' ', '_') + '_' + str(downlaod_cnt) + '.jpg')
            image_and_name_list.append((save_image, image_path))
            downlaod_cnt += 1

    # 이미지 다운로드
    for i in range(len(image_and_name_list)):
        urllib.request.urlretrieve(image_and_name_list[i][0], image_and_name_list[i][1])

    print('=== 이미지 수집 종료 ===')
    driver.close()  # 브라우저 닫기

이 코드는 검색어와 이미지 수집 개수를 입력받아서 구글 이미지 검색 결과에서 이미지를 수집하는 기능을 수행한다. 조금더 구체적으로는 검색어로 검색 이후 페이지를 아래로 스크롤하면서 이미지를 더 가져오고, 검색 결과 페이지에서 이미지를 추출하여 다운로드한다.

'💻 Programming > Python' 카테고리의 다른 글

[pandas] DataFrame 설명 \| 데이터 조작, 필터링, 시각화, 통계 분석 (0)	2023.11.16
[pandas] 2차원 리스트를 데이터프레임으로 변환하기 \| pd.DataFrame (0)	2023.11.16
[python] FastAPI로 딥러닝 모델 API 구축하기 \| 문자열 파일경로, Bytes 타입 입력받기 (0)	2023.08.03
curl 커맨드를 python, javascript 등의 언어로 변환 \| curl 커맨드 api를 파이썬 코드로 변환할 때 (0)	2023.07.11
LMDB 형식 데이터셋이란? \| 텍스트 인식 데이터셋 포맷 (1)	2023.04.14

CV DOODLE

[python] 구글 검색 이미지 크롤링/스크래핑하기

'💻 Programming > Python' 카테고리의 다른 글

티스토리툴바

[python] 구글 검색 이미지 크롤링/스크래핑하기

'💻 Programming > Python' 카테고리의 다른 글

관련글

티스토리툴바