스페셜 컨텐츠
구글 제미니 2.0을 이용한 간편한 웹 스크래핑

한이룸
이커머스
2025. 1. 2.
구글의 혁신적인 멀티모달 라이브 API로 웹 스크래핑이 그 어느 때보다 쉬워졌습니다.
Gemini 2.0
이 도구를 사용하면 복잡하거나 비정형 데이터는 물론, 매우 구체적인 정보도 어떤 웹페이지에서든 손쉽게 추출할 수 있습니다.
이 글에서는 제가 직접 시도해본 실제 예제를 단계별로 안내해드립니다.
완전 초보자도 금방 전문가가 된 것 같은 경험을 하실 수 있을 거예요.
지금 바로 시작해보세요!
시작하기: Google AI 스튜디오 설정하기
예제를 살펴보기 전에 기본 설정 방법을 알려드리겠습니다:
Google AI Studio로 이동: Google AI Studio에 접속하여 Google 계정으로 로그인합니다.
"화면 공유" 활성화: 도구 메뉴에서 이 옵션을 찾을 수 있습니다. 탭이 아닌 '전체 화면 공유'를 선택해야 합니다. Gemini 2.0이 전체 화면 내용을 처리하므로 이 설정이 매우 중요합니다.
출력 형식 선택: 시작하기 전에 출력 형식을 "텍스트"로 설정하세요. 이렇게 하면 Gemini가 읽기 쉽고 체계적인 형식으로 결과를 제공합니다.
이것으로 기본 설정이 완료되었습니다.
다음은 참고할 수 있는 스크린샷입니다.
이제 제가 직접 시도한 두 가지 예시를 살펴보겠습니다.
예시 1: 스크롤하면서 에어비앤비 후기 스크래핑하기
시나리오는 다음과 같습니다:
에어비앤비 숙소의 후기를 수집하고 싶은데, 스크롤할 때만 후기가 로드됩니다.
이런 정보를 효율적으로 추출하려면 어떻게 해야 할까요?
단계별 방법을 소개합니다:
먼저 에어비앤비 숙소 페이지를 열고 후기 섹션으로 이동했습니다. 테스트를 위해 무작위로 한 숙소를 선택했죠.
출처: Airbnb
Gemini 2.0을 활성화하고 전체 화면을 공유했습니다(앞서 설정한 대로).
출처: Author

그리고 다음과 같이 음성 명령을 내렸습니다:
"화면에 표시된 모든 리뷰를 구조화된 형식으로 추출하고, 스크롤하면서 계속 추출해주세요."
제가 리뷰를 스크롤하는 동안 Gemini 2.0은 실시간으로 데이터를 추출했습니다. 페이지를 다시 로드할 필요 없이, 화면에 보이는 리뷰를 자동으로 캡처했죠.
스크롤이 끝나자 Gemini는 체계적으로 정리된 형식으로 리뷰를 제공했습니다. 다음과 같은 정보가 포함되어 있습니다:
검토자 이름
리뷰 날짜
별점
리뷰 내용
아래는 AI가 데이터를 스크래핑하고 출력한 방식을 보여주는 스크린샷입니다.
출처: 작성자
이 기능의 장점
고객 피드백을 분석하거나 리뷰를 비교할 때, 수작업으로 복사하고 붙여넣는 시간을 크게 절약할 수 있습니다.
출력 예시(JSON):
이처럼 Gemini 2.0은 웹 스크래핑 과정을 놀랍도록 간단하게 만들어줍니다.
예시 2: 연구 논문에서 특정 데이터 추출하기
두 번째 사용 사례에서는 연구 논문에서 전체 페이지가 아닌 표 데이터만 추출하고자 했습니다. 이번에는 정확성에 중점을 두었죠. 방법을 살펴보겠습니다:
"공급 및 사용 구성 요소의 시놉틱 보기, EU, 2021 및 2022"라는 제목의 표가 포함된 기사를 찾았습니다.
출처: Google의 무작위 기사 스크린샷
앞서와 마찬가지로 전체 화면을 공유하여 Gemini가 문서 전체를 분석할 수 있게 했습니다.
이번에는 Gemini에게 다음과 같이 요청했습니다:
"이 문서에서 표 데이터만 추출하여 JSON 형식으로 변환해주세요."
Gemini는 즉시 표를 인식하고 데이터를 추출한 뒤, 요청한 JSON 형식으로 변환했습니다.
다음은 Gemini가 제공한 결과입니다:
이 기능의 장점
연구 데이터, 표, 보고서 작업 시 필요한 정보만 깔끔하게 추출할 수 있습니다. 이렇게 추출한 데이터는 분석하거나 스프레드시트로 변환하고, 원하는 방식으로 시각화할 수 있죠.
Gemini 2.0으로 웹 스크래핑이 쉬워지는 이유
Gemini 2.0을 사용하면 코드 작성이 전혀 필요 없습니다.
AI와 대화하며 원하는 바를 설명하기만 하면 복잡한 작업은 AI가 알아서 처리합니다.
리뷰 스크롤이든 정확한 데이터 추출이든, Gemini는 사용자의 필요에 맞춰 유연하게 작동합니다.
직접 사용해 보세요!
다음은 시작하는 데 도움이 될 만한 아이디어입니다:
아마존의 리뷰나 상품 데이터를 추출해보세요.
레스토랑 목록이나 호텔 정보를 수집해보세요.
저처럼 기사에서 재무 표나 통계 자료를 가져와보세요.
Gemini 2.0을 설정하고 화면을 공유한 다음, 원하는 내용을 말씀하시면 됩니다.
웹 스크래핑이 이토록 쉬워질 수 있다니 놀랍지 않나요?




