Available for work

스페셜 컨텐츠

구글 제미니 2.0을 이용한 간편한 웹 스크래핑

한이룸

이커머스

2025. 1. 2.

구글의 혁신적인 멀티모달 라이브 API로 웹 스크래핑이 그 어느 때보다 쉬워졌습니다.

Gemini 2.0

이 도구를 사용하면 복잡하거나 비정형 데이터는 물론, 매우 구체적인 정보도 어떤 웹페이지에서든 손쉽게 추출할 수 있습니다.

이 글에서는 제가 직접 시도해본 실제 예제를 단계별로 안내해드립니다.

완전 초보자도 금방 전문가가 된 것 같은 경험을 하실 수 있을 거예요.

지금 바로 시작해보세요!

시작하기: Google AI 스튜디오 설정하기

예제를 살펴보기 전에 기본 설정 방법을 알려드리겠습니다:

  1. Google AI Studio로 이동: Google AI Studio에 접속하여 Google 계정으로 로그인합니다.

  2. "화면 공유" 활성화: 도구 메뉴에서 이 옵션을 찾을 수 있습니다. 탭이 아닌 '전체 화면 공유'를 선택해야 합니다. Gemini 2.0이 전체 화면 내용을 처리하므로 이 설정이 매우 중요합니다.

  3. 출력 형식 선택: 시작하기 전에 출력 형식을 "텍스트"로 설정하세요. 이렇게 하면 Gemini가 읽기 쉽고 체계적인 형식으로 결과를 제공합니다.

이것으로 기본 설정이 완료되었습니다.

다음은 참고할 수 있는 스크린샷입니다.

이제 제가 직접 시도한 두 가지 예시를 살펴보겠습니다.

예시 1: 스크롤하면서 에어비앤비 후기 스크래핑하기

시나리오는 다음과 같습니다:

에어비앤비 숙소의 후기를 수집하고 싶은데, 스크롤할 때만 후기가 로드됩니다.

이런 정보를 효율적으로 추출하려면 어떻게 해야 할까요?

단계별 방법을 소개합니다:

먼저 에어비앤비 숙소 페이지를 열고 후기 섹션으로 이동했습니다. 테스트를 위해 무작위로 한 숙소를 선택했죠.

출처: Airbnb

Gemini 2.0을 활성화하고 전체 화면을 공유했습니다(앞서 설정한 대로).

출처: Author

그리고 다음과 같이 음성 명령을 내렸습니다:

"화면에 표시된 모든 리뷰를 구조화된 형식으로 추출하고, 스크롤하면서 계속 추출해주세요."

제가 리뷰를 스크롤하는 동안 Gemini 2.0은 실시간으로 데이터를 추출했습니다. 페이지를 다시 로드할 필요 없이, 화면에 보이는 리뷰를 자동으로 캡처했죠.

스크롤이 끝나자 Gemini는 체계적으로 정리된 형식으로 리뷰를 제공했습니다. 다음과 같은 정보가 포함되어 있습니다:

  • 검토자 이름

  • 리뷰 날짜

  • 별점

  • 리뷰 내용

아래는 AI가 데이터를 스크래핑하고 출력한 방식을 보여주는 스크린샷입니다.

출처: 작성자

이 기능의 장점

고객 피드백을 분석하거나 리뷰를 비교할 때, 수작업으로 복사하고 붙여넣는 시간을 크게 절약할 수 있습니다.

출력 예시(JSON):

[
 {
 "name": "소날",
 "날짜": "3일 전",
 "별": "5",
 "text": "숙소는 아름다웠고 방갈로르 내에서 이렇게 잘 관리되고 디자인된 숙소를 보고 놀랐어요."
 },
 {
 "name": "리투라지",
 "날짜": "1주일 전",
 "별": "5",
 "text":"최근에 숙소에 머물며 놀라운 경험을 했어요. 숙소는 설명과 정확히 일치했고, 여러 면에서 제 기대를 뛰어넘었습니다. 공간은 깨끗하고 잘 관리되어 있었으며 세심하게 디자인되어 있었습니다. 호스트는 정말 친절하고 친절하고 도움이 많이 되었어요. 전반적으로 편안하고 즐거운 숙박을 원하는 모든 분들께 이 숙소를 적극 추천하고 싶고, 벌써부터 다시 오기를 고대하고 있습니다!"
 },
 {
 "name": "다모다르",
 "날짜": "2024년 6월",
 "별": "5",
 "text": "멋진 숙박, 깨끗한 수영장, 깔끔한 객실, 게임(축구, 캐롬 등)과 같은 충분한 엔터테인먼트 소스.), 연주하기 좋은 피아노, 각 방에는 TV가 있고 거실에는 대형 프로젝터 스크린이 있었습니다. 관리인 락스만은 정중하고 친절했습니다. 사방에 충분한 좌석 공간과 아늑한 침대 덕분에 꽤 편안하게 잠을 잘 수 있었습니다. 아이들도 실내 그네 좌석을 많이 즐겼습니다. 머물기에 좋은 곳이라고 믿으세요... 매우 편안하고 즐거운 유일한 단점은 Chaitra라는 근처의 음식 제공 업체 중 하나였습니다... 훌륭한 주방에서 직접 음식을 요리하거나 인근 레스토랑에서 주문 / 식사를 제안하십시오 ... 5km 이내에 많은 옵션이 있습니다. 우리는 음식 공급 업체에서 저녁과 아침을 먹었지만 품질이 좋지 않았습니다. 비건 음식이 완전히 익지 않았습니다. 바비큐 비건 채식을 주문했는데 비건은 조리하는 데 시간이 많이 걸리고 그 후에도 제대로 구워지거나 익지 않았어요... 원재료에 강한 의구심이 들었어요"
}
]

이처럼 Gemini 2.0은 웹 스크래핑 과정을 놀랍도록 간단하게 만들어줍니다.

예시 2: 연구 논문에서 특정 데이터 추출하기

두 번째 사용 사례에서는 연구 논문에서 전체 페이지가 아닌 표 데이터만 추출하고자 했습니다. 이번에는 정확성에 중점을 두었죠. 방법을 살펴보겠습니다:

"공급 및 사용 구성 요소의 시놉틱 보기, EU, 2021 및 2022"라는 제목의 표가 포함된 기사를 찾았습니다.

출처: Google의 무작위 기사 스크린샷

앞서와 마찬가지로 전체 화면을 공유하여 Gemini가 문서 전체를 분석할 수 있게 했습니다.

이번에는 Gemini에게 다음과 같이 요청했습니다:

"이 문서에서 표 데이터만 추출하여 JSON 형식으로 변환해주세요."

Gemini는 즉시 표를 인식하고 데이터를 추출한 뒤, 요청한 JSON 형식으로 변환했습니다.

다음은 Gemini가 제공한 결과입니다:

null

이 기능의 장점

연구 데이터, 표, 보고서 작업 시 필요한 정보만 깔끔하게 추출할 수 있습니다. 이렇게 추출한 데이터는 분석하거나 스프레드시트로 변환하고, 원하는 방식으로 시각화할 수 있죠.

Gemini 2.0으로 웹 스크래핑이 쉬워지는 이유

Gemini 2.0을 사용하면 코드 작성이 전혀 필요 없습니다.

AI와 대화하며 원하는 바를 설명하기만 하면 복잡한 작업은 AI가 알아서 처리합니다.

리뷰 스크롤이든 정확한 데이터 추출이든, Gemini는 사용자의 필요에 맞춰 유연하게 작동합니다.

직접 사용해 보세요!

다음은 시작하는 데 도움이 될 만한 아이디어입니다:

  • 아마존의 리뷰나 상품 데이터를 추출해보세요.

  • 레스토랑 목록이나 호텔 정보를 수집해보세요.

  • 저처럼 기사에서 재무 표나 통계 자료를 가져와보세요.

Gemini 2.0을 설정하고 화면을 공유한 다음, 원하는 내용을 말씀하시면 됩니다.

웹 스크래핑이 이토록 쉬워질 수 있다니 놀랍지 않나요?