Pink Rose Flower

크롤링 2

[selenium] 크롤링 시 robots.txt 를 통해 법적 문제 확인하기

크롤링을 하며 접근이 막혀 안 되는 경우가 있었는데, 이외에도 크롤링은 되지만 저작권 문제와 같이 법적으로 문제가 있을 수 있는 경우를 조심해야 한다. 그래서 문제점이 발생할 수 있는 것을 사전에 확인할 방법에 대해 알아보았다.웹사이트에서 데이터를 수집하기 전에 robots.txt 파일을 통해 이를 확인할 수 있다. 이 파일은 웹사이트 소유자가 웹 크롤러(예: 검색 엔진 또는 자동화 스크립트)에 대해 크롤링 가능한 경로와 불가능한 경로를 명시적으로 안내하는 표준 파일이다.(이 글은 Cloudflare의 What is robots.txt? 내용을 참고하여 작성되었다. + GPT..)1. robots.txt란?robots.txt는 웹사이트 루트 디렉토리에 위치한 텍스트 파일로, 크롤러가 따라야 할 규칙을 정..

Python/Selenium 2025.01.19

[selenium]윈도우에서 selenium이용해 구글 이미지 크롤링하기

윈도우에서 selenium을 이용한 이미지 크롤링 실습을 해보자. 먼저, 파이썬에 가상 환경을 만들어 실행해 보자.파이썬  venv 모듈을 이용하여 가상 환경을 만들어 준다. venv — 가상 환경 생성 — Python 3.10.1 문서 venv — 가상 환경 생성 — Python 3.10.1 문서venv — 가상 환경 생성 소스 코드: Lib/venv/ venv 모듈은 자체 사이트 디렉터리를 갖는 경량 《가상 환경》을 만들고, 선택적으로 시스템 사이트 디렉터리에서 격리할 수 있도록 지원합니다. 각 가docs.python.org위 사이트에 들어가면 venv 가상 환경을 만드는 명령어가 소개되어 있다. 일단 아래 명령어를 사용하여 가상환경을 만들어 주었다.자신이 설치한 python 버전에 따라 (예: py..

Python/Selenium 2022.01.04