Pink Rose Flower

Python/Selenium 3

[selenium] 크롤링 시 robots.txt 를 통해 법적 문제 확인하기

크롤링을 하며 접근이 막혀 안 되는 경우가 있었는데, 이외에도 크롤링은 되지만 저작권 문제와 같이 법적으로 문제가 있을 수 있는 경우를 조심해야 한다. 그래서 문제점이 발생할 수 있는 것을 사전에 확인할 방법에 대해 알아보았다.웹사이트에서 데이터를 수집하기 전에 robots.txt 파일을 통해 이를 확인할 수 있다. 이 파일은 웹사이트 소유자가 웹 크롤러(예: 검색 엔진 또는 자동화 스크립트)에 대해 크롤링 가능한 경로와 불가능한 경로를 명시적으로 안내하는 표준 파일이다.(이 글은 Cloudflare의 What is robots.txt? 내용을 참고하여 작성되었다. + GPT..)1. robots.txt란?robots.txt는 웹사이트 루트 디렉토리에 위치한 텍스트 파일로, 크롤러가 따라야 할 규칙을 정..

Python/Selenium 2025.01.19

[selenium]윈도우에서 selenium이용해 구글 이미지 크롤링하기

윈도우에서 selenium을 이용한 이미지 크롤링 실습을 해보자. 먼저, 파이썬에 가상 환경을 만들어 실행해 보자.파이썬  venv 모듈을 이용하여 가상 환경을 만들어 준다. venv — 가상 환경 생성 — Python 3.10.1 문서 venv — 가상 환경 생성 — Python 3.10.1 문서venv — 가상 환경 생성 소스 코드: Lib/venv/ venv 모듈은 자체 사이트 디렉터리를 갖는 경량 《가상 환경》을 만들고, 선택적으로 시스템 사이트 디렉터리에서 격리할 수 있도록 지원합니다. 각 가docs.python.org위 사이트에 들어가면 venv 가상 환경을 만드는 명령어가 소개되어 있다. 일단 아래 명령어를 사용하여 가상환경을 만들어 주었다.자신이 설치한 python 버전에 따라 (예: py..

Python/Selenium 2022.01.04

[selenium]윈도우에서 selenium,chrome,chromedriver 설치 및 검색 자동화 실습 해보기

Selenium이란 ?셀레늄(Selenium)은 웹 애플리케이션 테스트를 위한 포터블 프레임워크이다. 셀레늄은 테스트 스크립트 언어를 학습할 필요 없이 기능 테스트를 만들기 위한 플레이백 도구를 제공한다. (셀례늄 IDE) C 샤프, 그루비, 자바, 펄, PHP, 파이썬, 루비, 스칼라 등 수많은 유명 프로그래밍 언어들에서 테스트를 작성하기 위한 테스트 도메인 특화 언어(Selenese)를 제공한다. 이 테스트들은 현대의 대부분의 웹 브라우저에서 수행이 가능하다. 셀레늄은 윈도우, 리눅스, macOS 플랫폼에서 디플로이된다. 아파치 2.0 라이선스로 배포되는 오픈 소스 소프트웨어이다. 웹 개발자는 무료로 다운로드, 사용할 수 있다.Selenium webdriver란?셀레늄 웹 드라이버(Selenium W..

Python/Selenium 2021.12.31