본문 바로가기

그냥, 코딩

크롤링(Crawling)

반응형
이 자료는 한국인공지능협회에서 진행한 2021년 사업주 직업능력 개발훈련으로 BASIC AI(32시간)-박성주 강사의 온라인 교육내용을 참고한 것입니다. 

 

※크롤링의 종류

1. 텍스트 크롤링

2. 이미지 크롤링

 

※ 크롤링 라이브러리 설치 

pip install beautifulsoup4
pip install selenium
pip install requests

 

텍스트 크롤링

※ 프로그램 다운로드

- 네이버에서 원하는 키워드에 대한 자료들의 URL을 크롤링할 수 있음

https://drive.google.com/file/d/1hZeKNqCgd8zGMdqY3XRIDUa6yrbJIFAj/view

 

web_crawing_naver.zip

 

drive.google.com

압축풀고, C:/ai_exam에 복사한다

 

※ 실행하는 법

- 디렉토리 내부의 파일 종류 확인은 "dir" 명령어 입력

- 파이썬 프로그램 실행(확장자가 *.py 인 파일)

네이버에 강아지를 검색하여 '강아지'에 관련된 모든 url이 크롤링이 되고 강아지.csv로 저장이 된다.
BeautifulSoup4을 활용하여 크롤링
강아지와 관련된 지식인 검색 - 1000개를 가져옴!

 

이미지 크롤링

※ 프로그램 다운로드

https://drive.google.com/file/d/1X29QyB3NeLCmfwCtmhLIb3JwJ1qtfxf6/view

- 다운로드 디렉토리에 압출 풀고, C 드라이브로 압출푼 파일 이동

- chromedriver.exe 파일 삭제하고, 최신 버전 받기 

※ 내 크롬 버전 확인하고, 새로 다운받기

https://chromedriver.chromium.org/downloads

다운로드받기

C:\web_crawling 디렉토리에 새로 다운 받은 chromedrvier.exe를 넣는다. 

 

※ 아나콘다 경로 이동

(p37) C:\ai_exam>cd C:\web_crawling

 

python web.py 실행한 뒤, 고양이를 검색한다. 

selenium과 chromedriver를 이용하여 원하는 갯수만큼 원하는 이미지를 크롤링할 수 있다. 

 

 

더 많은 데이터를 가져오는 방법?

https://github.com/YoongiKim/AutoCrawler

 

 

 

 

반응형