본문 바로가기
방구석코딩/주식 크롤링 분석

[파이썬] 증권 전 종목 크롤링(2) - 필요 패키지

by 석세상 2024. 7. 8.
반응형

파이썬을 통해 주식 데이터 크롤링을 위해서 어떤 패키지가 필요한지 알아보고 웹브라우저를 핸들링할 수 있는 방법을 알아보겠다. 한번에 모든 내용을 자세히 적기에는 양이 많기 때문에 하나씩 연결해서 진행할 예정이다.

 

1. 준비사항 - 주피터노트북 설치

파이썬을 활용하기 위해 나는 주피터 노트북을 이용해서 코드를 작성하였다. 주피터노트북은 웹브라우저를 통해 파이썬 코드를 작성하고 실행할 수 있는 도구이다. 

 

IDLE, 구글에서 제공하는 코랩 등을 이용할 수도 있지만 IDLE은 도스창 같이 생겨서 익숙하지 않을 수 있다. 코랩은 웹에서 작동하기 때문에 잘 모르는 부분이 있어 오프라인에서도 작동할 수 있는 주피터 노트북을 선택하였다. 

 

만약 컴퓨터 사양이 너무 안좋은 경우에는 코랩을 이용하는 것도 나쁘지 않은 선택으로 보인다. 코랩은 구글에서 제공하는 클라우드 서비스를 통해 자원을 사용하기 때문이다.

 

주피터노트북은 아나콘다를 설치하면 사용할 수 있는데 설치 방법은 각 OS에 맞게 아래 링크를 참고하면 된다.

 

* 윈도우를 사용하는 경우

 

[파이썬] #00. 파이썬 아나콘다(Anaconda) 설치방법

오늘은 파이썬 아나콘다를 설치해보도록 하겠다. 이전에 파이썬 설치방법을 해봤다면 오늘은 아나콘다라는 것을 설치할 텐데, 아나콘다는 '왜 설치하느냐' 하면 지난번에 파이썬 설치 후 실행

gusugi.tistory.com

 

 

* 맥 OS를 사용하는 경우

 

[파이썬] 아나콘다, 주피터 노트북 맥 OS 설치방법

최근 AI 열풍으로 코딩에 관심이 높아지고 있는데요. 파이썬에서 주피터 노트북을 설치하는 방법을 알아볼텐데요. 최근에는 맥북의 사용도 늘어나고 있어서 윈도우 설치 외에 파이썬의 주피터

gusugi.tistory.com

 

2. 필요 패키지

1) 패키지란

패키지란 누군가 작성해둔 코드들의 모음이라고 보면 된다. 모듈, 패키지, 라이브러리 다양하게 불리고 있지만 사용자 입장에서는 크게 구분할 필요가 없는 내용이다. 그냥 그것들이 어떤 것들인지만 파악하면 된다. 

 

좀더 명확하게 해당 내용에 대한 정의가 필요하다면 아래 링크를 참고하길 바란다.

 

파이썬 모듈, 패키지, 라이브러리 용어 이해 설치 확인 방법

파이썬을 공부하다 보면 모듈, 패키지, 라이브러리라는 용어가 자주 등장하게 된다. 별 생각없이 사용한다면 모를까 계속 반복되어 나오는 용어에 대해서 정확하게 구분할 필요가 있어보인다.

gusugi.tistory.com

 

 

2) 필요 패키지 정의 및 실행

먼저 내가 생각했을 때 필요한 패키지들이다. 동영상을 보면서 인터넷에서 여러 자료를 찾아보고 크롤링에 필요한 정리한 최소한의 패키지이다. 각 패키지의 역할을 내가 알아보기 위해 적어두었다.

패키지명 설명
pandas 데이터분석 및 핸들링을 위한 모듈
selenium 웹브라우저 핸들링은 위란 도구 모음
requests http에 요청을 보내고 응답을 받는데 사용되는 라이브러리
BeautifulSoup 웹 스크래핑 및 데이터 추출을 위한 라이브러리

 

이 중 설치가 필요한 패키지 중 설치가 안된 패키지의 설치방법을 모르겠다면 앞의 링크의 내용을 통해 확인해보길 바란다.

 

아래 코드를 보자면 설치한 패키지를 불러오는 명령어이다. 나는 내가 코드를 좀 더 쉽게 찾고 알아볼 수 있도록 주석과 숫자로 순서와 내용을 정리하는 편이다.

#########################################################################
# 00.필요 library import
#########################################################################
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
import requests
from bs4 import BeautifulSoup

코드가 간단하다면 상관없겠지만 점점 복잡해지면 이게 내가 무슨 의미로 작성한 코드인지 순서가 어떻게 되는지 헷갈리는 경우가 많다. 따라서 주석은 프로그램이 실행되는데에는 아무런 역할을 하지 않지만 사용자를 위해서는 작성하는 습관을 들이는 것이 좋다.

 

코드를 간단히 설명하자면 install을 통해 설치한 패키지는 import를 통해 불러와야지만 실행이 가능하다. 여기서 보면 첫번째 줄에는 import pandas as pd라고 되어있는데 pandas를 사용하기 위해 매번 'pandas.~'이라고 쓰기 귀찮기 때문에 pandas를 pd라는 별칭으로 사용하겠다는 의미이다. 

 

이름이 긴 경우 as를 사용하면 코딩 시 조금 편리하기도 하고, 암묵적으로 as 를 통해 사용하는 패키지들이 있다는 것을 알아두자.

 

다음으로 from ~ import라는 부분은 조금 복잡한 설명이 필요하다. 이 부분을 이해하기 위해서는 앞의 링크 부분의 내용을 참고하여 패키지와 모듈의 차이를 이해하는 부분이 필요하다. 

 

간략하게 설명하자면 import만 사용한다면 해당 모듈, 패키지 전체를 불러오는 것이고 from과 함께 사용한다면 일부 필요한 함수 등만 불러올 수 있다. 

728x90

기본적으로는 전체를 불러오는게 조금 더 안정적이지만 편의를 위해 from과 함께 사용하기도 한다. 그럼 기본적인내용을 이해했다고 치고 아래 사용법을 알아보면 다음과 같이 사용된다.

from 모듈명 import 클래스명, 함수명 등
from 패키지명 import 모듈명

 

위의 정리한 라이브러리의 대한 내용은 기본적인 설명은 표에 적어두었지만 이 부분만 보면 어떻게 사용해야 하는지 이해하기 어려울 것이다. 해당 라이브러리를 사용하기 위해서는 다음 내용에서 코드를 보며 사용법에 대해 알아보도록 하겠다. 

 

주식 데이터 크롤링을 하기 위해서는 앞으로 내용을 꾸준히 같이 보면 도움이 될 것이다.

728x90
반응형

댓글