본문 바로가기
반응형

방구석코딩132

[파이썬] 주식 데이터 크롤링(6) - 웹 페이지 데이터 가져오기 (for문) 파이썬을 주식 데이터 크롤링을 위해서는 앞부분까지는 웹 브라우저에서 실행 및 제어하는 부분이었다면, 이제는 이렇게 원하는 페이지의 정보를 파이썬으로 데이터를 가져오는 영역이다. 데이터 가져오기먼저 데이터를 가져오려는 주소를 p_url에 입력하고 browser.get을 통해 해당 주소를 입력한다. 여기서 우리는 1페이지에서 45페이지까지 변경하면서 데이터를 가져와야 하기 때문에 page= 뒷부분에 1,2,3,4,... 마지막 페이지 번호까지 변경이 필요하다.  이때 url 주소는 문자이기 때문에 문자로 변경하는 str문을 써주고 앞의 url 주소와 결합을 위해서 + 를 이용한다.p_url = 'https://finance.naver.com/sise/sise_market_sum.naver?sosok=0&pa.. 2024. 7. 12.
[파이썬] 주식 데이터 크롤링(5) - 웹 브라우저 체크박스 선택 (selenium) 앞에서 파이썬을 이용하여 주식데이터 크롤링을 위해 체크박스를 해제하는 부분까지 진행하였다. 그러면 이제 웹 브라우저에서 내가 원하는 항목의 체크박스를 클릭하는 방법에 대해 알아보겠다. 이미 체크박스를 해제하는 부분을 진행했기 때문에 코드 중 일부는 유사하기 때문에 추가로 작성된 내용을 위주로 알아보자. 체크항목 알아보기우리가 크롤링 하려는 네이버 증권 페이지에서는 총 체크박스 항목이 27개다. 앞에서 항목은 라벨을 기준으로 가져올 것이라고 정의했다. 다른 방법도 있겠지만 여러가지 시도를 해봤는데 모두 실패해서 라벨 기준으로 선택항목을 체크할 것이다. 자 먼저 체크박스를 선택하기 위해 앞에서 봤던  html 부분을 다시 살펴보자.내가 생각하기에는 라벨보다 value에 있는 값을 기준으로 가져오는 것이 더 .. 2024. 7. 11.
[파이썬] 주식 데이터 크롤링(4) - 웹 브라우저 체크박스 해제 (selenium) 파이썬을 이용한 주식 데이터 크롤링을 위해 앞에서 사전준비 할 내용과 필요 패키지, 웹 브라우저 자동 실행에 대해서 알아보았다. 이번에는 실행한 웹 브라우저에서 네이버 증권의 체크박스를 해제하는 방법에 대해 알아보겠다. 체크박스 해제네이버 증권에서 선택되어 있는 체크박스를 해제하는 이유는 이후작업에서 내가 원하는 체크박스를 클릭하기 위해서다. 해제를 위해 먼저 증권 페이지가 어떻게 짜여져 있는지 확인이 필요하고, 파이썬의 명령어를 통해 체크박스를 해제해야 한다. html 열기 및 선택  네이버 증권의 페이지가 어떻게 구성되어 있는지 확인하기 위해서는 해당 페이지에서 빈곳의 아무데나 마우스 우클릭을 하면 아래 화면의 오른편과 같이 팝업창이 뜨는데 검사를 선택한다. 여기서부터 중요한데 사실 html이나 c.. 2024. 7. 10.
[파이썬] 주식 데이터 크롤링(3) - 웹 브라우저 자동 실행(webdriver) 이번에는 주식 정보 크롤링을 위한 실질적인 코드 작성이 들어가는 단계이다. 네이버 증권에 있는 주식 정보를 불러오는 방법이다.  웹 브라우저 실행주식 데이터 크롤링을 하기 위해서는 맨 처음으로 정보가 들어있는 웹 페이지를 실행해야 한다. 아래 코드를 보며 순서대로 실행해보자. 앞의 컨텐츠에서 얘기했는 주석을 체계적으로 달아주어야 향후에 변동이 생기거나 내가 변경해야 할 것들이 있으면 알아보기 쉽다. 아래 코드를 하나씩 아래에 설명해보도록 하자.########################################################################## 01. kospi 페이지 정보 및 브라우저 실행###############################################.. 2024. 7. 9.
[파이썬] 증권 전 종목 크롤링(2) - 필요 패키지 파이썬을 통해 주식 데이터 크롤링을 위해서 어떤 패키지가 필요한지 알아보고 웹브라우저를 핸들링할 수 있는 방법을 알아보겠다. 한번에 모든 내용을 자세히 적기에는 양이 많기 때문에 하나씩 연결해서 진행할 예정이다. 1. 준비사항 - 주피터노트북 설치파이썬을 활용하기 위해 나는 주피터 노트북을 이용해서 코드를 작성하였다. 주피터노트북은 웹브라우저를 통해 파이썬 코드를 작성하고 실행할 수 있는 도구이다.  IDLE, 구글에서 제공하는 코랩 등을 이용할 수도 있지만 IDLE은 도스창 같이 생겨서 익숙하지 않을 수 있다. 코랩은 웹에서 작동하기 때문에 잘 모르는 부분이 있어 오프라인에서도 작동할 수 있는 주피터 노트북을 선택하였다.  만약 컴퓨터 사양이 너무 안좋은 경우에는 코랩을 이용하는 것도 나쁘지 않은 선택.. 2024. 7. 8.
파이썬 모듈, 패키지, 라이브러리 용어 이해 설치 확인 방법 파이썬을 공부하다 보면 모듈, 패키지, 라이브러리라는 용어가 자주 등장하게 된다. 별 생각없이 사용한다면 모를까 계속 반복되어 나오는 용어에 대해서 정확하게 구분할 필요가 있어보인다.따라서 다음 용어에 대해서 조금 더 명확하게 정의해보도록 하겠다. 1. 모듈먼저 모듈이란 누군가가 작성해둔 코드이다. 프로그램을 작성하다 보면 내가 직접 작성하기 굉장히 까다로운 부분이 있는데, 이런 부분을 남들이 필요하다고 생각한 사람이 작성해둔 코드를 불특정 다수가 사용할 수 있도록 만들어 둔것이다.  먼저 모듈은 확장자가 '.py'로 끝난다. 누군가 작성해둔 코드를 '.py'를 확장자로 올려두면 설치를 통해 사용할 수 있다. 그렇다면 아무나 무작위로 올린 엄청난 모듈이 있을 것 같지만 그래도 어느정도 검증이 된 모듈만 .. 2024. 7. 5.
[파이썬] 증권 전 종목 크롤링 하기 (1) - 사전 작업 파이썬을 통해 증권 정보를 크롤링 하는 방법에 대해서는 여러 자료에서 찾아볼 수 있다. 하지만 내가 원하는 전 종목, 모든 항목에 대해서 한번에 크롤링 할 수 있는 자료를 찾는 건 쉽지 않았다. 어떻게 모든 종목에 대한 크롤링을 했는지 살펴보자. 블로그, 유튜브, 챗GPT 등 여러 군데에서 자료를 찾고 힘겹게 완성한 자료다. 먼저 흐름대로 코딩을 하고 이해하고 다음으로 함수화하여 최대한 간단하게 매크로 형식으로 만들었다. 처음부터 매크로 형태로 만들면 이해하기 어려우니 매크로 형태로 작성하기 전 코딩한 자료부터 보겠다.  코드를 작성하기 전 먼저 알아두어야 할 사전 정보부터 알아보고 다음 내용부터 코딩에 대한 부분을 들어가보도록 하겠다. 자료(페이지) 탐색크롤링을 하기 위해서는 먼저 어떤 정보가 있는지 .. 2024. 7. 4.
[파이썬] 아나콘다, 주피터 노트북 맥 OS 설치방법 최근 AI 열풍으로 코딩에 관심이 높아지고 있는데요. 파이썬에서 주피터 노트북을 설치하는 방법을 알아볼텐데요. 최근에는 맥북의 사용도 늘어나고 있어서 윈도우 설치 외에 파이썬의 주피터 노트북 설치에 대해서 알아보도록 하겠습니다. 다운로드먼저 다운로드를 받기 위해서 검색창에서 '아나콘다 설치' 등으로 검색하면 아래와 같이 download Anaconda Distribution이 보이게 되는데 이 주소를 클릭해 줍니다.  클릭해서 들어가면 아래와 같은 화면이 나오게 됩니다. 오른편에 보시면 메일 주소를 입력하게 되어 있는데 본인이 메일을 확인할 수 있는 메일 주소를 입력해야 합니다. 메일 주소 입력 뒤 아래 초록색 버튼인 submit을 클릭합니다. 메일 주소를 입력하셨다면 왼쪽 사진과 같이 다운로드 버튼을 .. 2024. 5. 23.
반응형