7

나이브 베이즈 모델을 이용한 확률 기반의 스팸 메일 분류기

머신러닝 기말고사 대체과제 많이 부족했지만 성적 잘 받은 보고서 !! * pc버전으로 보는걸 권장합니다 주제: 나이브 베이즈 모델을 이용한 확률 기반의 스팸 메일 분류기참고 자료* 나이브 베이즈 개념 및 스팸메일 필터 데이터 구축* 나이브 베이즈 기반 스팸메일 필터 모델 학습  1. 나이브 베이즈 분류기란? - 확률 기반의 분류기 - 데이터가 각 클래스에 속할 특징 확률을 계산 - 나이브:예측한 특징이 상호 독립적이라는 가정 하에 확률 계산을 단순화 - 베이즈:입력 특징이 클래스 전체의 확률 분포 대비 특정 클래스에 속할 확률을 베이즈 정리를 기반으로 계산  2. 이용 데이터 - Enron 이메일 데이터 세트: preprocessed format- 3672개의 정상 메일,1500개의 스팸 메일로 구성- ..

활동/프로젝트 2024.09.18

5년치 코스피&코스닥 티커 따서 야후 파이낸스에서 adj close(수정종가) 따오기

Chapter 2. 데이터 크롤링 2-(4) 5년치 코스피 티커 따서 야후 파이낸스에서 adj close(수정종가) 따오기 2-(5) 5년치 코스닥 티커 따서 야후 파이낸스에서 adj close(수정종가) 따오기 2-(6) 코스피,코스닥 자료들 엑셀 파일로 저장하기 2-(4) 5년치 코스피 티커 따서 야후 파이낸스에서 adj close(수정종가) 따오기 필요한 라이브러리 설명 import pandas as pd import yfinance as yf - yfinance는 Yahoo Finance API를 통해 금융 데이터를 가져오는 파이썬 라이브러리입니다. - 코드에서 주요 함수는 yf.download() 입니다. 이 함수는 주식, 환율, 지수 등의 금융 데이터를 가져오는 역할을 합니다. - yf.dow..

한국 거래소 코스피&코스닥 전종목 데이터 크롤링

연구학점제 시간에 진행한 코스피&코스닥 전종목 데이터 크롤링 정리본 중 일부입니다 ! Chapter 2. 데이터 크롤링 2-(1) 기본 셋팅 & 필요한 모듈과 패키지 설명 2-(2) 한국 거래소 코스피 데이터 크롤링 2-(3) 한국 거래소 코스닥 데이터 크롤링 2-(1) 기본 셋팅 & 필요한 모듈과 패키지 설명 기본 셋팅 from google.colab import drive drive.mount ('/content/drive') - 위 코드는 구글 코랩 환경에서 구글 드라이브와 연결하는 것을 의미함 - 일반적으로 위 코드는 코랩에서 구글 드라이브에 저장된 데이터나 파일을 불러오거나 - 코랩에서 생성된 결과를 구글 드라이브에 저장하기 위해 사용됨 필요한 모듈과 패키지 설명 import re from da..

크롤링 기초(GET 방식과 POST 방식,한국 거래소에서 POST 방식을 이용해 URL 가져오기)

연구학점제 시간에 진행한 수정종가 데이터 가져오기 정리본 앞부분 입니다. Chapter 1. 크롤링 기초 1-(1) GET 방식과 POST 방식 1-(2) 한국 거래소에서 POST 방식을 이용해 URL 가져오기 1-(1) GET 방식과 POST 방식 우리가 매일 접하는 네이버,다음 같은 사이트에서 상단의 URL을 보면 우리가 ‘피부과’라는 검색어를 검색하고 싶을 때 https://search.daum.net/search?w=tot&DA=YZR&t__nil_searchbox=btn&sug=&sugo=&q=피부과 와 같이 URL에 우리가 원하는 정보를 결합하여 서버에 요청합니다. 이러한 방식이 바로 GET 방식 - 클라이언트가 입력한 값이 URL과 결합되어 스트링 형태로 서버에 전달됩니다 - 서버의 DB에 ..

1주차 - 자기소개 및 금융권 데이터분석&머신러닝 사례 소개 및 연구 주제 선정

금융권에서 데이터 분석이 활용되는 사례를 소개할때는 구체적인 사례를 정하기 보단 어떠한 분야에서 활용되는지를 조사했습니다. ppt에 적은 내용 외에 첫째, 상품개발 분야로 은행이나 보험사 등이 자사 및 계열사의 고객정보나 SNS 등을 통해 수집된 데이터, 기후 · 재난과 같은 사회 · 자연 현상과 관련된 데이터 등 다양하고 광대한 정보를 기반으로 신상품을 개발하거나 서비스기능을 제고하기 위한 목적으로 빅데이터를 활용할 수 있다. 특히 신규 개발상품의 적절한 가격을 책정하는 데(예: 보험 상품의 요율 책정)에도 많이 활용된다. 둘째, 마케팅과 관련하여 신규고객 발굴 및 타깃 마케팅을 위해 SNS · GPS 등으로부터 생성된 빅데이터를 활용하여 특정 고객군의 성향에 부합하는 서비스 및 프로모션 등을 제공한다..

'Innovation Finance Lab' 연구학점제

연구학점제는 기회가 된다면 꼭 해보고 싶어서 지원하게 됐습니다. 신청서에는 간단한 자기소개서, 연구학점제에 합격하면 무엇을 하고싶은지 그리고 학점 등 다양한 것을 적었습니다. 총 네 분의 연구실중 'Innovation Finace Lab'을 선택했습니다. 그 이유는 금융 시장에 관심을 어느정도 갖고 있고 네개의 실험중 제일 관심이 가는 분야라서 신청했습니다. 선발 되었다는 메시지를 받고 연구학점제를 이수하게 됐습니다. 이 카테고리에는 연구학점제에서 무엇을 했고 어떤 경험을 했는지 자세히 기록하겠습니다 !