데이터 다루기

심화 프로젝트 복기 (1)

- 여러분은 Spotify에 재직하는 머신러닝 분야에 특화된 데이터 분석가입니다.고객이 선호하는 곡과 유사한 곡을 연이어 재생할 수 있는 ‘음악 추천 서비스’를 기획하고자 합니다.- Spotify는 서비스 개선 목적 외에도 연구나 자유로운 분석을 위해 API 및 데이터셋을 공개했습니다.이를 통해 수많은 곡에 대한 특성을 분석하며 분류를 시도해 볼 수 있습니다.- 데이터 시각화와 탐색적 데이터 분석(EDA)을 통해 데이터를 이해하고,추천 시스템을 구성할 수 있도록 기초 정보를 제공하는 음원 군집화의 방향성에 대해 고민이 필요합니다.선호하는 노래와 ‘비슷한’ 곡이라는 정의를 어떻게 내릴 수 있을까요?- 곡의 구성요소 별로 군집화- 클러스터링 선택에 도움이 될 수 있는 데이터셋의 특성을 파악하고 다양한 모델을..

심화 프로젝트 2024.08.30

심화프로젝트 2일차

기초 프로젝트에 이어서 심화 프로젝트를 시작하면서 또 이러는 중... 스포티파이 데이터셋을 주제로 삼고 클러스터링을 통한 사용자 맞춤 '추천 시스템'을 만들고 있다.기초 프로젝트 때도 브라질 이커머스 기업을 분석하면서 어려운 데이터였어서 고전했지만깔끔하고 충분히 분석할만한 데이터였다. 나의 역량이 부족해서 문제였지...근데 아무리 생각해도 이 데이터셋은 음악 추천 시스템을 만들기에는 부족해 보인다.https://charts.spotify.com/charts/overview/global 혹시 도움이 될까 해서 아까 찾아둔 거 있는데, 나중에 사용자 선호 장르를 정해야할 때 저기 일간, 주간 탑 200 csv 파일 제공되니까 참고하면 좋을 것 같구요https://ubrain0624.medium.com/%EB..

머신러닝 2024.08.23

HR DT

https://www.samsungsds.com/kr/insights/6_hr_metrics.html 데이터 컬처 조직을 위해 필요한 6개의 HR 데이터 지표 | 인사이트리포트 | 삼성SDS인적 자원을 관리하는 HR 부서에는 늘 넘칠 정도의 많은 양의 데이터가 있습니다. 이것이 적절하게 수집과 처리가 된다면 조직의 업무 개선과 목표 달성에 강력한 지원 도구가 될 수 있습니다. KPwww.samsungsds.com https://www.samsungsds.com/kr/insights/hr_dt.html HR Digital Transformation 추진 전략 | 인사이트리포트 | 삼성SDSHR Digital Transformation이란 디지털 기술을 활용해www.samsungsds.com HR에 데이터 ..

아티클 스터디 2024.08.21

과제가 제출 기한 30분 전에 소실되다... / 과제 복기

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ정오부터 이 상태다... 정신이...어이가 없음... 일단 약 3일에 걸쳐서 과제를 수행했다.머신러닝! 이름부터 어렵잖은가.강의를 잘 못 듣는 나는 이 과제를 도약지로 삼아 성장하고자 했다.실제로 기초 프로젝트 때 가장 성장했었고 문제가 주어질 때 배우는 게 많은 타입이기에. 근데, 제출하기 1시간 전에 파일을 저장하는 과정에서 확장자명을 입력하지 않아저장은 되지 않고 내용은 다시 안불러와지는 문제가 발생했다.vscode 오른쪽 아래에 다시 시도하기 팝업이 뜨긴 했는데다시 저장하지뭐 하고 취소를 눌러버렸다.사실 다시 시도해도 확장자명을 적지 않은 게 확실했어서 해당 팝업 버튼을 눌렀어도 결과는 같았을 것이다. 당황해서 튜터분들께도 질문했으나 역시나 방법은 없었다...

머신러닝 2024.08.21

KMeans Clustering

01. k-means clustering 개념k-means clustering이 무엇인지 알아봅시다 k-means clustering☑️ k-means clustering 이란? ☑️ 알고리즘의 단계초기화: k개의 군집 중심을 랜덤하게 설정합니다.할당 단계: 각 데이터 포인트를 가장 가까운 군집 중심에 할당합니다.업데이트 단계: 각 군집의 중심을 해당 군집에 속한 데이터 포인트들의 평균으로 업데이트합니다.반복: 할당 단계와 업데이트 단계를 군집 중심이 더 이상 변화하지 않을 때까지 반복합니다☑️ 거리 측정 방법k-means 알고리즘은 주로 유클리드 거리(Euclidean Distance)를 사용하여 데이터 포인트와 군집 중심 간의 거리를 계산합니다.실루엣 계수30명의 학생을 4개의 그룹으로 나누고 싶은데..

머신러닝 2024.08.20

[ML] 회귀 알고리즘 라이브 세션 자료

머신러닝에 관련한 라이브 세션 내용을 실시간으로 정리하면서 들었다. # 필요한 패키지 임포트 import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_squared_error, r2_score# 예제 데이터 생성np.random.seed(0)X = np.random.rand(100, 1)y = 2 + 3 * X + np.random.rand(100, 1)# 데이터 분할X_train, X_test, y_tr..

머신러닝 2024.08.19

데이터 분석가가 되고 싶은 취준생을 위한 안내서 요즘IT

https://yozm.wishket.com/magazine/detail/1649/ 데이터 분석가가 되고 싶은 취준생을 위한 안내서 | 요즘IT최근 저희 조직에 학부생 인턴으로 지원한 분들과 면접을 진행했습니다. 인터뷰를 통해 대학생들의 다양한 가치관과 생각, 그리고 앞으로의 목표 등을 배울 수 있는 기회였는데요. 면접에서 지yozm.wishket.com 1. 면접 때 핵심 질문 ① 데이터 분석 프로젝트의 목적을 인지하고 있으며, 다른 사람을 설득할 수 있는가?② 문제를 풀기 위해 제한된 상황에서 적용할 수 있는 여러 방법의 장단점을 인지하고 있으며, 각각 최적의 방법으로 활용할 수 있는가?③ 데이터 분석을 통해 현 상황 해석뿐만 아니라 이후 액션을 통해 상황을 바꾸는 것까지 연결할 수 있는가? 2. 데..

아티클 스터디 2024.08.16

알고리즘 파이썬 49-50

49번 문제 설명정수 배열 numbers가 주어집니다.numbers에서 서로 다른 인덱스에 있는 두 개의 수를 뽑아더해서 만들 수 있는 모든 수를 배열에 오름차순으로 담아return 하도록 solution 함수를 완성해주세요.제한사항numbers의 길이는 2 이상 100 이하입니다.numbers의 모든 수는 0 이상 100 이하입니다.def solution(numbers): answer = [] for i in range(len(numbers)): for j in range(len(numbers)): if j != i : answer.append(numbers[i] + numbers[j]) answer.sort() real_..

카테고리 없음 2024.08.16

81-85

81번 Table: Tweets+----------------+---------+| Column Name | Type |+----------------+---------+| tweet_id | int || content | varchar |+----------------+---------+tweet_id is the primary key (column with unique values) for this table.This table contains all the tweets in a social media app. Write a solution to find the IDs of the invalid tweets. The tweet is invalid if the ..

SQL 2024.08.16

아마존이 말하는 데이터 분석

https://aws.amazon.com/ko/what-is/data-analytics/ 데이터 분석이란 무엇인가요? - 데이터 분석 설명 - AWS데이터 분석이란 무엇인가요? 데이터 분석은 원시 데이터를 실행 가능한 인사이트로 변환합니다. 여기에는 데이터를 사용해 추세를 찾아서 문제를 해결하는 데 사용되는 도구, 기술, 프로세스aws.amazon.com 데이터 분석이란?정의: 원시 데이터를 실행 가능한 인사이트로 변환하는 과정. 데이터를 활용해 추세를 파악하고 문제를 해결하는 도구, 기술, 프로세스중요성: 비즈니스 프로세스를 개선하고 의사 결정을 지원하며, 고객 경험을 개인화하고 운영을 최적화하는 데 기여.빅 데이터 분석이란?정의: 대량의 정형, 비정형, 반정형 데이터 세트를 분석하여 패턴, 추세, ..

아티클 스터디 2024.08.14

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터 다루기

전체 글 53

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역