기초 프로젝트

Brazilian E-Commerce Public Dataset

whateveryouwish 2024. 7. 27. 03:03

수요일 기초 프로젝트 발제 후 이틀 간 분석 주제를 선정하고 데이터 분석을 했다.

 

우리 B06조가 선정한 주제는 '마케팅 성과 측정을 위한 데이터 분석'으로

케글에서 범용적으로 사용 가능한 Brazilian E-Commerce Public Dataset을 자유로이 분석하는 과제였다.

 

개인적으로 Spotify 데이터 분석이 굉장히 하고 싶었고, 명확한 롤모델과 목표가 있어 쉬울 거라 생각했으나

나를 뺀 나머지 조원들이 모두 마케팅 성과 측정 분석으로 결정하여 군말없이 따랐다.

 

해당 데이터셋은

 

olist_customers_dataset

olist_geolocation_dataset

olist_order_items_dataset

olist_order_payments_dataset

olist_order_reviews_dataset

olist_order_dataset

olist_products_dataset

olist_sellers_dataset

 

8개의 데이터셋이 각기 다른 키를 통해 Join 될 수 있었기 때문에

방대한 데이터를 원하는 목적에 맞춰 깔끔하게 분석할 수 있었다.

 

다만 데이터셋의 정보와 마케팅 성과 측정과 연관성이 크게 없어보였고

다른 주제들과는 달리 명확한 목표가 존재하는 것이 아니기에

자유도가 너무 높아 프로그래밍 기술을 연습하기에는

준비해야할 정보의 양이 방대한 편이었다.

 

사실 현업에 들어가서는 해당 데이터보다 더 자유도가 높은 업무들이 주어지겠지만

현재 눈 앞에 놓인 벽은 python과 sql이었고

이 언어들을 실습할만한 명확한 목표가 있었으면 했다.

 

주제를 선정하고나서 매니저님들도 말씀하시길

가장 어려운 데이터셋이라 힘들 것이라고까지 하셨다.

 

그래도 그동안 조원분들께 감사한 것이 많아서 마음을 다잡고

이 주제에 몰입하게 되었다.

 

분석이 어느 정도 되고난 지금은 이런 자유도 높으면서 방대한 데이터를 다뤄볼 수 있게 해준 조원분들께 감사하다.

 

케글에 SQL을 활용하여 아주 좋은 분석을 해둔 자료가 있어서 해당 자료를 참고하고,

그대로 flow를 따라가 보는 것으로 시작했다.

https://www.kaggle.com/code/terencicp/sql-challenge-e-commerce-data-analysis/notebook

 

SQL Challenge: E-commerce data analysis

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

혹여 우리와 같은 주제로 분석하기로 한 사람들이 있다면

명확한 주제로 통일성 있는 분석이 되어 있으니

한 번씩 참고해보는 것을 추천한다.

 

애초에 SQL과 파이썬을 자유자재로 활용할 수 있는 레벨이 아니기 때문에

잘 정리되어있는 자료를 보면서 흐름을 따라가보는 것이 굉장히 큰 연습이 되었다.

 

모르는 것들은 튜터님들이나 Chat gpt가 있으니까 말이다.