Họ và tên | Mã số sinh viên |
---|---|
Trần Đình Quang | 21127406 |
Vũ Minh Phát | 21127739 |
├── data
│ ├── external <- Data from third party sources.
│ ├── interim <- Intermediate data that has been transformed.
│ ├── processed <- The final, canonical data sets for EDA process.
│ └── raw <- The original, immutable data dump.
│
├── notebooks <- Jupyter notebooks. Where to store the source code for the entire project.
│ ├── figures
│ └── *.ipynb
│
├── references
│ ├── figures
│ └── *.md <- List of reference documents used during project process.
│
├── reports
│ └── *.pdf <- Project plan
│
├── LICENSE
│
├── README.md <- The top-level README for developers using this project.
│
└── requirements.txt <- The requirements file for reproducing the analysis environment
- Việc lưu trữ toàn bộ dữ liệu lên GitHub sẽ có chút khó khăn nên nhóm mình đã sử dụng thêm Google Drive làm nơi lưu trữ phụ, mọi người có thể truy cập đến đó thông qua đường dẫn này.
-
Nhóm
10
sử dụng tập dữ liệu được cung cấp từ cuộc thi "Google Analytics Customer Revenue Prediction" trên Kaggle. -
Nhóm tác giả đã cho phép chúng ta sử dụng dữ liệu này một cách miễn phí.
-
Vì tập dữ liệu này có dung lượng quá lớn nên nhóm mình không thể đưa dữ liệu lên GitHub. Mọi người có thể lấy dữ liệu được nhóm mình sử dụng thông qua đường dẫn này.
-
Nhóm
10
đã đặt ra 5 câu hỏi để phân tích khám phá dữ liệu, bao gồm:-
Câu hỏi 1: Tỉ lệ chi tiêu của mỗi quốc gia so với tổng quốc gia và tỉ lệ số lần mua của từng quốc gia so với tổng quốc gia như thế nào?
-
Câu hỏi 2: Các kiểu tiếp cận khác nhau ảnh hưởng như thế nào đến số tiền chi tiêu và số lần chi tiêu của người dùng?
-
Câu hỏi 3: Liệu người dùng có xu hướng chi tiêu nhiều hơn khi tiếp tục xem các sản phẩm được liên kết đến sản phẩm hiện tại không?
-
Câu hỏi 4: Vào khoảng thời gian nào thì người dùng có xu hướng truy cập thường xuyên và sẵn sàng chi tiêu nhiều hơn để mua sắm các sản phẩm từ cửa hàng của Google?
-
Câu hỏi 5: Người dùng thường sử dụng thiết bị với các thông số kỹ thuật như thế nào khi truy cập vào cửa hàng của Google? Liệu có tồn tại một loại thiết bị với thông số kỹ thuật đặc thù nào đó mà khi sử dụng nó, người dùng có xu hướng mua hàng nhiều hơn hay không?
-
-
Về phần ý nghĩa và phân tích dữ liệu để trả lời mỗi câu hỏi thì các bạn có thể xem trong notebook
03
. -
Để thấy được các biểu đồ vẽ bằng
Plotly
thì mọi người có thể dùng công cụ nbviewer.org.
-
Tất cả thông tin xung quanh việc lên kế hoạch, phân chia công việc, kết quả thực hiện của từng thành viên đều được ghi chép đầy đủ và có thể truy cập thông qua đường dẫn này.
-
Hoặc mọi người cũng có thể xem trong folder
./reports
.
- Tất cả tài liệu tham khảo đều được nhóm mình đề cập đầy đủ ở file
list_references.md
trong folder./references
.
- Cách 1: Các bạn có thể clone về máy dùng git bằng lệnh:
git clone https://github.com/vmphat/Programming-for-Data-Science-Capstone-project
- Cách 2: Vào mục
<> Code
và chọn mụcDownload ZIP
sau đó giải nén.
Lưu ý: Các bạn xem lại phần
Nơi lưu trữ phụ
để download dữ liệu
-
Đầu tiên, ta có thể tải về và cài đặt Anaconda cho hệ điều hành của mình. Sau đó, bắt đầu cài đặt môi trường phát triển bằng cách sử dụng
requirements.txt
. -
Ghi chú: Trong đồ án này, mình muốn sử dụng Python
3.10
. Nếu mọi người muốn cài đặt các gói này trong phiên bản Python khác, thì có thể kiểm tra lại tất cả các gói bằng lệnhconda search -c conda-forge -f <package name>
để xác minh phiên bản của từng gói và thay đổi nó trong tệprequirements.txt
file.
# create conda virtual environment
conda create --name min_ds-env python=3.10 -y
# activate created conda virtual environment
conda activate min_ds-env
# install dependencies
pip install -r requirements.txt