Kaggle là gì

Kaggle là một trong những cộng đồng tuyệt vời nhất của không ít bên khoa học dữ liệu. Cá nhân tôi cũng có một thời gian đòi hỏi cùng tham gia các cuộc thi bên trên này. Tôi học tập được tự những người chơi sinh hoạt kaggle về các kĩ thuật cùng bí quyết giải pháp xử lý nhiều hơn thế nữa tất cả phần nhiều gì tôi học tập được trước kia. Tuy nhiên, sau một thời gian, tôi ra quyết định dành chút thời gian trên kaggle rộng vậy vì chưng tmê say gia sâu vào những cuộc thi như lúc trước.Quý Khách đang xem: Kaggle là gì

Có một trong những lý do nhằm tôi chỉ dẫn đưa ra quyết định này.Quý khách hàng vẫn xem: Kaggle là gì

Tiêu chí đối chọi giản

Các bạn hẳn sẽ thân thuộc với hàm kim chỉ nam trong machine learning. Các cuộc thi trên kaggle cũng chỉ có một mục tiêu độc nhất đó là về tối tgọi hóa quý hiếm của loss function.

Bạn đang xem: Kaggle là gì


*

*

Việc buổi tối thiểu hàm kim chỉ nam là đúng, dẫu vậy chưa đầy đủ. Trong thực tế quanh đó quyên tâm cho tới tài năng dự đân oán của quy mô, họ còn đề nghị quan tâm cho tới khả năng triển khai quy mô đó, tài năng tương xứng với khối hệ thống hiện nay, thời hạn tính tân oán, năng lực giải thích… Những tiêu chuẩn này hoàn toàn không được gửi vào tiêu chí của những cuộc thi bên trên kaggle.

Hãy mang ví dụ về thuật tân oán gợi ý giành thắng lợi trong cuộc thi nhưng Netflix tổ chức triển khai.

A year inlớn the competition, the Korbell team won the first Progress Prize with an 8.43% improvement. They reported more than 2000 hours of work in order to come up with the final combination of 107 algorithms that gave them this prize.

Well, đấy là một thuật tân oán giỏi, cơ mà hãy tưởng tượng các bạn sẽ vận dụng thuật toán này ra sao cho số lượng rating, user ngày dần tăng? Nó quá tinh vi để mang vào ứng dụng.

Cố gắng vào engineering


*

*

Với cá thể tôi, một fan từng làm trong nghành nghề dịch vụ bank — tài bao gồm, tôi kì vọng có không ít kernel đem về insight thú vui về hành động vay cùng đầu tư của doanh nghiệp cầm cố vày pipeline cùng với một loạt feature và quy mô nlỗi bên trên.

Xem thêm: Lấy Máu Gót Chân Để Làm Gì, Lấy Máu Gót Chân Thực Hiện Vào Lúc Nào Sau Sinh

Với riêng rẽ cuộc thi của home page credit, cá nhân tôi thấy rằng roc-auc = 0.8một là cực tốt cùng không có chức năng cao không chỉ có vậy. Các cách thức nhỏng tạo thêm feature, thêm mô hình… nhằm kì vọng tạo thêm 0.1 điểm nữa chỉ cần cầu may mắn.

Lý vị là gì? Tôi vẫn debug quy mô với đối chiếu dữ liệu, đến một ngưỡng các bạn sẽ bắt buộc rành mạch được về phương diện dữ liệu sự khác nhau của một khoản vay default và non-default. Với những features hiện nay, quy mô cũng không thật chắc chắn rằng về dự đoán trong Việc phân loại. Vì vậy, các nỗ lực cố gắng quan trọng yêu cầu triệu tập vào Việc tích lũy thêm những features to gan cố gắng vì tăng mức độ phức hợp của quy mô. Nhà khoa học tài liệu, khi ấy, yêu cầu dựa vào sự đặc biệt của biến chuyển số so với chất lượng phân các loại của mô hình nhằm gợi nhắc về phần đông thông tin đề nghị tích lũy thêm.

Thuật toán bên trên kaggle không mới

Thực ra số đông thuật tân oán bắt đầu đang thành lập và hoạt động ở hầu hết bài bác báo kỹ thuật. Kaggle chỉ với địa điểm vận dụng cùng kiểm triệu chứng coi các thuật toán thù này còn có hữu dụng ko vào thực tiễn.

Vì vậy, hiện tại tôi ăn nhập với một số trong những bí quyết tiếp cận hiệu quả nhưng bản thân biết so với từng bài xích tân oán và chỉ còn coi kaggle là địa điểm tìm hiểu thêm các kinh nghiệm thực hành bổ sung. Một số bài bác toán thù với thuật toán mà tôi cho rằng yêu cầu sử dụng:

Đối với bài bác toán thù phân nhiều loại với đầu vào là tabular data: tree bagging cùng tree boosting. Nếu bạn muốn quy mô rất có thể diễn giải, nên chọn lựa tree bagging. Nếu ao ước chất lượng dự đân oán, tree boosting là chọn lọc phù hợp.Bài toán thù hồi quy với input là tabular data: fully connected net hoặc tree boosting sẽ làm tốt nhất có thể.Bài toán thù dự đoạn chuỗi thời gian: RNN rất có thể xử trí được vấn đề.Đối cùng với bài xích tân oán phân các loại văn bản, hình ảnh: transfer learning đang đưa về hiệu quả tốt nhất.

Thắng một cuộc thi bên trên kaggle không hỗ trợ ích nhiều mang lại quá trình của tôi


*

Source: From the paper “Hidden Technical Debt in Machine Learning System” by D. Sculley et al

Hãy dành riêng thời hạn mang đến những vật dụng đặc biệt khác

Người làm cho về tài liệu ngoại trừ phát âm biết về qui định, ngữ điệu xây dựng tuyệt thuật tân oán machine learning còn bắt buộc tốt không ít năng lực mềm khác ví như gọi biết về ngành, kĩ năng giao tiếp, tài năng thuyết trình, tài năng đặt câu hỏi, năng lực phân tích vấn đề…

Sau tất cả

Kaggle vẫn hết sức tuyệt!

Những gì tôi học được về data science tự kaggle là không hề ít. Tuy nhiên các cuộc thi bên trên kaggle chỉ phản ảnh một trong những phần khôn xiết nhỏ dại gần như gì vào thực tiễn các bước của các bạn làm cho về tài liệu. Vì vậy, hãy dành riêng thời hạn và sự quan tâm hợp lý trên kaggle để có thời gian triển khai xong xuất sắc toàn bộ khả năng của chính mình.