Les forêts aléatoires ne sont pas trop adaptées. Vous pouvez exécuter autant d`arbres que vous le souhaitez. C`est rapide. Fonctionnant sur un ensemble de données avec 50 000 cas et 100 variables, il a produit 100 arbres en 11 minutes sur une machine de 800Mhz. Pour les ensembles de données volumineuses, la principale exigence de mémoire est le stockage des données elle-même et trois tableaux entiers avec les mêmes dimensions que les données. Si les proximités sont calculées, les besoins de stockage se développent comme le nombre de cas multiplié par le nombre d`arbres. Pouvez-vous imaginer l`intégration d`un modèle dans votre produit sans comprendre comment il fonctionne? Ou quelles sont les caractéristiques qui affectent votre résultat final? Cela aidera à définir les paramètres que nous utiliserons pour régler un paramètre final: le nombre d`arbres dans notre forêt. Lors de l`apprentissage d`un concept technique, je trouve qu`il est préférable de commencer par une vue d`ensemble de haut niveau et de travailler votre chemin vers le bas dans les détails plutôt que de commencer en bas et obtenir immédiatement perdu. Le long de ces lignes, ce poste utilisera un exemple intuitif pour fournir un cadre conceptuel de la forêt aléatoire, un algorithme d`apprentissage machine puissant. Après avoir une idée de base vers le bas, je passe à une implémentation simple pour voir comment fonctionne la technique et si elle sera utile pour moi avant de finalement travailler sur les détails en creusant profondément dans la théorie. Avec cela à l`esprit, après avoir compris la vue d`ensemble de la forêt aléatoire ici, n`hésitez pas à vérifier la deuxième partie de ce post, un exemple de bout en bout élaboré dans le code Python. Pris ensemble, ces deux articles vous aideront à conquérir les deux premières étapes dans le processus d`apprentissage et vous laissent bien préparés à plonger aussi loin dans la forêt aléatoire et l`apprentissage automatique que vous le souhaitez! Dans ce cas, nous allons créer 10 ensembles dans notre ensemble de données qui calculent les estimations que nous avons déjà faites, puis la moyenne de l`erreur de prédiction pour nous donner une représentation plus précise de la puissance de prédiction de notre modèle. Les performances du modèle peuvent varier considérablement lors de l`utilisation de différents ensembles d`entraînement et de test.
Random Forest a presque les mêmes hyperparamètres qu`un arbre de décision ou un classifieur d`ensachage.