WiMi Hologram Cloud Inc. a annoncé avoir développé un algorithme de planification des tâches basé sur l'apprentissage par renforcement profond dans l'informatique en nuage afin d'améliorer les performances et l'utilisation des ressources des systèmes d'informatique en nuage. L'apprentissage par renforcement profond permet de résoudre des problèmes complexes de prise de décision en apprenant et en optimisant des stratégies. En utilisant l'apprentissage par renforcement profond, le problème de planification des tâches peut être transformé en un problème d'apprentissage par renforcement en formant un réseau neuronal profond pour apprendre la stratégie optimale de planification des tâches. L'avantage de l'apprentissage par renforcement est qu'il permet d'ajuster automatiquement la politique en fonction des changements dans l'environnement et qu'il peut être adapté à des scénarios complexes de planification des tâches.

L'apprentissage par renforcement en profondeur présente les avantages de l'adaptabilité, de la modélisation non linéaire, de l'apprentissage de bout en bout et de la capacité de généralisation dans la planification des tâches, et il peut prendre en compte de manière exhaustive des facteurs tels que le temps d'exécution de la tâche, la demande de ressources, la situation de charge de la machine virtuelle et la latence du réseau, de manière à exécuter la planification des tâches avec plus de précision et à améliorer les performances du système et le taux d'utilisation des ressources. L'algorithme de planification des tâches basé sur l'apprentissage par renforcement profond de WiMi dans l'informatique en nuage comprend la représentation de l'état, la sélection des actions, la fonction de récompense, l'entraînement et l'optimisation de l'algorithme. La représentation de l'état est un lien important.

En transformant diverses informations de l'environnement informatique en nuage en une forme qui peut être traitée par le modèle d'apprentissage automatique, elle peut aider le modèle à mieux comprendre la situation actuelle de la planification des tâches, de manière à prendre des décisions plus raisonnables et plus précises en matière de planification des tâches. La sélection des actions est également une étape clé : à chaque étape, l'agent doit sélectionner une action à exécuter pour décider de la stratégie de planification des tâches à l'instant présent. Un tel algorithme peut sélectionner une action optimale en fonction de l'état actuel du système afin d'obtenir une planification efficace des tâches de l'informatique en nuage.

La fonction de récompense, quant à elle, est utilisée pour évaluer la valeur de la récompense obtenue par l'agent après l'exécution d'une action, ce qui oriente le processus de prise de décision de l'agent. La fonction de récompense peut permettre à l'agent d'apprendre et d'optimiser au cours du processus de planification des tâches. En outre, la formation et l'optimisation de l'algorithme de planification des tâches basé sur l'apprentissage par renforcement profond dans l'informatique en nuage sont également très importantes.

Tout d'abord, un environnement d'apprentissage par renforcement applicable au problème de planification des tâches doit être construit, y compris la définition des états, des actions et des fonctions de récompense. L'état peut inclure des informations telles que la situation actuelle de la charge du système, les attributs et la priorité de la tâche ; l'action peut choisir d'affecter la tâche à une certaine machine virtuelle ou décider de retarder le traitement de la tâche ; et la fonction de récompense peut être définie sur la base du temps d'achèvement de la tâche, de l'utilisation des ressources et d'autres métriques. L'algorithme est ensuite entraîné à l'aide d'un algorithme d'apprentissage par renforcement profond tel que le Deep Q-Network (DQN), un algorithme d'apprentissage par renforcement basé sur un réseau neuronal qui peut prendre des décisions en apprenant une fonction de valeur.

Au cours du processus de formation, en interagissant avec l'environnement, l'algorithme met continuellement à jour les paramètres du réseau neuronal afin d'optimiser la stratégie de prise de décision pour l'ordonnancement des tâches. En outre, certaines techniques d'optimisation, telles que le retour d'expérience et les réseaux d'objectifs, peuvent être utilisées pour améliorer encore les performances et la stabilité de l'algorithme. Grâce à l'entraînement et à l'optimisation continus, l'algorithme apprendra progressivement la stratégie optimale de planification des tâches, améliorant ainsi les performances et l'efficacité du système.