Blog en direct AnandTech: les dernières mises à jour sont en haut. Cette page sera mise à jour automatiquement, il n’est pas nécessaire d’actualiser manuellement votre navigateur.

16 h 51 HE – Très difficile de marquer une position donnée sur le tableau

16 h 51 HE – Voici un arbre de recherche pour la recherche par force brute

16 h 51 HE – Jeu simple pour la structure, jeu complexe à maîtriser

16 h 50 HAE – Maintenant, c’est parti

16 h 50 HAE – des données meilleures et plus diversifiées à améliorer

16 h 50 HAE – combiné avec l’optimisation des politiques

16 h 50 HAE – Amélioration itérative de la qualité des jeux de données au fil du temps

16 h 49 HAE – Gestion des objets non scriptables

16 h 49 HAE – finit par surpasser les humains

16 h 49 HAE – comprendre l’échec est essentiel pour apprendre un bon comportement

16 h 49 HAE – Besoin de se former sur des exemples propres mais aussi de mauvaises données pour observer l’échec

16 h 48 HAE – Comportement dans des environnements contradictoires

16 h 48 HAE – Tout ce que le robot fait avec toutes ces données est stocké et utilisé pour les futures itérations

16 h 47 HAE – Lot RL

16 h 47 HAE – Le pliage des protéines ou la robotique peuvent être difficiles à déterminer à quel point vous êtes proche de l’objectif, alors apprenez des programmes qui attribuent des récompenses à partir de programmes

16 h 46 HAE – les humains annotent des tentatives aléatoires pour indiquer où se trouvent les récompenses

16 h 45 HAE – Initier avec des données aussi bonnes que possible

16 h 45 HAE – expériences ratées, politiques aléatoires, interférences

16 h 45 HAE – Stockage sans fin

16 h 45 HAE – Ne jetez jamais aucune donnée, quelle que soit sa gravité

16 h 44 HAE – Élargir l’apprentissage par renforcement en robotique

16 h 44 HAE – Croquis de récompense – liste des préférences humaines

16h43 HAE – Former les réseaux aux valeurs futures d’eux-mêmes

16h43 HAE – prédire quels états futurs donneront la meilleure récompense

16h43 HAE – les récompenses futures déclinent de façon exponentielle

16h43 HAE – Comment mesurer le succès, comme dans le monde réel

16h42 HAE – Tout sur la fonction valeur

16h42 HAE – Maximisez la récompense totale pendant la durée de vie de l’agent

16 h 41 HAE – Prendre de bonnes décisions en apprenant de l’expérience

16 h 41 HAE – Apprentissage par renforcement

16 h 41 HAE – Les réseaux se développent 3 fois par an en moyenne

16 h 41 HAE – Des données plus diversifiées, un réseau plus grand, plus de calcul, donne de meilleurs résultats

16 h 40 HAE – Loi de fer de l’apprentissage profond: plus c’est plus

16 h 40 HAE – DL supervisé – inférer des connaissances à partir d’observations

16 h 40 HAE – généraliser pour s’appliquer aux nouvelles interactions

16 h 40 HAE – Recettes pour former des programmes

16 h 39 HAE – L’apprentissage automatique consiste à créer de nouvelles connaissances, en utilisant les connaissances actuelles, pour résoudre une grande diversité de problèmes nouveaux

16 h 39 HAE – Performant au niveau humain ou mieux

16 h 39 HAE – Tâche qui ne sera probablement pas résolue par une interaction aléatoire

16 h 38 HAE – Séquences d’actions de bas niveau

16 h 38 HAE – 2019 – résoudre des énigmes dans le monde réel

16 h 38 HAE – Certaines des solutions sont très humaines comme

16 h 38 HAE – A pris quatre heures d’entraînement – effort minimum pour un jeu maximum

16 h 37 HAE – Comme jouer à breakout avec RL

16 h 37 HAE – Simulations physiquement précises selon les besoins

16 h 37 HAE – Règles simples pour tester de nouvelles approches dans des simulations parallèles

16 h 37 HAE – Recherche à l’aide de jeux

16 h 36 HAE – Phénomènes neuro-physiques

16 h 36 HAE – Les neurosciences peuvent agir comme un catalyseur

16 h 36 HAE – DM a une approche unique de l’IA

16 h 35 HAE – Indépendant d’Alphabet mais soutenu par eux

16 h 35 HAE – Institut de recherche au sein d’Alphabet, 400 chercheurs

16 h 35 HAE – Deepmind – Un programme Apollo pour l’IA

16 h 34 HAE – Introduction à Deepmind

16 h 34 HAE – Désir de construire des machines de plus en plus grandes

16 h 33 HAE – Pas de formation formelle sur le matériel ou les systèmes – uniquement un spécialiste du logiciel

16 h 33 HAE – Recherche en IA à grande échelle

16 h 27 HAE – Ce sera probablement une mise à jour de ce qui se passe chez Deepmind (maintenant propriété d’Alphabet) et de ce qu’ils prévoient pour l’avenir de l’IA. Nous pourrions avoir un aperçu de la façon dont l’entreprise travaille avec d’autres services au sein d’Alphabet – il a été dit que Deepmind a utilisé ses algorithmes pour augmenter l’efficacité du refroidissement dans les centres de données de Google, par exemple.

16 h 27 HAE – Deepmind est la société qui a créé le programme AlphaGo qui a joué le champion professionnel de Go Lee Sedol en 2016, avec le score final de 4-1 en faveur de l’intelligence artificielle.

16 h 26 HAE – Le discours d’ouverture du jour 2 de Hot Chips est de Dan Belov de Deepmind