DeepMind a ouvert un accès gratuit à un environnement d'apprentissage machine virtuel. Google a testé l'intelligence artificielle DeepMind dans les conditions du "dilemme du prisonnier" Qu'est-ce qu'un réseau neuronal deep mind

Il semble fort probable que l'intelligence artificielle (IA) sera le signe avant-coureur de la prochaine révolution technologique. Si l'IA se développe au point où elle peut apprendre, penser et même «sentir», le tout sans aucune intervention humaine, tout ce que nous savons sur le monde changera presque du jour au lendemain. L'ère de l'intelligence artificielle vraiment intelligente viendra.

esprit profond

C'est pourquoi nous sommes si intéressés à suivre les principales étapes du développement de l'IA qui se produisent aujourd'hui, y compris le développement du réseau neuronal DeepMind de Google. Ce réseau de neurones a déjà pu battre un humain dans le monde du jeu, et une nouvelle étude de Google montre que les créateurs de DeepMind ne savent pas encore si l'IA préfère un comportement plus agressif ou coopératif.

L'équipe de Google a créé deux scénarios relativement simples qui peuvent être utilisés pour tester si les réseaux de neurones peuvent fonctionner ensemble, ou s'ils commencent à se détruire lorsqu'ils rencontrent un manque de ressources.

Rassembler des ressources

Au cours de la première situation, appelée Gathering, deux versions participantes de DeepMind - rouge et bleue - ont été chargées de récolter des "pommes" vertes dans un espace clos. Mais les chercheurs se sont intéressés à la question non seulement de savoir qui sera le premier à atteindre la ligne d'arrivée. Les deux versions de DeepMind étaient armées de lasers qu'elles pouvaient utiliser pour tirer sur l'ennemi à tout moment et les désactiver temporairement. Ces conditions impliquaient deux scénarios principaux : une version de DeepMind devrait détruire l'autre et collecter toutes les pommes, ou elles se permettraient d'obtenir à peu près le même nombre.

En exécutant la simulation au moins un millier de fois, les chercheurs de Google ont découvert que DeepMind était très pacifique et coopératif lorsqu'il espace clos il restait beaucoup de pommes. Mais à mesure que les ressources diminuaient, la version rouge ou bleue de DeepMind a commencé à s'attaquer ou à s'arrêter. Cette situation ressemble beaucoup à vrai vie la plupart des animaux, y compris les humains.

Plus important encore, des réseaux de neurones plus petits et moins "intelligents" ont favorisé une plus grande collaboration sur tout. Les réseaux plus complexes et plus grands ont eu tendance à favoriser la trahison et l'égoïsme tout au long de la série d'expériences.

Rechercher "victime"

Dans le deuxième scénario, appelé Wolfpack, les versions rouge et bleue ont été invitées à traquer une forme de "victime" indéfinissable. Ils pourraient essayer de l'attraper séparément, mais il serait plus avantageux pour eux d'essayer de le faire ensemble. Après tout, il est beaucoup plus facile de coincer la victime si vous travaillez à deux.

Alors que les résultats étaient mitigés pour les petites chaînes, les plus grandes versions ont rapidement réalisé que la collaboration plutôt que la concurrence serait plus bénéfique dans cette situation.

"Le dilemme du prisonnier"

Alors que nous montrent ces deux versions simples du dilemme du prisonnier ? DeepMind sait qu'il est préférable de coopérer s'il est nécessaire de retrouver une cible, mais lorsque les ressources sont limitées, c'est la trahison qui fonctionne bien.

Le pire dans ces résultats est peut-être que les "instincts" de l'intelligence artificielle ressemblent trop à ceux de l'homme, et nous savons bien à quoi ils mènent parfois.

Google rachète la société londonienne d'intelligence artificielle DeepMind. Des sources appellent le montant de la transaction à plus de 500 millions de dollars. L'achat est officiellement confirmé par les représentants de Google.

Que va donner Google à cette acquisition ? Premièrement, cela lui permettra de rivaliser avec d'autres grandes entreprises technologiques, grâce à son accent sur l'apprentissage en profondeur. Facebook, par exemple, a récemment embauché le professeur Yann LeKanna pour diriger son propre développement de l'intelligence artificielle. Le supercalculateur Watson d'IBM se concentre actuellement spécifiquement sur l'apprentissage en profondeur, et Yahoo a récemment acquis LookFlow, une startup d'analyse de photos, qui progresse également dans ce domaine.

DeepMind a été fondée par le neuroscientifique Demis Hassabis, ancien prodige des échecs, Jaan Tallinn, développeur de Skype et Kazaa, et le chercheur Shane Legg.

La décision de Google permettra à l'équipe du géant de la technologie de remplir son propre domaine d'experts en intelligence artificielle, et l'acquisition a été personnellement supervisée par le PDG de Google, Larry Page, selon des sources. Si les trois fondateurs travaillent pour Google, ils rejoindront l'inventeur, entrepreneur, auteur et futuriste Ray Kurzweil, qui est devenu en 2012 le directeur technique de la division d'apprentissage automatique et de traitement du langage de Google.

Kurzweil a déclaré qu'il voulait construire un tel moteur de recherche qu'elle peut devenir une véritable "amie cybernétique".

Depuis l'acquisition de Nest plus tôt ce mois-ci, les critiques ont exprimé des inquiétudes quant à la quantité de données utilisateur qui sera envoyée à Google. L'achat de Boston Dynamics le mois dernier a également conduit à un débat sur le fait que Google envisageait de devenir un fabricant de robots.

Néanmoins, Google est bien préparé pour apaiser nos craintes sur ses dernières acquisitions. Des sources affirment que Google a décidé de créer un conseil d'éthique qui supervisera le développement de l'intelligence artificielle au sein de DeepMind.

Cependant, l'entreprise devra clarifier ce que fait exactement l'intelligence artificielle de DeepMind. Le site Web de l'entreprise a actuellement une page d'accueil avec une description relativement vague qui dit que DeepMind est "une entreprise à la pointe de la technologie" et construit les algorithmes du futur pour les simulations, le commerce électronique et les jeux. En décembre, la startup comptait 75 employés.

Les principaux sponsors de la startup sont Founders Fund et Horizons Ventures. DeepMind a été fondée il y a trois ans.

En 2012, Larry Wasserman, professeur au Carnegie Mellon Institute, écrivait qu'« une startup va construire un système qui pense. Je pensais que c'était de la pure folie jusqu'à ce que je découvre combien de milliardaires célèbres avaient investi dans l'entreprise.

6 décembre 2016 à 00:41

DeepMind a ouvert un accès gratuit à un environnement virtuel d'apprentissage automatique

Science populaire,
Intelligence artificielle ,
Jeux et consoles de jeux

Récemment, des représentants de la division DeepMind (qui fait désormais partie de la holding Alphabet) ont annoncé la mise à disposition d'un accès gratuit aux développeurs au code source de la plateforme DeepMind Lab. Il s'agit d'un service d'apprentissage automatique basé sur Quake III, conçu pour entraîner l'intelligence artificielle. A savoir, apprendre à résoudre des problèmes dans un espace tridimensionnel sans intervention humaine. La plateforme est basée sur le moteur de jeu Quake III Arena.

À l'intérieur du monde du jeu, l'IA prend la forme d'une sphère et la capacité de voler, en étudiant l'espace environnant. L'objectif fixé par les développeurs est d'apprendre à une forme faible d'IA à "comprendre" ce qui se passe et à répondre à diverses situations se produisant dans le monde virtuel. "Personnage" peut effectuer un certain nombre d'actions, se déplacer dans le labyrinthe, explorer l'environnement immédiat.

"Nous essayons de développer Formes variées Une IA capable d'effectuer une gamme de tâches allant de la simple exploration du monde du jeu à l'action et à l'analyse de ses conséquences », déclare Shane Legg, scientifique en chef chez DeepMind.

Les experts espèrent que l'IA pourra apprendre par essais et erreurs. Les jeux dans ce cas sont presque option parfaite. Par exemple, DeepMind utilisait auparavant (et utilise actuellement) la console de jeu Atari afin d'apprendre au réseau de neurones à effectuer les actions séquentielles nécessaires au jeu.

Mais un monde 3D ouvert et modifiable offre un environnement beaucoup plus prometteur pour l'apprentissage de l'IA que le monde plat des jouets graphiquement simples d'Atari. L'IA dans le monde 3D a des tâches claires qui changent séquentiellement de telle sorte que l'expérience acquise dans la résolution de chaque tâche précédente s'avère utile pour l'IA au cours de la résolution de la suivante.

L'avantage de l'environnement 3D est qu'il peut être utilisé pour entraîner des systèmes informatiques à répondre à divers problèmes auxquels un robot peut s'attendre dans le monde réel. Avec l'aide d'un tel simulateur, les robots industriels sont formés sans aucun problème. Et travailler avec un environnement virtuel est exceptionnellement plus facile dans certains cas que de former de tels systèmes « manuellement ».

Parallèlement, la plupart des réseaux de neurones modernes sont développés pour résoudre un problème spécifique (le traitement d'images, par exemple). Les développeurs de la nouvelle plate-forme promettent qu'elle aidera à créer une forme universelle d'IA capable de résoudre un grand nombre de Tâches. De plus, dans ce cas, le système informatique n'aura pas besoin de l'aide de personnes. La génération de l'environnement pour le réseau de neurones se produit à chaque fois dans un ordre aléatoire.

Selon les développeurs de la plate-forme, cela aide à apprendre l'IA de la même manière que les enfants apprennent. "Comment avez-vous ou moi exploré le monde en tant qu'enfant", a donné un exemple d'un employé de DeepMind. « La communauté de l'apprentissage automatique a toujours été très ouverte. Nous publions environ 100 articles par an, et nous open source nombre de nos projets."

Maintenant, Google DeepMind a ouvert le code source de DeepMind Lab, l'a publié sur GitHub. Grâce à cela, n'importe qui peut télécharger le code de la plateforme et le modifier en fonction de ses besoins. Les représentants du projet affirment que les spécialistes connectés peuvent créer eux-mêmes de nouveaux niveaux de jeu en téléchargeant leurs propres projets sur GitHub. Cela peut aider l'ensemble de la communauté à atteindre son objectif plus rapidement et plus efficacement.

Ce projet n'est pas le seul pour DeepMind. Le mois dernier, ses représentants ont conclu un accord de coopération avec Activision Blizzard Inc. L'objectif est l'environnement de Starcraft 2 dans le terrain d'essai de l'intelligence artificielle. Peut-être que d'autres développeurs de jeux rejoindront bientôt ce projet. Soit dit en passant, l'IA dans l'environnement de jeu n'obtient aucun avantage sur l'ennemi, ne l'utilisant que pour l'avancement, comme une personne.

En pratique, cela signifie que Google AI devra prédire ce que fait l'ennemi à un moment donné afin de répondre de manière adéquate aux actions de "l'ennemi". De plus, il faudra réagir rapidement à ce qui a dérapé du plan. Tout cela testera le prochain niveau de capacités d'intelligence artificielle. "En fin de compte, nous voulons appliquer ces capacités pour résoudre des problèmes mondiaux", a déclaré Demis Hassabis, fondateur de Deepmind (qui a été racheté par Google en 2014, et maintenant l'IA est développée sur la base des réalisations de la société acquise).

Les experts en intelligence artificielle approuvent prudemment le projet. "La bonne chose est qu'ils fournissent un grand nombre de types d'environnement", a déclaré le co-fondateur d'OpenAI, Ilya Sutskevar. "Qu'avec gros montant types d'environnement rencontrés par le système, plus il évoluera rapidement », a-t-il poursuivi. En effet, l'environnement d'apprentissage 3D AI contient plus de 1000 niveaux et types d'environnement.

Zoubin Gahrahmani, professeur à Cambridge, estime que le DeepMind Lab et d'autres plateformes d'amélioration du développement de l'intelligence artificielle font avancer les choses en permettant aux chercheurs d'accéder à l'environnement développé. Cependant, des projets comme

Actuellement, de nombreuses entreprises sont engagées dans le développement de l'intelligence artificielle (IA). Ses formes les plus simples ont déjà été créées, capables d'effectuer des opérations mentales primitives.

Géant de l'internet Google activement engagé dans le développement de l'IA. En 2014, cette société a acquis une start-up profondEspritLes technologies Fait intéressant, c'est Deep Mind Technologies qui a développé un appareil qui combine les propriétés d'un réseau de neurones et les capacités de calcul d'un ordinateur. Les scientifiques sont convaincus que ce développement rapprochera l'humanité de la création d'une intelligence artificielle à part entière.

L'appareil Deep Mind Technologies est un ordinateur qui reproduit la façon dont le cerveau humain stocke et gère les informations, à savoir le département de la mémoire à court terme. La base de l'appareil est une sorte de réseau de neurones, dont la structure est similaire à la structure du cerveau humain, constituée de neurones interconnectés. La particularité de l'IA est qu'après avoir effectué une série de tâches simples, l'ordinateur peut utiliser les données stockées pour effectuer des tâches plus complexes. Ainsi, l'IA a la propriété d'auto-apprentissage et le désir d'évolution, ce qui peut finalement conduire à une confrontation entre l'IA et les humains.

Selon le physicien de renommée mondiale Stephen Hawking, l'intelligence artificielle constitue une menace pour l'humanité. Il l'a déclaré dans une interview à la BBC : « Les formes primitives d'intelligence artificielle qui existent aujourd'hui ont prouvé leur utilité. Cependant, je pense que le développement d'une intelligence artificielle à part entière pourrait mettre fin à la race humaine. Tôt ou tard, l'homme créera une machine qui deviendra incontrôlable et surpassera son créateur. Un tel esprit prendra l'initiative et s'améliorera à un rythme toujours croissant. Les possibilités des gens sont limitées par une évolution trop lente, nous ne pourrons pas rivaliser avec la vitesse des machines et nous perdrons.

L'opinion de Hawking est également partagée par d'autres scientifiques et spécialistes, dont Elon Musk, un entrepreneur informatique américain bien connu et créateur de Tesla et Space X. Musk a déclaré que l'IA peut être plus dangereuse que les armes nucléaires et constitue une menace sérieuse pour l'existence de l'humanité.

Google s'est fixé pour objectif de créer une superintelligence d'ici 2030. Cette superintelligence sera embarquée dans un système informatique, notamment dans Internet. Au moment où l'utilisateur recherche une information, la superintelligence va analyser le psychotype de cette personne et lui donner les informations qu'il juge appropriées. Eric Schmidt, président du conseil d'administration de Google, écrit à ce sujet dans son livre. Et à ceux qui refusent de se connecter à ce système, il propose de les considérer comme des sujets potentiellement dangereux pour l'Etat. On suppose que pour la mise en œuvre du fonctionnement de ce système, un le cadre législatif au niveau de l'État.

Ainsi, la superintelligence développée deviendra un instrument global de contrôle sur l'humanité. Avec l'avènement de la superintelligence, une personne cessera de faire de la science, cela sera fait par la superintelligence, qui sera plusieurs fois supérieure au cerveau humain dans tous les aspects de sa manifestation.

Référence:

Surmental est tout esprit largement supérieur aux esprits dominants de l'humanité dans presque tous les domaines, y compris une variété de recherches scientifiques, de compétences sociales et d'autres domaines.

Le résultat de la création du supramental sera que espèce humaine cessera d'être la forme de vie la plus intelligente dans la partie de l'univers que nous connaissons. Certains chercheurs pensent que la création d'une superintelligence est la dernière étape de l'évolution humaine, ainsi que la dernière invention que l'humanité devra faire. Parce qu'il est supposé que les supramentaux seront capables de s'occuper indépendamment du progrès scientifique et technologique ultérieur beaucoup plus efficacement que les gens.

Informations pour la réflexion :

Depuis 2007, un hôtel britannique accueille la conférence annuelle Google Zeitgeist. Fait intéressant, non seulement les spécialistes de la haute technologie et les représentants des sociétés transnationales et des banques internationales participent à cette réunion. On peut en conclure que les dirigeants des entreprises transcontinentales et des banques internationales sont intéressés à créer une superintelligence, et éventuellement à financer ce projet.

Rasoul Girayalaev

Les chercheurs de Google Deepmind ont dévoilé un nouveau type de système d'intelligence artificielle, le soi-disant Differentiable Neural Computer, DNC. Le système combine la facilité d'apprentissage des réseaux de neurones avec les capacités déductives de l'IA traditionnelle. Sa description a été publiée dans le magazine Nature, nouveau travail est consacré dans le même numéro du magazine, un bref récit de l'œuvre peut être trouvé sur le blog Deepmind.

Les réseaux de neurones les plus simples sont un système de prédiction, de régression, dont la tâche est de faire correspondre les données d'entrée avec une certaine réponse. Par exemple, un simple réseau de neurones peut reconnaître des caractères en fonction de leurs images. En ce sens, le réseau de neurones peut être considéré comme une fonction mathématique, et une fonction différentiable. Entraîner un réseau de neurones dans un tel paradigme signifie optimiser cette fonction à l'aide de méthodes mathématiques standard (une explication accessible de la façon dont l'entraînement se produit peut être lue).

La capacité d'apprendre à partir de données sans programmation humaine directe est le principal avantage des réseaux de neurones. Cependant, les réseaux de neurones les plus simples ne sont pas complets de Turing, c'est-à-dire qu'ils ne peuvent pas faire tous choses dont les programmes algorithmiques traditionnels sont capables (ce qui, cependant, ne signifie pas qu'ils ne peuvent pas faire quelques de ces choses sont meilleures que les programmes). L'une des raisons en est le manque de mémoire dans les réseaux de neurones, avec lesquels vous pouvez opérer avec des données d'entrée et stocker des variables locales.

Relativement récemment, un type plus complexe de réseaux de neurones est apparu, dans lequel cet inconvénient a été éliminé - les réseaux de neurones dits récurrents. Ils stockent non seulement des informations sur l'état d'apprentissage (une matrice de poids des neurones), mais également des informations sur l'état précédent des neurones eux-mêmes. En conséquence, la réponse d'un tel réseau de neurones est influencée non seulement par les données d'entrée et la matrice de pondération, mais également par son historique immédiat. Le réseau de neurones le plus simple de ce type peut, par exemple, prédire « intelligemment » le caractère suivant dans le texte : en entraînant le réseau de neurones sur les données du dictionnaire, il sera possible d'obtenir la réponse « l » pour le caractère « l » si les caractères précédents étaient "h", "e" et "l", mais une réponse différente est "o", si les caractères précédents étaient "h", "e", "l" et encore "l" (le mot " bonjour » se révélera, voir encadré).

Un exemple de réseau neuronal récurrent avec une couche cachée. Vous pouvez voir comment le flux de données modifie l'état du réseau. Les poids entraînés des neurones sont stockés dans les matrices W_xh, W_hy et une matrice spéciale W_hh, qui n'est typique que pour les réseaux récurrents.

Le blog d'Andrej Karpathy

Les réseaux de neurones récurrents se sont très bien montrés lors de la génération de musique ou de texte "dans le style" d'un auteur, sur le corpus duquel la formation a eu lieu, dans * et, récemment, dans des systèmes et ainsi de suite (par exemple,).

Formellement parlant, même les réseaux de neurones récurrents les plus simples sont Turing-complets, mais leur inconvénient majeur réside dans la nature implicite de l'utilisation de la mémoire. Si dans la machine de Turing la mémoire et le calculateur sont séparés (ce qui permet de changer leur architecture de différentes manières), alors dans les réseaux de neurones récurrents, même dans les plus avancés d'entre eux (LSTM), la dimension et la nature de la gestion de la mémoire est déterminé par l'architecture du réseau de neurones lui-même.

Pour corriger ce défaut inhérent aux réseaux LSTM, les scientifiques de DeepMind (qui font tous partie de l'équipe des auteurs du nouvel article) ont récemment proposé l'architecture des soi-disant Neural Turing Machines (Neural Turing Machines). Dans celui-ci, la calculatrice et la mémoire sont séparées, comme dans les machines de Turing ordinaires, mais en même temps, le système conserve les propriétés d'une fonction différentiable, ce qui signifie qu'il peut être entraîné par des exemples (en utilisant la méthode de rétropropagation) plutôt qu'explicitement. programmé. Le nouveau système, un ordinateur neuronal différentiable, ou DNC, est basé sur la même architecture, mais la communication entre la calculatrice et la mémoire est organisée de manière beaucoup plus flexible : il met en œuvre les concepts non seulement de mémorisation, mais aussi de reconnaissance contextuelle et d'oubli. (une section distincte est consacrée à la comparaison des deux systèmes). nouvel article).

De manière simpliste, le travail de DNC peut être représenté comme suit. Le système se compose d'une calculatrice, qui peut être jouée par presque n'importe quel réseau neuronal récurrent, et d'une mémoire. La calculatrice a des modules spéciaux pour accéder à la mémoire, et au-dessus de la mémoire il y a un "add-on" spécial sous la forme d'une matrice qui stocke l'historique de son utilisation (plus de détails ci-dessous). La mémoire est une matrice NxM, où N i lignes sont les cellules principales où sont écrites les données (sous forme de vecteurs de dimension M).

Architecture DNC : les lignes de données sont représentées par des lignes avec des carrés noirs et blancs - elles représentent simplement des nombres positifs et négatifs dans le vecteur. On peut voir que la lecture a trois modules de travail C, B et F, c'est-à-dire associatif, direct et inverse - ce sont des moyens de comparer le vecteur d'entrée avec le vecteur dans la cellule mémoire. La mémoire est N×M. La plus à droite montre schématiquement une matrice N × N "méta-mémoire" qui stocke la séquence d'accès à la mémoire.

La principale différence entre DNC et les systèmes associés est la nature de la gestion de la mémoire. Elle met en œuvre simultanément plusieurs concepts nouveaux ou récemment apparus : l'attention sélective, la recherche contextuelle, le rappel par association et l'oubli. Par exemple, si les ordinateurs ordinaires accèdent explicitement à la mémoire ("écrire des données telles ou telles dans une cellule telle ou telle"), alors dans DNC, formellement parlant, l'écriture se produit dans toutes les cellules à la fois, cependant, le degré d'influence des nouvelles données sur les anciens sont déterminés par le poids de l'attention portée aux différentes cellules. Une telle implémentation du concept est appelée "attention douce", et c'est précisément cela qui assure la différenciabilité - les systèmes avec une attention dure ne satisfont pas à l'exigence de continuité de fonction et ne peuvent pas être entraînés à l'aide de la méthode de rétropropagation (l'apprentissage par renforcement est utilisé). Cependant, même "l'attention douce" dans le système DNC est implémentée "plutôt dur" dans la pratique, donc on peut toujours parler d'écriture ou de lecture à partir d'une certaine ligne de la matrice mémoire.

"Soft attention" est mis en œuvre dans le système en trois modes. La première est la recherche contextuelle, qui permet à la DNC de compléter des données incomplètes. Par exemple, lorsque l'entrée de la calculatrice est un morceau d'une séquence qui ressemble à celle déjà stockée en mémoire, alors l'opérateur de lecture avec attention dans le mode de recherche de contexte trouve la chaîne la plus proche dans la composition et la "mélange" avec les données d'entrée .

Deuxièmement, l'attention portée aux différentes parties de la mémoire peut être déterminée par l'historique de son utilisation. Cet historique est stocké dans une matrice NxN, où chaque cellule N(i,j) correspond à un score proche de 1 si l'entrée en ligne i était suivie d'une entrée en ligne j (ou zéro sinon). Cette "matrice méta-mémoire" est l'une des différences fondamentales entre le nouveau système DNC et l'ancien NTM. Il permet au système de "mémoriser" séquentiellement des blocs de données s'ils se produisent fréquemment dans le contexte les uns des autres.

Troisièmement, un mode d'attention spécial permet au système de contrôler l'écriture sur différentes lignes de la mémoire : pour stocker l'important et effacer l'inimportant. Une ligne est considérée comme plus complète que plus une fois écrit, mais la lecture d'une ligne peut, au contraire, conduire à son effacement progressif. L'utilité d'une telle fonction s'avère évidente dans l'exemple d'un apprentissage basé sur la DNC d'un simple répéteur (le réseau de neurones doit reproduire fidèlement la séquence de données qui lui a été fournie). Pour une telle tâche, avec la possibilité d'effacer, même une petite quantité de mémoire suffit pour répéter un nombre illimité de données. Il convient de noter ici qu'il est très facile d'implémenter un répéteur par programmation, mais le faire sur la base d'un réseau de neurones, en raison de l'apprentissage par renforcement, est une tâche beaucoup plus difficile.

Schéma de fonctionnement d'un répéteur mis en œuvre sur la base de DNC. Le temps sur le diagramme va de gauche à droite. Le haut montre les données que le contrôleur reçoit à l'entrée : d'abord, une colonne de dix barres noires (toutes des zéros), puis plusieurs blanches et noires, puis à nouveau plusieurs blanches et noires, mais dans un ordre différent. En bas, là où la sortie du contrôleur s'affiche de la même manière, on voit d'abord des barres noires, puis une reproduction quasi exacte de la séquence des motifs (la même tache blanche que sur l'entrée). Ensuite, une nouvelle séquence est introduite dans l'entrée - avec un retard, elle est à nouveau reproduite à la sortie. Le graphique du milieu montre ce qui se passe à ce moment avec les cellules de mémoire. Carrés verts - écriture, roses - lecture. La saturation montre le "pouvoir de l'attention" à cette cellule particulière. On peut voir comment le système écrit d'abord les motifs reçus dans la cellule 0, puis 1, et ainsi de suite jusqu'à 4. À l'étape suivante, le système ne reçoit à nouveau que des zéros (champ noir) et par conséquent, il arrête l'enregistrement et commence à jouer. modèles, les lisant à partir de cellules dans la même séquence, comment ils y sont arrivés. Tout en bas, l'activation des portes qui contrôlent la libération de la mémoire est indiquée.

Alex Graves et al., Nature, 2016

Les scientifiques ont testé le système résultant dans plusieurs tâches de test. Le premier d'entre eux était le test de compréhension de texte standardisé récemment développé, bAbI, développé par des chercheurs de Facebook. Dans celui-ci, le système d'IA reçoit un court texte où certains héros agissent, puis vous devez répondre à une question en fonction du texte ("John est allé au jardin, Mary a pris une bouteille de lait, John est retourné à la maison . Question : Où est Jean ? »).

Dans ce test synthétique nouveau système a montré un taux d'erreur record : 3,8 % contre 7,5 % du record précédent - en cela, il a surpassé à la fois les réseaux de neurones LSTM et NTM. Fait intéressant, dans ce cas, tout ce que le système a reçu à l'entrée était une séquence de mots qui, pour un réseau de neurones non formé, n'avait aucun sens au début. Dans le même temps, les systèmes d'IA traditionnels ayant déjà réussi ce test recevaient auparavant des phrases bien formalisées avec une structure rigide : action, acteur, vérité, etc. Le réseau neuronal récurrent à mémoire dédiée a pu comprendre le rôle des mots. dans les mêmes phrases de manière totalement indépendante.

Un test significativement plus difficile était le test de compréhension graphique. Il a également été mis en œuvre sous la forme d'une séquence de phrases, mais cette fois elles décrivaient la structure d'un réseau : un vrai métro londonien ou un arbre généalogique typique. La similitude avec le test bAbI réside dans le fait que les acteurs du texte standardisé peuvent aussi être représentés comme des nœuds de graphe, et leurs relations comme des arêtes. En même temps, dans les textes bAbI, le graphe s'avère assez primitif, incomparable avec la taille du métro de Londres (la complexité de la compréhension du schéma du métro par un réseau de neurones peut être mieux comprise si l'on se souvient que sa description est donné en mots et non sous forme d'image : essayez de mémoriser vous-même le schéma du métro de n'importe quelle grande ville et apprenez à répondre aux questions à ce sujet).

Après avoir été formé sur un million d'exemples, l'ordinateur DNC a appris à répondre aux questions du métro avec une précision de 98,8 %, tandis que le système basé sur LSTM n'a presque pas fait face à la tâche - il n'a donné que 37 % de réponses correctes (les chiffres sont donnés pour la tâche la plus simple comme "où vais-je finir si je passe tant de stations sur telle ou telle ligne, change de place là-bas, et passe tant d'autres stations." Le problème de la distance la plus courte entre deux stations s'est avéré plus difficile, mais le DNC y a également fait face).

Une expérience similaire a été menée avec un arbre généalogique : le programme a reçu une séquence de phrases formelles sur les relations de parenté dans une famille nombreuse, et il devait répondre à des questions comme "qui est le deuxième cousin de Masha du côté de sa mère". Les deux problèmes se réduisent à trouver un chemin sur un graphe, ce qui se résout tout simplement de manière traditionnelle. Cependant, la valeur du travail réside dans le fait que dans ce cas, le réseau de neurones a trouvé une solution de manière totalement indépendante, basée non pas sur des algorithmes connus des mathématiques, mais sur la base d'exemples et d'un système de renforcement lors de la formation.

Graphique de la vitesse de résolution du problème SHRDLU par les systèmes DNC (vert) et LSTM (bleu).

Le troisième test était un test SHRDLU "classique" légèrement simplifié, dans lequel vous devez déplacer certains objets virtuels dans l'espace virtuel conformément à un résultat final spécifique que vous devez obtenir à la fin. Le système DNC a de nouveau reçu une description de l'état actuel de l'espace virtuel sous forme de phrases formalisées, puis il a reçu une tâche de la même manière et il a répondu avec un texte cohérent sur la façon de déplacer des objets. Comme dans d'autres tests, DNC s'est avéré nettement plus efficace que les systèmes LSTM, ce qui ressort clairement des graphiques de taux d'apprentissage.

Au risque de répéter encore une fois des évidences, je ne peux que souligner que l'apparente simplicité des tâches sur lesquelles DNC a été testé est vraiment apparente. En ce sens qu'il ne reflète pas la complexité des problèmes réels qu'un système comme DNC pourra traiter à l'avenir. Bien sûr, du point de vue des algorithmes existants, la tâche de trouver un chemin dans le métro est tout simplement absurde - n'importe qui peut télécharger une application sur son téléphone qui peut le faire. Il calcule également le temps avec les transferts et indique dans quelle voiture il vaut mieux s'asseoir. Mais après tout, tous ces programmes ont jusqu'à présent été créés par une personne, et dans DNC, il est «né» par lui-même, en train d'apprendre à partir d'exemples.

En fait, dans la simplicité des tâches de test réside une très chose importante dont vous voulez parler. L'un des plus grands défis de l'apprentissage automatique est de savoir où obtenir les données sur lesquelles former le système. Recevez ces données "à la main", c'est-à-dire créer soi-même ou avec l'aide de personnes embauchées, trop cher. Tout projet d'apprentissage des mathématiques a besoin d'un algorithme simple qui peut créer facilement et à moindre coût des gigaoctets de nouvelles données pour la formation (enfin, ou vous devez accéder à des bases de données prêtes à l'emploi). Exemple classique: pour tester les systèmes de reconnaissance de caractères, les gens n'écrivent pas de nouvelles et nouvelles lettres avec leurs mains, mais utilisent un programme simple, ce qui déforme les images déjà existantes. Si vous n'avez pas bon algorithme pour obtenir un échantillon d'apprentissage (ou, par exemple, un tel algorithme ne peut pas être créé en principe), alors le succès du développement sera à peu près le même que celui de la bioinformatique médicale, qui est obligée de ne travailler qu'avec du vrai et vraiment «doré» data (en un mot : pas très réussi).

C'est ici que les auteurs de l'article se sont révélés utiles avec des algorithmes prêts à l'emploi pour résoudre des problèmes sur un graphique - juste pour obtenir des millions de paires correctes de questions et de réponses. Il ne fait aucun doute que la facilité de création d'un échantillon d'apprentissage a déterminé la nature des tests qui ont testé le nouveau système. Cependant, il est important de rappeler que l'architecture DNC elle-même n'a rien à voir avec la simplicité de ces tests. Après tout, même les réseaux de neurones récurrents les plus primitifs peuvent non seulement traduire des textes et décrire des images, mais aussi écrire ou générer des croquis (à l'oreille de l'auteur, bien sûr). Que dire de systèmes aussi avancés et vraiment "intelligents" que DNC.

Alexandre Erchov

Vous pourriez être intéressé par les matériaux suivants