Google навчає роботів виконувати нові завдання в дитячому садку




У дитячому садочку, роботи дізнаються про відкриті двері.

Навчання є одним з найважливіших навичок роботи. Якщо вони навчаються накопичувати інформацію, яку вони потребують протягом часу, вони можуть використовуватися для виконання складних завдань, які не були попередньо запрограмовані. Завдання можуть бути дуже різними – від догляду за літніми і хворими в лікарнях для прибирання номерів. Однак, якщо ви повинні навчати кожного робота окремо, це займе величезну кількість часу. Що робити, якщо роботи навчають роботів? І які групи роботів навчаються разом?

Ця проблема не нова, вона була описана більше, ніж один раз науками. Фахівці з робототехніки та штучного інтелекту також намагаються вирішити цю проблему. Google зацікавить роботу, щоб навчатися. Можливо, один з найпростіших способів зробити речі, щоб створити спільну базу знань роботів, які збирають інформацію, зібрану кожною машиною.

Всі роботи повинні бути підключені до цієї бази. Якщо один робот дізнався щось, то всі інші дізнаються. У своїй роботі ми отримали хороші результати. Зокрема, акції, що виконуються однією з роботів, відразу ж стали власністю своїх колег.

Роботи можуть зробити те ж саме по-різному. Іноді вона отримує краще, іноді вона гірше. Будь-яка інформація про ці дії записана і отримана на сервері, де він обробляється за допомогою нейромережі. Когнітивна система оцінює дії кожної машини, і вибирає лише інформацію про позитивний досвід, відкидаючи дані про невдалі спроби виконати конкретне завдання. Роботи завантажують дані, оброблені нейромережею з певною частотою. І з кожним новим завантаженням вони працюють більш ефективно. У відео нижче робота дізнається процес відкриття дверей.


Після декількох годин навчання автомат передає інформацію про його дії в загальну мережу. В ході майстерування дверного отвору роботодавці дізнаються деталі цієї процедури, поступово «розумні» які ролі грає дверна ручка, і які необхідно зробити, щоб максимально швидко відкрити двері.


Вивчитися і похибка добре, але не ідеально. Люди і тварини, наприклад, можуть також аналізувати елементи їх навколишнього середовища, оцінити їх можливі наслідки на їх діях. Як вони ростуть старшими, як люди, так і тварини утворюють певну картину світу. Зрозуміло, що у людини набагато складніше, ніж у більшості тварин, але є подібні елементи в обох випадках.

Якими законами фізики впливають на їх дії. В одному експерименті робота була поставлена з вивченням різних об'єктів, поширених в будь-який будинок або офіс. Це олівці, ручки, книги та інші предмети. Роботи дізналися швидко і пропустили інформацію про їх «колегії». Команда роботів в короткий час отримала розуміння наслідків своїх дій.



У новому експерименті інженери інструктували роботу для переміщення конкретного об'єкта в даній точці. Система не отримала інструкцій про характер об'єкта. Об'єкти були постійно змінені. Це може бути пляшка води, може бути пиво, ручка або книга. Як виявилося, роботи зробили це завдання з використанням даних з попереднього досвіду взаємодії з реальним світом. Вони змогли розрахувати наслідки переміщення об'єкта на поверхні до потрібної точки.

Що про чоловіка?
Два попередні експерименти проводилися тільки роботи, без допомоги людини. За словами Google, навчання робототехнічних систем можна швидше, якщо людина допоможе машині. Після того, як людина може швидко розрахувати, що буде відбуватися в результаті виконання деяких дій. Наприклад, в одному досвіді людина допомогла іншим роботам відкрити двері різних типів. Кожна система має унікальні двері і замок.

Результатом стала єдина стратегія для всіх роботів, що називають «політика». Всі дії роботів були оброблені за допомогою глибокої нейромережі. Обробляється зображення з камер, що записує дії роботів, і передається вже оброблена інформація на центральний сервер у вигляді політики.


Роботи постійно покращили політику через пробну та похибку. Кожен робот спробував відкрити двері за допомогою останньої політики. Дії роботів все ще обробляється нейромережою і завантажується на сервер. З часом роботи стали набагато ефективніше, ніж перший раз.


Після того, як роботи стали успішними, кожен з інструкторів працює з роботами змінив умови завдання дещо. Зміни були міцними (постанова дверей, кут відкриття та ін.) але достатньо, щоб зробити раніше розроблену політику не зовсім підходить для нового завдання. Роботи поступово навчилися впоратися з новими умовами для себе, а пізніше навчилися виконувати найскладніші завдання відкриття різних дверей і замків. Фінальний експеримент показав ефективність цього типу навчання: роботи змогли відкрити двері та замки, які ще не зустрілися.


Автори проекту стверджують, що взаємодія роботів один з одним і центральним сховищем даних допомогло навчатися швидше і ефективніше. І використання нейромереж значно поліпшило попередні результати.

Перелік завдань, які можуть виконувати роботи. Вони борються з навіть найпростішими рухами і завданнями, такими як відкриття дверей або ліфтингові предмети. Люди все ще повинні розповісти про роботу, що робити і як діяти. Але алгоритми поступово покращуються, а нейромережі вже не дивно. Тому надії, що найближчим часом роботи ще зможуть виконувати складні завдання. Що таке майбутнє?

Джерело: geektimes.ru/post/281170/