Дослідження відновлюють звук від вібрації об'єкта на відео



Звук – це коливання певної частоти, яка пропагує в навколишньому просторі. Ці хвилі, що знаходяться поблизу об'єктів і викликають їх до досвіду коливань. Група дослідників в Массачусетському інституті технологій була в змозі частково відновити оригінальний звук з деякими спотворами на основі цих коливань, що бачили в відео.

У роботі Абе Девіс, Майкл Рубінштейн, Neil Wadhwa, Gautam Mysor, Fredo Durand і William Freeman використовували камеру, яка записала відео на кілька тисяч кадрів в секунду, і такі загальні і вібраційні елементи, як фольги, листя кімнатної рослини, обличчя коробки серветок або склянки води. Знаходження такої відеокамери в повсякденному житті буде досить складною, але їх інша техніка показала, що відновлення звуку можливо за допомогою звичайного запису 60 кадрів на секунду.

Якість відновленого звуку дозволяє окремі слова і має порівняно високі співвідношення сигналу. Відновлені аудіозаписи навіть дають можливість вільно відрізняти мову людини або використовувати послуги розпізнавання музики.

У наведеному вище відео, о 00:45 або на сторінці проекту відображається оригінальний звук (науковці використовували відомі пісні «Мари Хад Ламба» тим, хто цікавиться історією запису) і відновленим звучанням, тоді як вібрації на високочастотному відео не видно голого ока – вібрації досягають менше сотніпікселів.

Відео в 1:50 потім показує оригінальний звук, записаний мікрофоном стільникового телефону і відновлений звук мови людини. У той же час камера була на певній відстані від пакету чіпів, які випробували від звукових хвиль, і скла була розташована між ним і об'єктом, що підвищило складність завдання. Перші записані пісні Томаса Едісона.

У 2:35 показано, що послуги розпізнавання музики здатні «визнати» відновлені аудіозаписи, зокрема, пісня «Під тиском» королева була визнана.

Наведені результати були отримані з камер зі швидкістю зйомки тисяч кадрів за секунду. Але це також було показано, що артефакти з звичайних домашніх відеокамер (частково заглушка) іноді можуть використовуватися для виготовлення звуку при частоті набагато вище, ніж частота кадрів оригінального відео.

Результати модифікованої техніки можна побачити на 3:35, дослідники змогли відновити частоту понад п'ять разів вище, ніж частота кадрів відео. Використовуваний файл MIDI з мелодіями дитячої пісні.

Більше інформації та аудіозаписів доступні на сторінці проекту. Група дослідників обіцяє опублікувати код проекту найближчим часом.

Джерело: habrahabr.ru/post/232245/