Нейросети, машинное обучение — светлое будущее, но пока с сюрпризами.

Современную трактовку нейросетей, а именно машинное(ML)/глубокое обучение(DL), называют новой вехой технического прогресса которая затронет каждого. Распознавание содержимого изображений, людей на фото, OCR(картинку в текст), переводы языков налету и другие менее явные сценарии , в настоящее время реализуются намного качественнее и быстрее чем несколько лет назад.

Некоторые отмечают, что ML/DL — это новое электричество, другие, что сейчас с ML/DL мы находимся на уровне как с SQL и БД в конце 70-ых, начало 80-ых.  И стоить заметить, что в итоге, в 2018 SQL БД присутствуют в каждом смартфоне, в виде SQLite, например для реализации «контакты» , и затрагивает жизнь каждого человека — БД в банках, ЖКХ, поликлиники, дневник ученика, и т.п.

Мне очень понравилось как инженеры Гугла смогли использовать суб-пиксели матрицы камеры и нейронку, чтобы достичь «портретного режима» с одной камерой, в отличии от iPhone 7+, 8, X — где dual камера.

Но недавно наткнулся на Хабре на интересную статью в которой рассказывается, что с помощью нейросети удалось ОЧЕНЬ сильно улучшить качество речи при малом битрейте.

Оригинал (1.3МБ):

Кодек без нейросети (3200 бит/с):

Кодек с нейросетью (3200 бит/с):

 

На первый взгляд, результат прекрасный, но в комментах раскрыли детали результата работы кодека:

В комментариях на Hacker News носители языка отметили, что многие слова после кодирования заменяются на другие, с похожим звучанием.

….

Более того, очевидно, что он может непредсказуемым образом изменить смысл передаваемой информации (на HN приводились примеры для английского, я уже не помню, но помню, что числительные менялись, типа 17->70 или наоборот).

Пускай армия США использует этот кодек. «Обнаружено 17 танков противника!» Или 70?

Я лично мало смысла вижу в таком кодировании, которое может радикально изменить смысл кодируемой информации.

 

И если, когда нейронка гугла ошибается в портретном режиме и это не смертельно, то становится немножко не по себе, когда ты не можешь понять, что «тут что-то не так».

На фото плохой результат работы «портретного» режима Google Pixel 2 — дырки в перспективе, разная степень размазывания и т.п.

UPDATE 31 июля:
—-