к.т.н. Руцков М.В.

 

Дурная наследственность II

 

А теперь рассмотрим ещё одно мультимедийное “чудо природы” – компрессию. Суть в том, что объёмы видеоданных оцифрованного телесигнала настолько велики, что не лезут никуда – ни в каналы связи, ни на какие-либо сменные цифровые носители. Ну, сами посудите,  при формате 720х576 пиксел (в цвете) и скорости 25 кадр/с,  получается поток порядка 20 Мбайт/с! Сначала был MPEG-1 –  этакое баловство, уступающее по качеству легендарным VHS-кассетам. А потом родили формат MPEG-2, который практически стал стандартом записи на DVD-диск. Хоть там и есть некоторые рекомендации - суть самого кодека особо не меняется. Это Дискретно-косинусное преобразование, которое выполняется над блоками 16х16 пиксел, используя межкадровую разность. Естественно формат MPEG-2 начали успешно использовать и в нашей области, хотя насчёт качества можно ещё и поспорить. Всё-таки одна из основных  функций охранного видеонаблюдения – просмотр стоп-кадров из архива.
            Однако аппетит приходит во время еды! Захотелось закатывать “голливудское добро” и на обыкновенные CD-болванки, а ещё гонять эти произведения кинематографа через Интернет (не безвозмездно естественно). Сказано – сделано! Появился MPEG-4. Так что ж это такое – стандарт или формат? На бытовом уровне – второе, а вот если использовать научный подход – первое. Само название MPEG происходит от  “Motion Picture Experts Group”. Вот тут-то – в четвёртой версии, в отличие от MPEG-1 и MPEG-2, “товарищи учёные” развернулись по полной программе.

Они решили написать рекомендации лет так, на 50 вперёд - каким образом собирать в одну кучу разнородную мультимедийную информацию: видео, аудио, текст, графику и т.д. Причём начали фантазировать на темы того, чего ещё и в помине нет. Ну, например - выделение на статическом фоне неких объектов типа: человек, автомобиль, лошадь, грабли и т.д. Фактически прозвучало, мол - когда изобретёте эти технологии, то вот вам наши рекомендации как всё это в единый мультимедийный поток запихивать! Отсюда самое глубокое заблуждение по поводу "фантастических" возможностей MPEG-4. Народ, прочитав эти рекомендации, причём не напрямую из самого документа, а из популярных статей некоторых горе-писателей - делает вывод, что в MPEG-4 уже реализованы не просто интеллектуальные видеодетекторы, а ещё и распознавание объектов, в придачу!!! Если б это было так, то мы - видеодетекторщики уж давно бы отдыхали, а юго-восточные системы гордо маршировали во все стороны!

            На самом деле речь идёт не о MPEG-4, а о видеокодеках,  которые в рамках этого стандарта применяются. Кстати все MPEG-и -1,2,4 используют общие принципы кодирования. Например, метод компенсации движения и другие, но об этом чуть позже. Так вот, в первых двух используется дискретно-косинусное преобразование - выполняется апроксимация внутри блока волновыми функциями: 8х8 для  MPEG-1 и  16х16  для MPEG-2. Отличия обусловлены разным уровнем вычислительной мощности для своего времени. А вот кодеков в рамках MPEG-4 уже столько, что пальцев на руках и ногах не хватит сосчитать. Не буду вдаваться в тонкости (у всех свои секреты), а попробую выделить несколько общих штрихов.

Итак - компенсация движения! В чём смысл? Обыкновенная межкадровая разность уж не позволяет жать шибко сильно - поэтому и придумали сие творение! Сначала можно подумать - как круто: выделяется объект и трассируется вдоль траектории. Да нет же конечно - просто берётся область (квадратно-гнездовая), а далее начинается поиск “методом елозинея" - ей подобной, по миниму иль максимуму некой компарирующей функции. Думаю, даже корреляция не используется, в силу её ресурсоёмкости. Определив новую позицию такого квадратика, можно теперь лишь задать вектор смещения и разность. Самое интересное - учитываются только лишь линейные сдвиги! Ежели объект вращается иль надвигается, а может быть меняет форму, да и яркость колыхнулась, то алгоритм уходит в глубокие раздумья и эффективность его резко падает. Однако  в мультимедийных "фильмах" такое происходит редко – там мы следим за крупными объектами. Даже если они и поворачиваются, то “квадратики”, их разбивающие, смещаются практически линейно. А теперь возьмём мелочёвку – человечек целиком вписывается в квадратик, да ещё машет там руками и ногами! В результате всё ломается и пропускается, особенно для кодеков с постоянным потоком. Но никто этого не замечает - сюжетом увлечены, да и мозг человеческий в движении мелких деталей не видит! А вот в архиве можно лишь более-менее рассмотреть - опорные кадры. Причём некоторые “умельцы” сочиняют самодельные алгоритмы, в которых  “опорники” расставлены в километре друг от друга. Тогда совсем – караул! Вот теперь и почувствуйте разницу, что такое - тупо тащить технологии из одной области в другую! Небо и земля!!!

Следующий “феномен” – сегментация. Идея заманчивая – зачем передавать по каналам связи пикселы. Давайте выделять на изображении области с примерно одинаковыми свойствами внутри – текстурами, и отсылать лишь их описание. Таким образом, степень компрессии возрастёт ещё больше! Естественно, получается  - усреднённая температура больных в больнице. Если более образно - текстура это, например, что-то типа: "кирпичной кладки" или "травы", хотя до таких высот в кодеках ещё не дошли. После сего кодирования и соответствующего декодирования - "кладка" замурует маленькую бойницу, из которого дуло торчало, а в "траве" потеряется кузнечик, сидевший там. И сожрала его не лягушка – прожорливое брюшко, а текстурная сегментация (зелёненький он был, как и трава)!  

            Но и на этом мультимедийная индустрия останавливаться не желает. Наверное, все видели шпионские фильмы, в которых резидент и центр общаются друг с другом шифровками. Причём у обеих сторон одинаковые книжки – передаются не слова, а их координаты (на какой странице, строке и внутри её). Теперь вообразите, что у вас не книжка, а альбом с картинками – слабо!!! Живое видео подменяется мультиком в режиме real-time! Даже трудно себе представить, к каким последствиям приведёт перетаскивание такой “чудо-технологии” в охранное видеонаблюдение. Думаете - не додумаются. Ошибаетесь – ещё как! Обязательно найдутся “умельцы”, которым лень подумать, а может быть и нечем. Главное - чтобы костюмчик сидел! Вспоминаю времена “перестройки” – порошок стиральный куда-то пропал. И  отлично на эту тему “Весёлые ребята” из одноимённой телепередачи прикололись – рекламный клип выдали. На нём вместо порошка выплывала коробка с “геркулесом”. А что, всё правильно – внешне не отличить!

            Ну и, наконец, поговорим о модном ныне явлении – “предугадывающих” алгоритмах. В первую очередь их собираются использовать в “интеллектуальном” деинтерлейсинге для борьбы с “гребёнкой”. Задача сама по себе абсурдная – из двух полей, между которыми 20 мс, сделать единый стоп-кадр. А в перспективе – дорисовывать фрагменты на слабоконтрастных изображениях. Может быть для целей мультимедиа это и хорошо. Ведь все MPEG-и и были задуманы для кинозрителей. Любая компрессия с потерями вносит искажения. Но и они бывают разными - в пределах удовольствия зрительного восприятия человеком и - раздражающими его! Обычно это раздражение возникает от шибко сильной компрессии, когда появляются, например - JPEG-лапти или та самая "гребёнка". Ну и другие, скажем, "диагональные усы" от WaveLet-а. Поэтому цель видеокодеков - "успокоить" глаз человеческий, даже путём микрообмана, фильтруя всё вдоль и поперёк! Однако у нас - в "царской охранке" совсем другая задача - правда и только, правда!!! Объясняю - в отличие от "Голливуда" имеем мелкие и слабоконтрастные детали, которые в первую очередь страдают от компрессоров! И никакие "алгоритмические гадалки" не способны выдать истину!

Немного нейрофизиологии и психологии зрения. Мозг (не глаз), причём не только у человека, построен на ассоциативном восприятии. Когда не хватает реальной информации, он сам её достраивает, исходя из своего жизненного опыта. Сами знаете, что может померещиться в потёмках или какие замысловатые "белогривые лошадки" возникают в облаках. Это не случайно - это помогает выживать! Лучше десять раз в час зайцу шарахнуться в сторону, чем единственный и последний раз в жизни быть съеденным совой, например. Это хорошо было бы для видеодетекторов, да и то в меру! Однако такие алгоритмы требуют по сути создания искусственного интеллектуального зрения с огромной базой "личного опыта"! Причём, всё очень индивидуально - миллиционерам мерещится одно, военным - другое, матерям – третье и т.д. Поэтому, при фиксации видеособытий в охранной области, такие вероятностные "дорисовывания" – абсолютно недопустимы!!! Можно и собаку Тузика нарисовать, и дуло "макарыча", или выдать кадр, в котором один человек тюкает другого не ножом, а бутылкой "клинского"!

Поэтому сейчас можно лишь констатировать – никакие “интеллектуальные” алгоритмы пока не могут сравниться с интеллектом мозга. Дистанция огромна! Никогда не забуду своего общения с врачами рентгенологами. Они смотрели на свои плёнки, как на творения импрессионистов. И приходилось лишь диву даваться – как они умудрялись из этой каши пикселов выделять те или иные патологии! 

 

Итак - сухой остаток!


1. MPEG-4 изначально предназначен для мультимедийных приложений.
2. В мультимедиа всё - крупно и контрастно! В охранном видеонаблюдении всё - мелко и тускло!
3. В мультимедиа зритель смотрит кино, в охранном видеонаблюдении – стоп-кадры!
4. В мультимедиа главная задача - не раздрожать глаз зрителя, пусть даже путём "художественного шаманства", в охранном видеонаблюдении - правда и только, правда, эксперты смотреть будут!

 

Таким образом, делаю вывод - использование MPEG-4 в охранном видеонаблюдении чревато! Это всё равно, что криминалисту выдать мобильный телефон с камерой вместо профессиональной фотоаппаратуры!!!

Об авторе: Руцков Михаил Вадимович, кандидат технических наук, директор       MegaPixel Ltd., e-mail mailto: megapixel@tochka.ru тел. (495)4129

 

Rambler's Top100