Как было показано в предыдущих обзорах по пространственным системам передачи звука («Шоу-Мастер», № 4-2003), на протяжении уже десятков лет идут попытки передачи по каналам звукозаписи, звукопередачи и звуковоспроизведения информации об окружающем трехмерном звуковом пространстве.
Все существующее в настоящее время огромное многообразие пространственных систем звукопередачи можно условно представить в виде структурной схемы (см. рис. 1):
Рис. 1. Общая структура пространственных систем передачи звука
где N1 – число входных каналов, по которым звуковой сигнал поступает в микшерный пульт от внешних источников (микрофонов, магнитофонов, проигрывателей и др.), N2 – число выходных каналов из микшерного пульта, по которым сигнал поступает в кодирующее устройство, N3 – число каналов передачи, N4 – число каналов звуковоспроизведения после декодирования.
Все существующие системы пространственной звукопередачи могут быть классифицированы по числу каналов звукопередачи, по выбору системы микрофонов, по способу кодирования многоканальных сигналов в заданное число каналов передачи, по способу декодирования и способу воспроизведения, а также и по другим критериям.
Из огромного многообразия пространственных систем, разработанных на разных этапах их развития, наибольшее распространение получили:
– монофонические системы (N1, 1, 1, 1), в которых все многообразие сигналов, записанных различными микрофонами на микшерном пульте, сводится в один канал, передается по одному каналу и воспроизводится через один громкоговоритель во вторичном помещении. При такой системе звукопередачи ощущение пространственности первичного помещения теряется, звук исходит из одной точки. При этом естественность тембров инструментов и голоса также полностью передать невозможно. Были попытки улучшить эту систему введением
дополнительных громкоговорителей при воспроизведении (квазистереофония), но принципиально это не улучшило ситуации. Однако в силу своей простоты для технической реализации этот способ звукопередачи широко использовался в течении нескольких десятилетий (и используется в отечественном телевидении и радиовещании до сих пор);
– стереофонические системы ( N1, 2, 2, 2) – исходное множество первичных сигналов с (N1) группируется в два канала передачи: левый (Л) и правый (П). Для этого используются различные системы микрофонов и панорамно-кодирующие устройства на микшерном пульте. Сущность стереоэффекта заключается в том, что когда на левый и правый слуховой каналы слушателя поступают одинаковые сигналы от левого и правого громкоговорителей, возникает ощущение «кажущегося (мнимого) звукового образа», расположенного в центре. Выбирая различные сочетания амплитуд и фаз при сложении первичных сигналов, можно управлять расположением звукового образа в плоскости расположения громкоговорителей при воспроизведении. Совокупность всех кажущихся звуковых источников, различающихся по месту в пространстве, образуют стереопанораму. Зона расположения слушателей, ощущающих эту панораму (стереозону), ограничена по размерам. Выход за пределы этой зоны ухудшает восприятие стереопанорамы. Переход на стереосистемы существенно улучшил качество воспроизведения звука, появилось ощущение пространственности, улучшилась правильность передачи тембров, прозрачность звучания инструментов и т.д.
Дальнейшие шаги по улучшению пространственной звукопередачи привели к созданию квадрофонических систем с четырьмя каналами передачи (N1, 4, 4, 4) , которые оказались экономически неэффективными. Были предложены различные варианты стереоамбиофонических систем и др.;
– матричные стереофонические системы – принцип работы таких систем заключается в следующем (см. рис. 2):
Рис. 2. Принцип построения матричной стереосистемы
из множества сигналов, записанных на первичном конце, формируется на выходе микшерного пульта определенное количество каналов N2, которые кодируются по определенному закону с помощью специального кодера (ПКУ) в два канала, передаются по двум каналам и затем декодируются на приемном конце по определенному алгоритму с помощью декодера (ДКУ) в определенное количество каналов, например, в шесть (система 5. 1) или восемь (7. 1) и т.д. Ведущая роль в разработке таких систем принадлежит лаборатории Долби (США). В России также были разработаны звуковые системы такого типа: «Суперфон-35» и «АВС-стерео». Среди наиболее используемых матричных стереофонических систем можно выделить следующие.
Система Dolby-Surround. В ней используется матричный кодер, который по определенному алгоритму кодирует аналоговый четырехканальный звук в два канала передачи. Кодированный программный материал полностью совместим с обычными стерео- и моносистемами звукопередачи и звуковоспроизведения.
Система Dolby Pro-Logic. Это следующий этап усовершенствования пространственных систем. В ней используется более усовершенствованная модель активного адаптивного декодера двумя усилителями, в котором обеспечивается формирование реального сигнала для центрального канала, перераспределение мощности выходных сигналов с целью точной передачи доминирующего направления и т.д. Все эти системы работают с аналоговыми сигналами.
Система Dolby-Digital. Это цифровая система, использующая технологию АС-3 для сжатия цифрового потока. Система позволяет в едином цифровом потоке передавать информацию для шести каналов воспроизведения: левого (L), правого (R), центрального (C), двух тыловых (стерео LS, RS) и одного низкочастотного (LFE). Стандартизованный вариант расстановки громкоговорителей показан на рис. 3.
Рис. 3. Расстановка громкоговорителей для системы Surround Sound 5. 1
Система осуществляет передачу сигналов с диапазоном частот 20-20000 Гц (для низкочастотного блока 20-120 Гц), с частотой дискретизации 48 кГц и разрядностью 18 бит, с использованием новых алгоритмов перцептуального кодирования для сжатия сигналов (без потери качества) и более эффективного шумоподавления.
Данный формат достаточно универсален и используется в телевидении, кино, радиовещании, домашних аудио-видео комплексах и системах мультимедиа.
В последние годы для профессионального применения была разработана расширенная система Dolby Digital EX, где предусмотрена раздельная передача информации для семи каналов (трех фронтальных и трех тыловых). Кроме этого, продолжают развиваться и другие форматы передачи пространственного звука для профессиональных и бытовых систем – DTS, SDDS и др.
Дальнейшее развитие этих систем упирается в проблему наращивания числа каналов для более точной передачи пространственной информации (в идеале число таких каналов должно быть бесконечно велико, поскольку отраженные сигналы, формирующие у слушателя ощущение пространственного звука, приходят из различных направлений пространства). Исследования Блауерта показали, что число таких каналов может не превышать 15, т.к. дальнейшее их увеличение не приводит к существенному улучшению пространственного восприятия.
В связи с этим в последние годы большое внимание привлекает альтернативная система передачи звука – бинауральная стереофония. Ее задача состоит в том, чтобы передать по двум каналам связи информацию о сигналах, поступивших непосредственно в слуховые каналы слушателей (т.е. уже обработанные ушными раковинами, которые выполняют функцию дифракционных фильтров). Если эту информацию донести до левого и правого уха слушателя, то у него возникают ощущения, что он находится в первичном звуковом пространстве – (рис. 4, примеры звучаний можно послушать в Интернете по адресу: www. binaural. com).
Рис. 4. Передача бинауральных сигналов через стереотелефоны
Первые попытки передачи пространственного звука были предприняты в 1881 году, когда Клемент Адер (Clement Ader) установил серию микрофонов на сцене парижской Оперы и сигналы от них подал по проводам к головным телефонам в некоторые комнаты ближайшего отеля. Слушатели впервые могли слышать пространственный звук, это был первый шаг к бинауральной стереофонии. Следующим шагом стали работы, выполненные в лаборатории Bell Labs и продемонстрированные в 1934 году.
Однако на пути развития бинауральной стереофонии стояли достаточно сложные технические проблемы, в первую очередь такие, как необходимость записи сигналов в слуховых проходах слушателя в первичном помещении, необходимость воспроизведения сигналов только через стереотелефоны, разработка методов подавления перекрестных связей при воспроизведении через громкоговори-тели и т.д.
На протяжении последних десятилетий исследования по внедрению бинауральной стереофонии достаточно активно развивались. Были созданы такие приборы, как «искусственная голова» (рис. 5), достаточно точно имитирующая форму головы и ушных раковин, с помощью которой стало возможно производить запись первичных сигналов. Были разработаны бифонические процессоры, обеспечивающие подавление перекрестных связей при воспроизведении через громкоговорители, примерная схема показана на рис. 6а, 6б, где t – линии задержки, равные времени прохождения сигнала от правого громкоговорителя к левому уху и наоборот, КФ1 и КФ2 – корректирующие фильтры, обеспечивающие компенсацию перекрестных сигналов при заданном положении громкоговорителей и фиксированных координатах слушателей. Принцип работы бифонических процессоров был запатентован в 1966 году лабораторией Atal and Schroeder at Bell Telephone Laboratories.
Рис. 5. Модель «искусственной» головы Кемар
Рис. 6. а. Принцип подавления перекрестных связей
Рис. 6. б. Схема бифонического процессора
Однако воссоздание пространственного звукового образа удавалось реализовать только для очень ограниченной зоны фактически при фиксированном положении слушателя. Даже смещение головы на 10-15 см вызывало значительное ухудшение локализации пространственного образа. При превышении времени стандартной реверберации выше 3-4 с во вторичном помещении также появлялись ошибки в определении азимутального направления источника в направлении «фронт-тыл».
При воспроизведении через стереотелефоны также возникали определенные проблемы, хотя при прослушивании бинауральных записей не возникало явления латерализации, т.е. локализации звукового образа внутри головы (как у обычных стереозаписей), но тем не менее оценка расстояния до источника была не очень точной, кроме того возникали ошибки в направлении «фронт-тыл», что связано с отсутствием визуальных признаков и отсутствием восприятия реверберации вторичного помещения, что также снижало ощущение натуральности звучания.
Кроме того, запись прямо на «искусственной голове» также по ряду причин не нашла широкого применения. Все это сдерживало развитие бинауральной стереофонии и ее коммерческое внедрение.
Однако по точности воссоздания первичного пространственного звукового образа (гулкости, теплоты и мягкости звучания) бинауральная система имеет существенные преимущества перед любыми стереофоническими системами. Поэтому за последние годы, особенно в связи с созданием трехмерных виртуальных звуковых и видеополей, резко вырос интерес к бинауральной стереофонии, соответственно, увеличилось количество публикаций, докладов на конгрессах AES и др.
Обзор результатов, полученных при решении проблем бинауральной стереофонии (по публикациям в JAES и докладам на последних конгрессах), является целью данной статьи.
Среди многочисленных работ можно выделить три главных направления исследований.
Первое. Создание бинауральных процессоров, которые из множества сигналов, записанных обычными микрофонами, формируют два бинауральных сигнала за счет “cвертки” их с передаточными функциями в правое и левое ухо, которые, в свою очередь, вычисляются с помощью компьютерных моделей головы и ушных раковин.
Второе. Подавление перекрестных связей при воспроизведении через громкоговорители с учетом движения головы и расширения зоны бинаурального эффекта.
Третье. Создание процессоров для стереотелефонов, позволяющих за счет обработки сигналов с учетом передаточной функции головы и ушных раковин и реверберационных процессов в помещении
обеспечить более точную локализацию пространственного образа и большую естественность звучания.
Создание бинауральных процессоров требует банка данных, включающих в себя передаточные функции (HRTF) и импульсные функции (BRIR) головы, которые измеряются обычно в заглушенных камерах без учета отражений звука, имеющих место в реальном помещении. Пример такой записи передаточных функций (т. е. частотных характеристик при разных угловых положениях источника) показан на рис. 7.
Рис. 7. Передаточные функции головы и ушных раковин для разных углов падения звука
Измерения обычно проводятся на некоторых усредненных моделях «искусственной головы», не учитывающих индивидуальные анатомические особенности ушных раковин.
В последние годы наметилась тенденция создания компьютерных моделей головы и разработка методов расчета численными методами передаточных функций (т.е. зависимости уровня звукового давления от частоты внутри слухового прохода) с учетом реверберационных процессов в окружающем пространстве и индивидуальных особенностей слушателя. Этим вопросам были посвящены доклады на 113 и 114 конгрессах, в последнем из них (препринт 5712)1, была предложена модель расчета передаточных функций численными методами с учетом отражений от головы и торса, т.к. для локализации звука существенными являются отражения от плеч, особенно в области низких частот. Упрощенная модель показана на рис. 8.
Рис. 8. Упрощенная модель головы и торса для расчета передаточных функций
Для компенсации ошибок при расчетах на упрощенной модели предлагается схема цифрового фильтра, имеющего разную структуру в зависимости от того, где находится источник звука - внутри или вне теневой зоны (рис. 9).
Рис. 9. Схема корректирующего фильтра
Специальные исследования были посвящены учету отраженных сигналов при расчетах HRTF и BRIR (доклад на 114 конгрессе препринт 5839). Добавление отраженных сигналов при расчете импульсных и передаточных функций улучшает реалистичность и пространственность воспринимаемого звукового образа, однако число этих добавленных отраженных сигналов может быть ограничено (что принципиально важно при создании компьютерных моделей). Было исследовано влияние первых отражений на точность локализации источника и показано, что наибольший вклад вносят добавленные отражения в пределах 15-200 мс, что и должно учитываться при расчете импульсных характеристик BRIR.
Чрезвычайно важной проблемой при разработке бинауральных систем является точность оценки локализации пространственного образа. Поскольку оценка является субъективной, достаточно сложно привести в соответствие ощущения по локализации источника в точное описание его координат в пространстве. В докладе на 114 конгрессе (препринт 5789) был предложен метод визуального определения локализации источника (рис. 10), который с помощью трехмерной компьютерной модели расположения головы позволяет слушателю достаточно точно указать графически расположение источника. Развивая этот метод, стали использовать специальные датчики, контролирующие движение головы слушателя, что позволяет производить оценку локализации бинаурального источника при изменении положения головы.
Рис. 10. Компьютерная модель визуализации пространственного образа
Интересным является способ бинауральной записи и воспроизведения звука с учетом движения головы, предложенный в докладе «Motion-Tracked Binaural Sound (MTB)» ученым из калифорнийского университета Р. Дуда и др., 116 конгресс, (препринт 6015). Для этого запись производится на группу микрофонов, расположенную на сфере диаметром, примерно равным размеру головы слушателя. С помощью датчика, расположенного на голове (например, инфракрасного) отмечается положение правого и левого уха слушателя. Если оно совпадает с положением какого-либо микрофона, то сигнал подается именно на этот микрофон, если нет, то производится интерполяция сигналов с ближайших микрофонов. Общая схема системы показана на рис. 11.
Рис. 11. Система записи MTB
Такая система MTB имеет несколько преимуществ перед существующими. Она создает стабильный пространственный образ, в котором положение мнимого источника соответствует позиции головы. Это уменьшает вероятность ошибок «фронт-тыл», которые иногда возникают при бинауральных записях. Кроме того, такой способ записи учитывает реверберационные процессы в помещении, что увеличивает ощущение реализма. Она позволяет передавать сигналы нескольким слушателям, которые могут смещать положение головы независимо друг от друга.
Разумеется, эта система еще требует определенной доработки, но полученные с ее помощью записи показывают интересные результаты.
При создании процессоров для обработки сигналов в стереотелефонах, как уже было сказано выше, используется банк данных передаточных и импульсных характеристик головы, измеренных, как правило, на системе «искусственная голова». Необходимо отметить, что значительные анатомические различия у разных людей не позволяют добиться полного исчезновения эффекта латерализации, при этом остается некоторое ощущение ненатуральности звукового пространства. В докладе на 116 конгрессе (препринт 6067) был предложен достаточно простой метод измерения индивидуальных передаточных характеристик (блок-схема измерений показана на рис. 12).
Рис. 12. Схема измерений индивидуальных передаточных функций
Сигналы от громкоговорителей записывались с помощью миниатюрных электретных микрофонов, установленных на входе в слуховой канал слушателя, полученные сигналы вводились в компьютер, где с помощью программы Матлаб производилось вычисление импульсных характеристик. Как показали результаты исследований, коррекция бифонических и дихотических (работающих со стереотелефонами) процессоров с учетом индивидуальных импульсных характеристик значительно улучшает натуральность пространственного восприятия.
Кроме процессорной обработки звука в стереотелефонах для «выноса» звукового образа из головы начали использоваться системы активного подавления шумов (113 конгресс, препринт 5713). Для этого также используются встроенные миниатюрные микрофоны, записывающие окружающую звуковую информацию, сигнал от которых поступает на процессоры, реализующие шумоподавление.
В результате ряда улучшений в технологии создания бифонических процессоров, в частности, методов, разработанных Д. Купером и Дж. Боуком, было создано их новое поколение, например, Harman VMAx (Virtual Multi-Axis system), позволившее значительно расширить зону оптимального пространственного эффекта с учетом движения головы слушателя.
Дальнейшее развитие бинауральных записей получило в работах финских ученых, выполненных в исследовательском центре фирмы Nokia, это чрезвычайно интересное направление (114 конгресс, препринт 5768 и 116 конгресс, препринт 6124). Идея состоит в создании трехмерного звукового пространства, объединяющего натуральные и синтезированные звуки (обогащенный виртуальный звуковой мир — почти из области фантастики). Для обозначения таких систем было предложено название MARA (mobile augmented reality audio) — мобильный обогащенный реальный звук, и WARA (wearable augmented reality audio) — переносный обогащенный реальный звук.
На стереотелефоны (для мобильных систем это миниатюрные вкладные телефоны) устанавливается миниатюрный микрофон (рис. 13).
Рис. 13. Размещение миниатюрных стереотелефонов с встроенным микрофоном
На эти стереотелефоны подаются бинауральные сигналы, записанные на искусственной голове или синтезированные и обработанные соответствующими фильтрами с учетом передаточных функций головы (HRTF). Одновременно с помощью встроенных микрофонов записываются реальные звуки из окружающего пространства. Затем с помощью специального микшера (Mixer ARA) происходит смешивание реальных звуков и синтезированных бинауральных звуков с их соответствующей цифровой процессорной обработкой. Общая схема системы показана на рис. 14.
Рис. 14. Общая схема построения систем MARA
Практическая реализация такой системы открывает очень широкие возможности. Можно обогащать натуральные звуки дополнительными эффектами (например, добавлять искусственную реверберацию), примешивать к ним дополнительные звуки (например, шум дождя), убирать шумы, изменять тембр, передавать какую-то дополнительную информацию и т. д. Эксперименты показали, что слушатели достаточно быстро адаптируются к такому перемешиванию натуральных и синтезированных звуков, воспринимая их как единый пространственный звуковой образ.
Применение такой системы (рис. 15) позволяет осуществить погружение одного слушателя в трехмерный пространственный мир другого (находящегося в совершенного другом месте) с помощью передачи в реальном времени бинауральной звуковой информации (вероятно, это скоро будет реализовано в мобильных телефонах). Если при этом еще будет передаваться пространственный видеообраз, то можно будет говорить о полном погружении слушателя в виртуальный мир собеседника.
Рис. 15. Передача бинауральной информации от одного слушателя к другому
Следует отметить, что развитие бинауральной стереофонии опираетс в основном на моделирование передаточных функций внешнего уха (ушной раковины и слухового прохода), однако в настоящее время ведутся интенсивные исследования (например, в известном центре «Институт коммуникационной акустики в Германии под руководством профессора Блауерта) по созданию компьютерных моделей слуховой системы с учетом обработки звука во внутреннем ухе и в различных отделах коры головного мозга. В частности, на 115 конгрессе (препринт 5864) были продемонстрированы компьютерные модели формирования бинаурального пространственного образа с учетом обработки левого и правого сигналов во внутреннем ухе и в нижних отделах коры головного мозга. Созданный «бинауральный пространственный образ» (binaural pattern) четко отражает особенности пространственного восприятия различных помещений и может служить критерием их оценки (рис. 16).
Рис. 16. Бинауральный пространственный образ (binaural pattern)
Полученные результаты служат основой для создания виртуальных пространственных звуковых и других миров (зрительных, обонятельных, осязательных и др.), обеспечивающих значительно больший реализм погружения человека в них. Правда, пока неясно, к чему это может привести. Создание ситуации, когда человек перестает отличать виртуальный мир от реального, мне кажется, очень рискованно. Однако посмотрим, что покажет будущее.