Звуковые файлы [sound files, audio files]

Файлы, содержащие цифровую запись аудио-данных (голоса, музыкальных произведений или их фрагментов и других звуков любой природы). Существует два основных типа звуковых файлов: с оцифрованным звуком и с нотной записью (см. ниже). Звуковые файлы представляют собой неотъемлемую составную часть мультимедиа .

1. Файлы с оцифрованным звуком [digitized sound files] – Звуковые файлы, в которых исходная непрерывная (“аналоговая”) форма сигнала записана в виде последовательности коротких дискретных значений амплитуд звукового сигнала, измеренных (“выбранных”) через одинаковые промежутки времени и имеющих между собой весьма малый интервал. Процесс замены непрерывного сигнала последовательностью его значений называют дискретизацией [sampling ]. Такая форма записи называется импульсно-кодовой [pulse code ]. Аппаратная реализация обработки оцифрованного звука состоит в том, что АЦП преобразует аналоговый сигнал в множество цифровых замеров, а при воспроизведении цифро-аналоговый ЦАП осуществляет обратный процесс. Файлы с оцифрованным звуком бывают двух видов: с заголовком и без заголовка (см. в этом разделе ниже).

Основные понятия , термины и другие данные, связанные с оцифровкой звука [580-583]:

В соответствии с теоремой Котельникова, в сигнале, измеряемом с частотой дискретизации fд, не должны содержаться гармонические компоненты с частотами выше fд/2, иначе цифровое представление сигнала не будет адекватно аналоговому. Частоту fн = fд/2 называют частотой Найквиста. Это предельная частота, выше которой во входном сигнале не должно быть спектральных компонентов. Если в аналоговом сигнале присутствуют частоты выше fн, возникает эффект наложения спектров [aliasing ]. Поэтому полосу частот входных сигналов необходимо ограничить фильтром низких частот (ФНЧ), который в этом случае называется anti-aliasing фильтром. На практике максимально допустимая частота сигнала определяется частотой подавления ФНЧ (граничная частота, с которой начинается полоса подавления). Поскольку амплитудная характеристика фильтра за частотой среза спадает до нуля не перпендикулярно, а с некоторым наклоном, fд и частота среза должны разниться более чем вдвое [581].

 

Наиболее часто встречающиеся частоты дискретизации [581]:

Значение f д, Гц

Область применения и/или принцип выбора значения

5 500

1/4 частоты дискретизации ПК Macintosh

7 333

1/3 частоты дискретизации ПК Macintosh

8 000

Используется для ИКМ-канала телефонного сигнала с A -, мю-законами компандирования (Рекомендации G .711 и G .712 МККТТ). Рабочие станции NeXT используют частоту дискретизации 8012,82 Гц

11 025

1/2 частоты дискретизации ПК Macintosh , 1/4 частоты дискретизации компакт-диска ( CD)

16 000

Используется при сжатии в соответствии с Рекомендацией МККТТ G.722

18 900

Стандарт CD-ROM/XA

22 050

1/2 частоты дискретизации компакт-диска, частота дискретизации Macintosh (последняя в действительности 22254,54 Гц)

31 250

Цифровая запись звука в видеомагнитофонах системы Video-8 (PAL)

31 500

Цифровая запись звука в видеомагнитофонах системы Video-8 (NTSC)

32 000

Цифровое радиовещание, цифровые магнитофоны [ DAT - Digital Audio Tape].

34 629

Звуковой канал телевидения

37 800

Стандарт CD-ROM/XA (высокое качество)

44 056

ИКМ-приставка к видеомагнитофону [ NTSC ] для записи звука

44 100

Частота дискретизации компакт-диска, цифровые магнитофоны ( DAT), ИКМ-приставка к видеомагнитофону ( PAL/SECAM ) для записи звука

48 000

Цифровые магнитофоны ( DAT)

Некоторые форматы звуковых файлов поддерживают произвольную частоту дискретизации (например, VOC- файлы в диапазоне от 5000 до 44100 Гц); другие – только определённые частоты дискретизации ( WAV -файлы могут быть оцифрованы с частотами 11 025, 22050, 44100 Гц). Поэтому конвертирование (преобразование) файла одного формата в другой бывает не всегда возможно. Наиболее гибкое средство преобразования звуковых файлов различных форматов - программа SOX ("Sound Exchange"), которая допускает кроме конвертирования введение в звук различных эффектов (добавление эха, фильтрацию, изменение частоты дискретизации и др.) [581].

Некоторые звуковые редакторы ( GoldWave, CoolEdit ) позволяют импортировать файлы с оцифрованным звуком без заголовка. При этом запрашиваются: частота дискретизации, количество битов на отсчет, количество каналов. Затем информацию можно экспортировать (сохранить) в файле с заголовком (. wav, .voc ). Заголовок . voc можно добавить и утилитой VOCHDR , а полученный файл конвертировать в . wav утилитой VOC2WAV (VOCHDR и VOC2WAV входят в поставку Sound Blaster 16) [581].

 

 

 

 

 

 

Перечень и области применения наиболее распространенных форматов файлов с заголовком [580-583]:

Расширение

Краткие сведения о форматах

.aiff, .aif

AIF, AIFF [Audio Interchange File Format ] - Данный формат распространен в системах Apple Macintosh и Silicon Graphics . Заключает в себе сочетание MOD и WAV.

AIFC, AIFF-С [Audio Interchange File Format – Compressed ] - Тот же AIFF, только с заданными параметрами сжатия (компрессии). Используются в ПК фирмы Apple.

.au

.snd

AU - Звуковой формат предназначен для работы со звуком в рабочих системах SUN, NeXT, DEC, Linux и FreeBCD . Поскольку он обеспечивает экономию памяти нашел широкое распространение в Интернете Структура файла намного проще, чем в wav, но там указан метод кодирования данных. Наиболее часто используются параметры m -Law 8 кГц – моно, но есть и 16-битные стерео-файлы с частотами 22050 и 44100 Гц.

SND - Бывает двух видов. Один - это тот же AU для SUN и NeXT. Другой - это 8-мибитный моно-файл для РС и ПК фирмы Apple с различной частотой дискретизации.

.avr

Предложен фирмой Audio Visual Research (заголовок 128 байтов).

.hcom

ПК фирмы Apple.

.iff

IFF [Interchange File Format ] – Формат, который имеет сходство с RIFF [Resource Interchange File Format ], являющимся универсальным для записи любых структурированных данных. Основное отличие заключается в поддержке им т.н. “программно-сэмплерной” эмуляции музыкальных инструментов. Звук в файле делится на две части: то, что должно звучать вначале, и элемент того, что идет за началом. В результате вторая часть звукового фрагмента повторяется за начальной столько раз, сколько нужно пользователю и нота может звучать сколь угодно долго. Используется в системах типа IFF/8SVX на компьютерах фирмы Amiga.

 

МР3 - Формат, в котором использованы параметры сжатия, имеющие сходство с форматом jpeg для изображений. Коэффициент сжатия составляет 10-12, однако специалистами он считается достаточно сложным (“навороченным”) и не обеспечивающим высокое качество звука. Основным недостатком является наличие эффекта т.н. “контурности звука”. Однако при отсутствии строгих требований к качеству звучания его потери считаются неощутимыми.

.nsp

Записаны на аппаратуре CSL Model 4300B (фирма Kay Elemetrics).

.sf

IRCAM Sound Files; программы CSound, Mi xView.

.smp

Программа SampleVision (фирма Turtle Beach).

.snd

Компьютеры Sun, NeXT .

.voc

VOC [Voice File ] - Восьмибитный моно-формат семейства звуковых карт SoundBlaster фирмы Creative Labs от. Широко используется в старых немузыкальных программах.

НСОМ - То же самое, что и VOC (восемь бит, моно), но только для ПК фирмы Apple Macintosh.

VQF - Формат записи звуковых файлов, который считается хорошей альтернативой МР3, однако менее распространённой. К недостаткам VQF относят: длительность кодирования и малое число бесплатных программ, позволяющих работать с данным форматом. Последнее собственно и стало причиной его незначительного распространения.

.wav

WAVE [Waveform Audio File] Формат, разработанный фирмой Microsoft и зарекомендовавший себя одним из простейших для записи и хранения дискретных данных. Относится к одному из вариантов файлов семейства RIFF [Resource Interchange File Format ] и является жёстко структурированным. В заголовке помимо обычных значений (в т.ч. разрядность, уровни громкости и т.п.) в wav могут быть указаны и многие другие параметры, например, метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения различных частей звукового файла, а также текстовая информация.

PCM WAVE – Версия WAVE формата данных PCM . Подробнее о нём см. [580].

 

Audio/basic – Стандарт формата звуковых файлов для Интернета, предложенный MIME , - байт, 8000 Гц, мю-закон.

Перечень и области применения наиболее распространенных форматов файлов без заголовка [580-583]:

Расширение

Краткие сведения о форматах

.pcm

PCM [Pulse Code Modulation] – Буквально: Импульсно-кодовая модуляция ИКМ”. Хотя файлы с таким расширением встречаются редко (в основном – на аудио – CD ), ИКМ является основополагающей для всех звуковых файлов. Метод записи и хранения аудиоинформации в этом формате является неэкономным, однако объёмы современных устройств внешней памяти (в т.ч. винчестеров и оптических дисков) позволяют его использовать несмотря на связанные с этим потери, которые могут составлять десятки мегабайт.

 

DPCM [Difference Pulse Code Modulation] – Вариант формата PCM , в котором с целью повышения экономии хранения звуковых данных на диске использован метод сжатия записи, получивший наименования “Разностного РСМ ”. Данная схема сжатия с фиксированной скоростью преобразовывает последовательность измерений, сохраняя только разницу между последующим и предыдущим значениями сигналов. Сохранение дискового пространства происходит за счёт того, что значение разности меньше самих измерений Подробнее см. – [580]..

 

АDPCM [Adaptive DPCM]- Адаптивный DPCM”: Формат DPCM , дополненный использованием т.н. “коэффициента масштабируемости”. Необходимость этой меры обусловлена требованием исключения искажений звука, вызванных ошибками измерения разности амплитуд сигналов, которые связаны со значительными перепадами громкости отдельных составляющих звука.

.sb

signed byte (байт со знаком); по умолчанию 8 000 Гц, моно

.sw

signed word (слово со знаком); по умолчанию 8 000 Гц, моно

.ub

unsigned byte (байт без знака); по умолчанию 8 000 Гц, моно

.ul

UL - Стандартный формат U-Law (мю-закон). По умолчанию - 8 кГц, 8 бит, моно.

.uw

Unsigned word (слово без знака); по умолчанию 8000 Гц, моно

2. Файлы с нотной записью [song file, music file] - Звуковые файлы, которые содержат последовательность команд, сообщающих какую ноту и каким инструментом и как долго нужно воспроизводить в тот или иной момент времени. Формат может предусматривать одновременную игру нескольких музыкальных инструментов, в этом случае говорят о соответствующем количестве голосов. Например, плата Sound Blaster 16 поддерживает 20-голосный синтез. При воспроизведении файлов с нотной записью могут использоваться следующие виды синтеза звука :

Последний способ сначала применялся для проигрывания . mod файлов на компьютере Amiga , затем благодаря своей гибкости и большому количеству файлов этого формата получил широкое распространение на различных типах компьютеров: IBM -совместимых, Macintosh, SPARCstation . Оцифровки инструментов ( samples ) в . mod файле - 8-битные, со знаком, без заголовка, частота дискретизации 10 кГц, получены применением линейной ИКМ. Причем оцифрована одна нота каждого инструмента ("до" первой октавы). В файле может быть до 31 оцифровки, каждая длиной до 128 КБ (обычно меньше). Звуковые платы при проигрывании файлов формата MIDI используют FM - или wavetable -синтез ( wavetable -синтез поддерживают немногие звуковые платы, например, SoundBlaster AWE32) [581].

Перечень форматов файлов с нотной записью [581]:

Расширение

Область применения/фирма разработчик

.amf

DSMI's (Digital Sound & Music Interface) internal module

.cmf

Cr eative Music File (фирма Creative Labs)

.dmf

Delusion Digital Music File (32 канала)

.far

Farandole tracker format (16 каналов) имеет разновидности:

Farandole .fsm Sample/instrument format

Farandole .usm Sample/instrument format

Farandole .fpt Pattern format

Farandole .f2r Linear module (2.0) format

.mid

MID - Формат файла, который содержит сообщения о MIDI -системе, установленной на ПК или в устройстве. Имеет следующие разновидности:

Roland LA (разработан фирмой Roland Corporation)

GM (General MIDI ) - Стандарт MIDI -сообщений. Определяет соответствие 128 номеров патчей звукового банка данных конкретным инструментам. Для ударных инструментов зарезервирован 10-й MIDI -канал. Стандартизирует также номера основных контроллеров.

Использует все 16 каналов. Преимущество обмена файлами MIDI по сравнению с файлами оцифрованного звука состоит в том, что файлы MIDI намного меньше по размеру, так как они хранят ноты, а не детальную запись звука. Подробнее см. - [484, 580].

Basic MIDI - использует каналы с 13-го по 16-й

Extended MIDI - использует каналы с 1-го по 10-й

GS (General Sound ) – Расширенная версия стандарта GM , разработанная фирмой Roland . В ней допускается использование иерархии многих звуковых банков данных, предусмотрено до десяти переключаемых наборов ударных инструментов, расширен список контроллеров [484].

XG – Наиболее развитый по состоянию на 1999 г. стандарт MIDI -сообщений, предложенный фирмой Yamaha [484].

.mod

MOD - Формат, который поддерживая “понотный подход” хранения данных, на самом деле хранит образцы звука. Первоначально он использовался программами SoundTracker, NoiseTracker (ПК Amiga ). Поддерживается многими программами IBM -совместимых ПК (4 канала, есть варианты до 32 каналов).    Файлы с нотной записью . mod и аналогичные (с оцифровками инструментов) можно послушать с помощью разнообразных программ-проигрывателей, которые обычно позволяют воспроизводить один формат файлов. В этом одно из его преимуществ по отношению к формату MIDI.

.mtm

MultiTracker Module (32 канала)

.nst

NoiseTracker Module (4 канала)

.okt

Oktalyzer Module (8 каналов)

.org

Intelligent Organ File, программа Intelligent Organ (фирма Creative Labs)

.rol

Программа Visual Composer (фирма Adlib)

.sbi

Sound Blaster Instrument File

.sng

Программа Sequencer Plus Pro (фирма Voyetra)

.stm

ScreamTracker Module (4 канала)

.s3m

ScreamTra cker Module (16 каналов)

.ult

UltraTracker File (32 каналa)

.wow

Grave Composer format (8 каналов)

.xm

Extended Module (2,4,6,8,10,...,32 каналa)

.669

Composer 66 9 Module (8 каналов)

Другие форматы: