wav bit depth что это
Сравнение 24-битного и 16-битного звука: результаты аудиотеста
Блогер Archimago немало сил потратил, чтобы ответить на вопрос: какое качество звука человек способен определять на слух? В рамках одного из его последних аудиотестов респондентов просят вслепую различить звуки с динамическим диапазоном 24 бит и 16 бит. Каждый из них скачивал несколько пар 24-битных файлов, один из которых претерпел конверсию 24-16-24 бита, то есть на практике был 16-битным файлом. Их просили определить разницу.
В тесте приняли участие 140 добровольцев (138 мужчин и 2 женщины: честная демографическая картина для аудиофилов). Средний возраст респондентов: 44 года.
Согласно анкетам, более 20% респондентов назвались музыкантами и звукоинженерами, поэтому можно сравнить результаты среди «профессионалов» и любителей, с учётом статистической погрешности.
А в композиции Bozza 52,85% пользователей ошиблись, приняв 16-битный файл за 24-битный.
20 респондентов правильно ответили на все вопросы, а 21 человек ошибся во всех вариантах, что тоже вписывается в рамки статистического распределения.
Ещё более удивительно, что музыканты показали результат хуже среднего, даже с учётом статистической погрешности! Особенно сильно напутали в композиции Вивальди.
Наушники тоже вовсе не помогают отличить 16-битную музыку от 24-битной.
Подводя итог. Конечно, есть приложения, в которых нужно работать именно с 24-битным звуком (тот же мастеринг). Но факт в том, что на слух 16- и 24-битный звук совершенно не различимы друг от друга. Если кто-то заявляет, что способен услышать разницу, то этот человек наверняка заблуждается.
СОДЕРЖАНИЕ
Двоичное представление
Integer PCM аудио данные обычно хранятся в виде подписанных чисел в дополнительном двоичном формате.
Квантование
Ошибка квантования, возникающая при аналого-цифровом преобразовании (АЦП), может быть смоделирована как шум квантования. Это ошибка округления между аналоговым входным напряжением АЦП и выходным цифровым значением. Шум нелинейный и зависит от сигнала.
Плавающая запятая
Разрешение выборок с плавающей запятой менее прямолинейно, чем целочисленных выборок, потому что значения с плавающей запятой не распределены равномерно. В представлении с плавающей запятой пространство между любыми двумя соседними значениями пропорционально значению. Это значительно увеличивает SNR по сравнению с целочисленной системой, потому что точность сигнала высокого уровня будет такой же, как точность идентичного сигнала на более низком уровне.
Компромисс между числами с плавающей запятой и целыми числами заключается в том, что пространство между большими значениями с плавающей запятой больше, чем пространство между большими целыми значениями той же битовой глубины. Округление большого числа с плавающей запятой приводит к большей ошибке, чем округление небольшого числа с плавающей запятой, тогда как округление целого числа всегда приводит к тому же уровню ошибки. Другими словами, целые числа имеют равномерное округление, всегда округляя младший бит до 0 или 1, а с плавающей запятой имеет однородное отношение сигнал / шум, уровень шума квантования всегда пропорционален уровню сигнала. Минимальный уровень шума с плавающей запятой будет расти по мере увеличения сигнала и падать по мере его падения, что приводит к слышимой дисперсии, если битовая глубина достаточно мала.
Обработка звука
Большинство операций обработки цифрового звука включают повторное квантование выборок и, таким образом, вносят дополнительную ошибку округления, аналогичную исходной ошибке квантования, возникающей во время аналого-цифрового преобразования. Чтобы предотвратить ошибку округления, превышающую неявную ошибку АЦП, вычисления во время обработки должны выполняться с более высокой точностью, чем входные отсчеты.
Дизеринг
24-битный звук не требует дизеринга, так как уровень шума цифрового преобразователя всегда громче, чем требуемый уровень любого дизеринга, который может быть применен. 24-битный звук теоретически может кодировать 144 дБ динамического диапазона, но, судя по таблицам данных производителя, не существует АЦП, который может обеспечить более
Дизеринг также можно использовать для увеличения эффективного динамического диапазона. Воспринимается динамический диапазон 16-битного звука может составлять 120 дБ или больше с шумом формы псевдослучайного сигнала, воспользовавшись частотной характеристики человеческого уха.
Динамический диапазон и запас по высоте
Передискретизация
Для увеличения разрешения, эквивалентного n дополнительных битов, сигнал должен быть передискретизирован на
Например, 14-битный АЦП может воспроизводить 16-битный звук 48 кГц при работе с 16-кратной передискретизацией или 768 кГц. Поэтому передискретизированный PCM обменивает меньшее количество бит на выборку на большее количество выборок, чтобы получить такое же разрешение.
Формирование шума
Приложения
Смешивание 8-битных int, 16-битных int, 24-битных int, 32-битных int, 32-битных чисел с плавающей запятой и 64-битных чисел с плавающей запятой
Битрейт и размер файла
СОДЕРЖАНИЕ
Двоичное представление
Integer PCM аудио данные обычно хранятся в виде подписанных чисел в дополнительном двоичном формате.
Квантование
Ошибка квантования, возникающая при аналого-цифровом преобразовании (АЦП), может быть смоделирована как шум квантования. Это ошибка округления между аналоговым входным напряжением АЦП и выходным цифровым значением. Шум нелинейный и зависит от сигнала.
Плавающая запятая
Разрешение выборок с плавающей запятой менее прямолинейно, чем целочисленных выборок, потому что значения с плавающей запятой не распределены равномерно. В представлении с плавающей запятой пространство между любыми двумя соседними значениями пропорционально значению. Это значительно увеличивает SNR по сравнению с целочисленной системой, потому что точность сигнала высокого уровня будет такой же, как точность идентичного сигнала на более низком уровне.
Компромисс между числами с плавающей запятой и целыми числами заключается в том, что пространство между большими значениями с плавающей запятой больше, чем пространство между большими целыми значениями той же битовой глубины. Округление большого числа с плавающей запятой приводит к большей ошибке, чем округление небольшого числа с плавающей запятой, тогда как округление целого числа всегда приводит к тому же уровню ошибки. Другими словами, целые числа имеют равномерное округление, всегда округляя младший бит до 0 или 1, а с плавающей запятой имеет однородное отношение сигнал / шум, уровень шума квантования всегда пропорционален уровню сигнала. Минимальный уровень шума с плавающей запятой будет расти по мере увеличения сигнала и падать по мере его падения, что приводит к слышимой дисперсии, если битовая глубина достаточно мала.
Обработка звука
Большинство операций обработки цифрового звука включают повторное квантование выборок и, таким образом, вносят дополнительную ошибку округления, аналогичную исходной ошибке квантования, возникающей во время аналого-цифрового преобразования. Чтобы предотвратить ошибку округления, превышающую неявную ошибку АЦП, вычисления во время обработки должны выполняться с более высокой точностью, чем входные отсчеты.
Дизеринг
24-битный звук не требует дизеринга, так как уровень шума цифрового преобразователя всегда громче, чем требуемый уровень любого дизеринга, который может быть применен. 24-битный звук теоретически может кодировать 144 дБ динамического диапазона, но, судя по таблицам данных производителя, не существует АЦП, который может обеспечить более
Дизеринг также можно использовать для увеличения эффективного динамического диапазона. Воспринимается динамический диапазон 16-битного звука может составлять 120 дБ или больше с шумом формы псевдослучайного сигнала, воспользовавшись частотной характеристики человеческого уха.
Динамический диапазон и запас по высоте
Передискретизация
Для увеличения разрешения, эквивалентного n дополнительных битов, сигнал должен быть передискретизирован на
Например, 14-битный АЦП может воспроизводить 16-битный звук 48 кГц при работе с 16-кратной передискретизацией или 768 кГц. Поэтому передискретизированный PCM обменивает меньшее количество бит на выборку на большее количество выборок, чтобы получить такое же разрешение.
Формирование шума
Приложения
Смешивание 8-битных int, 16-битных int, 24-битных int, 32-битных int, 32-битных чисел с плавающей запятой и 64-битных чисел с плавающей запятой
Битрейт и размер файла
Характеристики и форматы аудио
В этой статье мы кратко расскажем о важных характеристиках аудио, о том, как они влияют на распознавание и синтез речи, а также о поддерживаемых форматах аудио и кодеках.
Частота дискретизации и битовая глубина
Оцифровка звуковых сигналов осуществляется путем дискретизации (семплирования). Сигнал измеряется через равные промежутки времени, и значение амплитуды сигнала фиксируется в момент измерения — это и есть семпл. Если сигнал замеряется 16 000 раз за секунду, частота дискретизации (sample rate) равна 16 000 Гц. Например, для телефонной связи обычно используется частота в 8 000 Гц.
Если есть выбор, при распознавании лучше использовать аудио с частотой 16 000 Гц и выше, т. к. дискретизация с меньшей частотой может привести к потере точности распознавания (особенно, если в аудио есть фоновые шумы).
После оцифровки сигналы переводятся в двоичную форму. Битовая глубина (bit depth) определяет, сколько бит отводится для хранения одного семпла.
Чем больше битовая глубина и частота дискретизации, тем точнее получившийся цифровой сигнал соответствует исходному.
Сжатие и потеря качества
Аудиофайлы могут быть сжаты для хранения и передачи. Сжатие может происходить с потерями какой-либо информации (lossy) или без потерь (lossless). При сжатии с потерями часть данных аудиосигнала отбрасывается, и восстановить их не удастся. Несжатое аудио наиболее приближено к исходному звуку.
Какие форматы и кодеки поддерживаются
Формат аудио — это своеобразный контейнер, в который с помощью специальной программы — кодека — записывается аудиосигнал. Для некоторых форматов кодек можно определить однозначно. Например, для формата MP3 всегда используется кодек MPEG Audio Layer III, в то время как для FLAC могут использоваться разные кодеки.
В таблице ниже указаны кодеки и примеры форматов, которые поддерживаются в Tinkoff VoiceKit:
Кодеки | Примеры форматов | Без потерь | Без сжатия |
---|---|---|---|
LINEAR16 (Linear PCM) | WAV, FLAC | + | + |
ALAW (a-law) | WAV, WMA, FLAC | + | — |
MULAW (μ-law) | WAV, FLAC | + | — |
OPUS | Ogg, WebM, MPEG, MP4 | — | — |
MP3 (MPEG Audio Layer III) | MP3, MPEG, MP4 | — | — |
Вы также можете использовать raw-файлы, которые содержат необработанные аудиосигналы. Если аудио находится в контейнере (WAV, Ogg и т. п.), перед распознаванием его нужно декодировать (кроме MP3 — его можно передавать как есть). Метод синтеза речи возвращает raw-файл — если необходимо, запакуйте полученные семплы в нужный формат.
Как правильно указать
Следующие рекомендации помогут принять решение о том, какое значение для ваших аудиофайлов нужно указать:
Воспользуйтесь специальными утилитами, чтобы проверить свойства аудио. Примеры запуска утилит для файла с выводом:
В таблице ниже указано, на какие значения в выводе утилит нужно обратить внимание и какой выбрать соответственно этим значениям:
file | sox | ffprobe | |
---|---|---|---|
A-law | 8-bit a-law | pcm_alaw | |
mu-law | 8-bit u-law | pcm_mulaw | |
Microsoft PCM, 16 bit | 16-bit Signed Integer PCM | pcm_s16le (или s16be) | |
Opus audio | Opus | opus | |
MPEG | MPEG audio (layer I, II or III) | mp3 |
Обратная связь
Нам важна любая обратная связь!
Пишите все, что думаете о нашем сервисе, а мы прочитаем и ответим
Русские Блоги
PCM и WAV структура данных
PCM и WAV структура данных
Частота выборки
В моем другом сообщении в блогеАудио кодирование Понятия дискретизации и квантования были введены в, здесь частота дискретизации.
Частота выборкиУказывает количество цифровых снимков в секунду звукового сигнала. Эта скорость определяет частотный диапазон аудиофайла. Чем выше частота дискретизации, тем ближе форма цифрового сигнала к исходному аналоговому сигналу. Низкая частота дискретизации ограничивает диапазон частот, который может быть записан, что может привести к плохой работе записи с оригинальным звуком.
В соответствии сТеорема выборки НайквистаЧтобы воспроизвести данную частоту, частота дискретизации должна быть как минимум вдвое больше этой частоты. Например, частота дискретизации CD составляет 44 100 выборок в секунду, поэтому частота может воспроизводиться до 22 050 Гц, что чуть выше предела человеческого слуха в 20 000 Гц.
AНизкая частота дискретизации, которая искажает исходную звуковую волну.
BВысокая частота дискретизации для полного воспроизведения оригинальной звуковой волны.
Общие частоты дискретизации для цифрового аудио
Частота выборки | Уровень качества | Частотный диапазон |
---|---|---|
11,025 Hz | Плохое радио AM (бюджетные мультимедиа) | 0–5,512 Hz |
22,050 Hz | Рядом с FM-радио (высококачественные мультимедиа) | 0–11,025 Hz |
32,000 Hz | Лучше, чем FM-радио (стандартная частота дискретизации) | 0–16,000 Hz |
44,100 Hz | CD | 0–22,050 Hz |
48,000 Hz | Стандартный DVD | 0–24,000 Hz |
96,000 Hz | Blu-ray DVD | 0–48,000 Hz |
Бит глубина
Битовая глубина определяет динамический диапазон. При дискретизации звуковых волн укажите значение амплитуды, наиболее близкое к исходной амплитуде звуковой волны для каждого сэмпла. Более высокая битовая глубина может обеспечить более возможные значения амплитуды, в результате чего в более широком диапазоне динамического, нижний опорный шумовой и более высокую точность.
Бит глубина | Уровень качества | Значение амплитуды | Динамический диапазон |
---|---|---|---|
8 бит | Телефон | 256 | 48 dB |
16 бит | Аудио CD | 65,536 | 96 dB |
24 бита | Аудио DVD | 16,777,216 | 144 dB |
32 бит | оптимальный | 4,294,967,296 | 192 dB |
Чем выше битовая глубина, тем больше обеспечен динамический диапазон.
PCM аудио данные
Хранение аудиоданных PCM
Параметры аудиоданных ИКМ
Как правило, когда мы описываем параметры аудиоданных PCM, существуют следующие способы описания:
44100 Гц относится к частоте дискретизации, что означает 44100 выборок в секунду. Чем больше частота дискретизации, тем больше места занято для хранения цифрового звука.
16 бит относится к точности выборки, что означает, что после дискретизации исходного аналогового сигнала каждая точка выборки представляется в компьютере 16 битами (два байта). Чем выше точность выборки, тем точнее могут быть представлены различия в аналоговых сигналах.
Стерео означает количество каналов, то есть количество микрофонов, используемых во время семплирования. Чем больше микрофонов, тем больше он может восстановить реальную среду семплирования (конечно, также указывается размещение микрофона).
Вообще говоря, чем больше амплитуда сигнала в данных PCM, тем больше объем.
Обработка аудиоданных PCM
Уменьшить громкость канала 1
Из исходного кода видно, что после считывания 2-байтового значения выборки левого канала эта программа преобразует его в переменную короткого типа на языке Си. Значение делится на 2 и записывается обратно в файл PCM. На следующем рисунке показана диаграмма формы входных двухканальных аудиосэмплов PCM.
На следующем рисунке показана форма сигнала выходного левого канала после обработки. Видно, что амплитуда сигнала левого канала уменьшается вдвое.
PCM → WAV
Определение формата WAV
Суть этого формата заключается в добавлении заголовка файла перед файлом PCM. Значение каждого поля следующее:
Разбор заголовка файла WAV
Вот первые 72 байта файла WAVE, байты отображаются в виде шестнадцатеричных чисел:
Полевой анализ выглядит следующим образом:
PCM → WAV код 1
– EOF –