wav bit depth что это

Сравнение 24-битного и 16-битного звука: результаты аудиотеста

Блогер Archimago немало сил потратил, чтобы ответить на вопрос: какое качество звука человек способен определять на слух? В рамках одного из его последних аудиотестов респондентов просят вслепую различить звуки с динамическим диапазоном 24 бит и 16 бит. Каждый из них скачивал несколько пар 24-битных файлов, один из которых претерпел конверсию 24-16-24 бита, то есть на практике был 16-битным файлом. Их просили определить разницу.

В тесте приняли участие 140 добровольцев (138 мужчин и 2 женщины: честная демографическая картина для аудиофилов). Средний возраст респондентов: 44 года.

Согласно анкетам, более 20% респондентов назвались музыкантами и звукоинженерами, поэтому можно сравнить результаты среди «профессионалов» и любителей, с учётом статистической погрешности.

А в композиции Bozza 52,85% пользователей ошиблись, приняв 16-битный файл за 24-битный.

wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это

wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это

wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это

20 респондентов правильно ответили на все вопросы, а 21 человек ошибся во всех вариантах, что тоже вписывается в рамки статистического распределения.

Ещё более удивительно, что музыканты показали результат хуже среднего, даже с учётом статистической погрешности! Особенно сильно напутали в композиции Вивальди.

wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это

wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это

Наушники тоже вовсе не помогают отличить 16-битную музыку от 24-битной.

wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это

Подводя итог. Конечно, есть приложения, в которых нужно работать именно с 24-битным звуком (тот же мастеринг). Но факт в том, что на слух 16- и 24-битный звук совершенно не различимы друг от друга. Если кто-то заявляет, что способен услышать разницу, то этот человек наверняка заблуждается.

Источник

wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это

СОДЕРЖАНИЕ

Двоичное представление

Integer PCM аудио данные обычно хранятся в виде подписанных чисел в дополнительном двоичном формате.

Квантование

Ошибка квантования, возникающая при аналого-цифровом преобразовании (АЦП), может быть смоделирована как шум квантования. Это ошибка округления между аналоговым входным напряжением АЦП и выходным цифровым значением. Шум нелинейный и зависит от сигнала.

wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это

Плавающая запятая

Разрешение выборок с плавающей запятой менее прямолинейно, чем целочисленных выборок, потому что значения с плавающей запятой не распределены равномерно. В представлении с плавающей запятой пространство между любыми двумя соседними значениями пропорционально значению. Это значительно увеличивает SNR по сравнению с целочисленной системой, потому что точность сигнала высокого уровня будет такой же, как точность идентичного сигнала на более низком уровне.

Компромисс между числами с плавающей запятой и целыми числами заключается в том, что пространство между большими значениями с плавающей запятой больше, чем пространство между большими целыми значениями той же битовой глубины. Округление большого числа с плавающей запятой приводит к большей ошибке, чем округление небольшого числа с плавающей запятой, тогда как округление целого числа всегда приводит к тому же уровню ошибки. Другими словами, целые числа имеют равномерное округление, всегда округляя младший бит до 0 или 1, а с плавающей запятой имеет однородное отношение сигнал / шум, уровень шума квантования всегда пропорционален уровню сигнала. Минимальный уровень шума с плавающей запятой будет расти по мере увеличения сигнала и падать по мере его падения, что приводит к слышимой дисперсии, если битовая глубина достаточно мала.

Обработка звука

Большинство операций обработки цифрового звука включают повторное квантование выборок и, таким образом, вносят дополнительную ошибку округления, аналогичную исходной ошибке квантования, возникающей во время аналого-цифрового преобразования. Чтобы предотвратить ошибку округления, превышающую неявную ошибку АЦП, вычисления во время обработки должны выполняться с более высокой точностью, чем входные отсчеты.

Дизеринг

wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это

24-битный звук не требует дизеринга, так как уровень шума цифрового преобразователя всегда громче, чем требуемый уровень любого дизеринга, который может быть применен. 24-битный звук теоретически может кодировать 144 дБ динамического диапазона, но, судя по таблицам данных производителя, не существует АЦП, который может обеспечить более

Дизеринг также можно использовать для увеличения эффективного динамического диапазона. Воспринимается динамический диапазон 16-битного звука может составлять 120 дБ или больше с шумом формы псевдослучайного сигнала, воспользовавшись частотной характеристики человеческого уха.

Динамический диапазон и запас по высоте

Передискретизация

Для увеличения разрешения, эквивалентного n дополнительных битов, сигнал должен быть передискретизирован на

Например, 14-битный АЦП может воспроизводить 16-битный звук 48 кГц при работе с 16-кратной передискретизацией или 768 кГц. Поэтому передискретизированный PCM обменивает меньшее количество бит на выборку на большее количество выборок, чтобы получить такое же разрешение.

Формирование шума

Приложения

Смешивание 8-битных int, 16-битных int, 24-битных int, 32-битных int, 32-битных чисел с плавающей запятой и 64-битных чисел с плавающей запятой

GarageBand ’11 (версия 6)DAW от Apple Inc.16-битное значение по умолчанию с 24-битной записью реального инструментаМужествоАудиоредактор с открытым исходным кодом16- и 24-битный LPCM и 32-битный с плавающей запятойFL StudioDAW от Image-Line16- и 24-битные int и 32-битные числа с плавающей запятой (под управлением ОС)

Битрейт и размер файла

Источник

wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это

СОДЕРЖАНИЕ

Двоичное представление

Integer PCM аудио данные обычно хранятся в виде подписанных чисел в дополнительном двоичном формате.

Квантование

Ошибка квантования, возникающая при аналого-цифровом преобразовании (АЦП), может быть смоделирована как шум квантования. Это ошибка округления между аналоговым входным напряжением АЦП и выходным цифровым значением. Шум нелинейный и зависит от сигнала.

wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это

Плавающая запятая

Разрешение выборок с плавающей запятой менее прямолинейно, чем целочисленных выборок, потому что значения с плавающей запятой не распределены равномерно. В представлении с плавающей запятой пространство между любыми двумя соседними значениями пропорционально значению. Это значительно увеличивает SNR по сравнению с целочисленной системой, потому что точность сигнала высокого уровня будет такой же, как точность идентичного сигнала на более низком уровне.

Компромисс между числами с плавающей запятой и целыми числами заключается в том, что пространство между большими значениями с плавающей запятой больше, чем пространство между большими целыми значениями той же битовой глубины. Округление большого числа с плавающей запятой приводит к большей ошибке, чем округление небольшого числа с плавающей запятой, тогда как округление целого числа всегда приводит к тому же уровню ошибки. Другими словами, целые числа имеют равномерное округление, всегда округляя младший бит до 0 или 1, а с плавающей запятой имеет однородное отношение сигнал / шум, уровень шума квантования всегда пропорционален уровню сигнала. Минимальный уровень шума с плавающей запятой будет расти по мере увеличения сигнала и падать по мере его падения, что приводит к слышимой дисперсии, если битовая глубина достаточно мала.

Обработка звука

Большинство операций обработки цифрового звука включают повторное квантование выборок и, таким образом, вносят дополнительную ошибку округления, аналогичную исходной ошибке квантования, возникающей во время аналого-цифрового преобразования. Чтобы предотвратить ошибку округления, превышающую неявную ошибку АЦП, вычисления во время обработки должны выполняться с более высокой точностью, чем входные отсчеты.

Дизеринг

wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это

24-битный звук не требует дизеринга, так как уровень шума цифрового преобразователя всегда громче, чем требуемый уровень любого дизеринга, который может быть применен. 24-битный звук теоретически может кодировать 144 дБ динамического диапазона, но, судя по таблицам данных производителя, не существует АЦП, который может обеспечить более

Дизеринг также можно использовать для увеличения эффективного динамического диапазона. Воспринимается динамический диапазон 16-битного звука может составлять 120 дБ или больше с шумом формы псевдослучайного сигнала, воспользовавшись частотной характеристики человеческого уха.

Динамический диапазон и запас по высоте

Передискретизация

Для увеличения разрешения, эквивалентного n дополнительных битов, сигнал должен быть передискретизирован на

Например, 14-битный АЦП может воспроизводить 16-битный звук 48 кГц при работе с 16-кратной передискретизацией или 768 кГц. Поэтому передискретизированный PCM обменивает меньшее количество бит на выборку на большее количество выборок, чтобы получить такое же разрешение.

Формирование шума

Приложения

Смешивание 8-битных int, 16-битных int, 24-битных int, 32-битных int, 32-битных чисел с плавающей запятой и 64-битных чисел с плавающей запятой

GarageBand ’11 (версия 6)DAW от Apple Inc.16-битное значение по умолчанию с 24-битной записью реального инструментаМужествоАудиоредактор с открытым исходным кодом16- и 24-битный LPCM и 32-битный с плавающей запятойFL StudioDAW от Image-Line16- и 24-битные int и 32-битные числа с плавающей запятой (под управлением ОС)

Битрейт и размер файла

Источник

Характеристики и форматы аудио

В этой статье мы кратко расскажем о важных характеристиках аудио, о том, как они влияют на распознавание и синтез речи, а также о поддерживаемых форматах аудио и кодеках.

Частота дискретизации и битовая глубина

Оцифровка звуковых сигналов осуществляется путем дискретизации (семплирования). Сигнал измеряется через равные промежутки времени, и значение амплитуды сигнала фиксируется в момент измерения — это и есть семпл. Если сигнал замеряется 16 000 раз за секунду, частота дискретизации (sample rate) равна 16 000 Гц. Например, для телефонной связи обычно используется частота в 8 000 Гц.

Если есть выбор, при распознавании лучше использовать аудио с частотой 16 000 Гц и выше, т. к. дискретизация с меньшей частотой может привести к потере точности распознавания (особенно, если в аудио есть фоновые шумы).

После оцифровки сигналы переводятся в двоичную форму. Битовая глубина (bit depth) определяет, сколько бит отводится для хранения одного семпла.

Чем больше битовая глубина и частота дискретизации, тем точнее получившийся цифровой сигнал соответствует исходному.

Сжатие и потеря качества

Аудиофайлы могут быть сжаты для хранения и передачи. Сжатие может происходить с потерями какой-либо информации (lossy) или без потерь (lossless). При сжатии с потерями часть данных аудиосигнала отбрасывается, и восстановить их не удастся. Несжатое аудио наиболее приближено к исходному звуку.

Какие форматы и кодеки поддерживаются

Формат аудио — это своеобразный контейнер, в который с помощью специальной программы — кодека — записывается аудиосигнал. Для некоторых форматов кодек можно определить однозначно. Например, для формата MP3 всегда используется кодек MPEG Audio Layer III, в то время как для FLAC могут использоваться разные кодеки.

В таблице ниже указаны кодеки и примеры форматов, которые поддерживаются в Tinkoff VoiceKit:

КодекиПримеры форматовБез потерьБез сжатия
LINEAR16 (Linear PCM)WAV, FLAC++
ALAW (a-law)WAV, WMA, FLAC+
MULAW (μ-law)WAV, FLAC+
OPUSOgg, WebM, MPEG, MP4
MP3 (MPEG Audio Layer III)MP3, MPEG, MP4

Вы также можете использовать raw-файлы, которые содержат необработанные аудиосигналы. Если аудио находится в контейнере (WAV, Ogg и т. п.), перед распознаванием его нужно декодировать (кроме MP3 — его можно передавать как есть). Метод синтеза речи возвращает raw-файл — если необходимо, запакуйте полученные семплы в нужный формат.

Как правильно указать

Следующие рекомендации помогут принять решение о том, какое значение для ваших аудиофайлов нужно указать:

Воспользуйтесь специальными утилитами, чтобы проверить свойства аудио. Примеры запуска утилит для файла с выводом:

В таблице ниже указано, на какие значения в выводе утилит нужно обратить внимание и какой выбрать соответственно этим значениям:

filesoxffprobe
A-law8-bit a-lawpcm_alaw
mu-law8-bit u-lawpcm_mulaw
Microsoft PCM, 16 bit16-bit Signed Integer PCMpcm_s16le (или s16be)
Opus audioOpusopus
MPEGMPEG audio (layer I, II or III)mp3

Обратная связь

Нам важна любая обратная связь!
Пишите все, что думаете о нашем сервисе, а мы прочитаем и ответим

Источник

Русские Блоги

PCM и WAV структура данных

PCM и WAV структура данных

Частота выборки

В моем другом сообщении в блогеАудио кодирование Понятия дискретизации и квантования были введены в, здесь частота дискретизации.

Частота выборкиУказывает количество цифровых снимков в секунду звукового сигнала. Эта скорость определяет частотный диапазон аудиофайла. Чем выше частота дискретизации, тем ближе форма цифрового сигнала к исходному аналоговому сигналу. Низкая частота дискретизации ограничивает диапазон частот, который может быть записан, что может привести к плохой работе записи с оригинальным звуком.

В соответствии сТеорема выборки НайквистаЧтобы воспроизвести данную частоту, частота дискретизации должна быть как минимум вдвое больше этой частоты. Например, частота дискретизации CD составляет 44 100 выборок в секунду, поэтому частота может воспроизводиться до 22 050 Гц, что чуть выше предела человеческого слуха в 20 000 Гц.
wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это
AНизкая частота дискретизации, которая искажает исходную звуковую волну.
BВысокая частота дискретизации для полного воспроизведения оригинальной звуковой волны.

Общие частоты дискретизации для цифрового аудио

Частота выборкиУровень качестваЧастотный диапазон
11,025 HzПлохое радио AM (бюджетные мультимедиа)0–5,512 Hz
22,050 HzРядом с FM-радио (высококачественные мультимедиа)0–11,025 Hz
32,000 HzЛучше, чем FM-радио (стандартная частота дискретизации)0–16,000 Hz
44,100 HzCD0–22,050 Hz
48,000 HzСтандартный DVD0–24,000 Hz
96,000 HzBlu-ray DVD0–48,000 Hz

Бит глубина

Битовая глубина определяет динамический диапазон. При дискретизации звуковых волн укажите значение амплитуды, наиболее близкое к исходной амплитуде звуковой волны для каждого сэмпла. Более высокая битовая глубина может обеспечить более возможные значения амплитуды, в результате чего в более широком диапазоне динамического, нижний опорный шумовой и более высокую точность.

Бит глубинаУровень качестваЗначение амплитудыДинамический диапазон
8 битТелефон25648 dB
16 битАудио CD65,53696 dB
24 битаАудио DVD16,777,216144 dB
32 битоптимальный4,294,967,296192 dB

Чем выше битовая глубина, тем больше обеспечен динамический диапазон.

PCM аудио данные

Хранение аудиоданных PCM

Параметры аудиоданных ИКМ

Как правило, когда мы описываем параметры аудиоданных PCM, существуют следующие способы описания:

44100 Гц относится к частоте дискретизации, что означает 44100 выборок в секунду. Чем больше частота дискретизации, тем больше места занято для хранения цифрового звука.

16 бит относится к точности выборки, что означает, что после дискретизации исходного аналогового сигнала каждая точка выборки представляется в компьютере 16 битами (два байта). Чем выше точность выборки, тем точнее могут быть представлены различия в аналоговых сигналах.

Стерео означает количество каналов, то есть количество микрофонов, используемых во время семплирования. Чем больше микрофонов, тем больше он может восстановить реальную среду семплирования (конечно, также указывается размещение микрофона).

Вообще говоря, чем больше амплитуда сигнала в данных PCM, тем больше объем.

Обработка аудиоданных PCM

Уменьшить громкость канала 1

Из исходного кода видно, что после считывания 2-байтового значения выборки левого канала эта программа преобразует его в переменную короткого типа на языке Си. Значение делится на 2 и записывается обратно в файл PCM. На следующем рисунке показана диаграмма формы входных двухканальных аудиосэмплов PCM.
wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это
На следующем рисунке показана форма сигнала выходного левого канала после обработки. Видно, что амплитуда сигнала левого канала уменьшается вдвое.
wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это

PCM → WAV

Определение формата WAV

Суть этого формата заключается в добавлении заголовка файла перед файлом PCM. Значение каждого поля следующее:

Разбор заголовка файла WAV

Вот первые 72 байта файла WAVE, байты отображаются в виде шестнадцатеричных чисел:

Полевой анализ выглядит следующим образом:
wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это

PCM → WAV код 1

wav bit depth что это. Смотреть фото wav bit depth что это. Смотреть картинку wav bit depth что это. Картинка про wav bit depth что это. Фото wav bit depth что это
EOF

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *