wav bit depth что это

02.06.202203.06.2022 admin 0 Comments

Сравнение 24-битного и 16-битного звука: результаты аудиотеста

Блогер Archimago немало сил потратил, чтобы ответить на вопрос: какое качество звука человек способен определять на слух? В рамках одного из его последних аудиотестов респондентов просят вслепую различить звуки с динамическим диапазоном 24 бит и 16 бит. Каждый из них скачивал несколько пар 24-битных файлов, один из которых претерпел конверсию 24-16-24 бита, то есть на практике был 16-битным файлом. Их просили определить разницу.

В тесте приняли участие 140 добровольцев (138 мужчин и 2 женщины: честная демографическая картина для аудиофилов). Средний возраст респондентов: 44 года.

Согласно анкетам, более 20% респондентов назвались музыкантами и звукоинженерами, поэтому можно сравнить результаты среди «профессионалов» и любителей, с учётом статистической погрешности.

А в композиции Bozza 52,85% пользователей ошиблись, приняв 16-битный файл за 24-битный.

20 респондентов правильно ответили на все вопросы, а 21 человек ошибся во всех вариантах, что тоже вписывается в рамки статистического распределения.

Ещё более удивительно, что музыканты показали результат хуже среднего, даже с учётом статистической погрешности! Особенно сильно напутали в композиции Вивальди.

Наушники тоже вовсе не помогают отличить 16-битную музыку от 24-битной.

Подводя итог. Конечно, есть приложения, в которых нужно работать именно с 24-битным звуком (тот же мастеринг). Но факт в том, что на слух 16- и 24-битный звук совершенно не различимы друг от друга. Если кто-то заявляет, что способен услышать разницу, то этот человек наверняка заблуждается.

Источник

СОДЕРЖАНИЕ

Двоичное представление

Integer PCM аудио данные обычно хранятся в виде подписанных чисел в дополнительном двоичном формате.

Квантование

Ошибка квантования, возникающая при аналого-цифровом преобразовании (АЦП), может быть смоделирована как шум квантования. Это ошибка округления между аналоговым входным напряжением АЦП и выходным цифровым значением. Шум нелинейный и зависит от сигнала.

Плавающая запятая

Разрешение выборок с плавающей запятой менее прямолинейно, чем целочисленных выборок, потому что значения с плавающей запятой не распределены равномерно. В представлении с плавающей запятой пространство между любыми двумя соседними значениями пропорционально значению. Это значительно увеличивает SNR по сравнению с целочисленной системой, потому что точность сигнала высокого уровня будет такой же, как точность идентичного сигнала на более низком уровне.

Компромисс между числами с плавающей запятой и целыми числами заключается в том, что пространство между большими значениями с плавающей запятой больше, чем пространство между большими целыми значениями той же битовой глубины. Округление большого числа с плавающей запятой приводит к большей ошибке, чем округление небольшого числа с плавающей запятой, тогда как округление целого числа всегда приводит к тому же уровню ошибки. Другими словами, целые числа имеют равномерное округление, всегда округляя младший бит до 0 или 1, а с плавающей запятой имеет однородное отношение сигнал / шум, уровень шума квантования всегда пропорционален уровню сигнала. Минимальный уровень шума с плавающей запятой будет расти по мере увеличения сигнала и падать по мере его падения, что приводит к слышимой дисперсии, если битовая глубина достаточно мала.

Обработка звука

Большинство операций обработки цифрового звука включают повторное квантование выборок и, таким образом, вносят дополнительную ошибку округления, аналогичную исходной ошибке квантования, возникающей во время аналого-цифрового преобразования. Чтобы предотвратить ошибку округления, превышающую неявную ошибку АЦП, вычисления во время обработки должны выполняться с более высокой точностью, чем входные отсчеты.

Дизеринг

24-битный звук не требует дизеринга, так как уровень шума цифрового преобразователя всегда громче, чем требуемый уровень любого дизеринга, который может быть применен. 24-битный звук теоретически может кодировать 144 дБ динамического диапазона, но, судя по таблицам данных производителя, не существует АЦП, который может обеспечить более

Дизеринг также можно использовать для увеличения эффективного динамического диапазона. Воспринимается динамический диапазон 16-битного звука может составлять 120 дБ или больше с шумом формы псевдослучайного сигнала, воспользовавшись частотной характеристики человеческого уха.

Динамический диапазон и запас по высоте

Передискретизация

Для увеличения разрешения, эквивалентного n дополнительных битов, сигнал должен быть передискретизирован на

Например, 14-битный АЦП может воспроизводить 16-битный звук 48 кГц при работе с 16-кратной передискретизацией или 768 кГц. Поэтому передискретизированный PCM обменивает меньшее количество бит на выборку на большее количество выборок, чтобы получить такое же разрешение.

Формирование шума

Приложения

Смешивание 8-битных int, 16-битных int, 24-битных int, 32-битных int, 32-битных чисел с плавающей запятой и 64-битных чисел с плавающей запятой

GarageBand ’11 (версия 6)DAW от Apple Inc.16-битное значение по умолчанию с 24-битной записью реального инструментаМужествоАудиоредактор с открытым исходным кодом16- и 24-битный LPCM и 32-битный с плавающей запятойFL StudioDAW от Image-Line16- и 24-битные int и 32-битные числа с плавающей запятой (под управлением ОС)

Битрейт и размер файла

Источник

СОДЕРЖАНИЕ

Двоичное представление

Integer PCM аудио данные обычно хранятся в виде подписанных чисел в дополнительном двоичном формате.

Квантование

Плавающая запятая

Обработка звука

Дизеринг

Динамический диапазон и запас по высоте

Передискретизация

Формирование шума

Приложения

Битрейт и размер файла

Источник

Характеристики и форматы аудио

В этой статье мы кратко расскажем о важных характеристиках аудио, о том, как они влияют на распознавание и синтез речи, а также о поддерживаемых форматах аудио и кодеках.

Частота дискретизации и битовая глубина

Оцифровка звуковых сигналов осуществляется путем дискретизации (семплирования). Сигнал измеряется через равные промежутки времени, и значение амплитуды сигнала фиксируется в момент измерения — это и есть семпл. Если сигнал замеряется 16 000 раз за секунду, частота дискретизации (sample rate) равна 16 000 Гц. Например, для телефонной связи обычно используется частота в 8 000 Гц.

Если есть выбор, при распознавании лучше использовать аудио с частотой 16 000 Гц и выше, т. к. дискретизация с меньшей частотой может привести к потере точности распознавания (особенно, если в аудио есть фоновые шумы).

После оцифровки сигналы переводятся в двоичную форму. Битовая глубина (bit depth) определяет, сколько бит отводится для хранения одного семпла.

Чем больше битовая глубина и частота дискретизации, тем точнее получившийся цифровой сигнал соответствует исходному.

Сжатие и потеря качества

Аудиофайлы могут быть сжаты для хранения и передачи. Сжатие может происходить с потерями какой-либо информации (lossy) или без потерь (lossless). При сжатии с потерями часть данных аудиосигнала отбрасывается, и восстановить их не удастся. Несжатое аудио наиболее приближено к исходному звуку.

Какие форматы и кодеки поддерживаются

Формат аудио — это своеобразный контейнер, в который с помощью специальной программы — кодека — записывается аудиосигнал. Для некоторых форматов кодек можно определить однозначно. Например, для формата MP3 всегда используется кодек MPEG Audio Layer III, в то время как для FLAC могут использоваться разные кодеки.

В таблице ниже указаны кодеки и примеры форматов, которые поддерживаются в Tinkoff VoiceKit:

Кодеки	Примеры форматов	Без потерь	Без сжатия
LINEAR16 (Linear PCM)	WAV, FLAC	+	+
ALAW (a-law)	WAV, WMA, FLAC	+	—
MULAW (μ-law)	WAV, FLAC	+	—
OPUS	Ogg, WebM, MPEG, MP4	—	—
MP3 (MPEG Audio Layer III)	MP3, MPEG, MP4	—	—

Вы также можете использовать raw-файлы, которые содержат необработанные аудиосигналы. Если аудио находится в контейнере (WAV, Ogg и т. п.), перед распознаванием его нужно декодировать (кроме MP3 — его можно передавать как есть). Метод синтеза речи возвращает raw-файл — если необходимо, запакуйте полученные семплы в нужный формат.

Как правильно указать

Следующие рекомендации помогут принять решение о том, какое значение для ваших аудиофайлов нужно указать:

Воспользуйтесь специальными утилитами, чтобы проверить свойства аудио. Примеры запуска утилит для файла с выводом:

В таблице ниже указано, на какие значения в выводе утилит нужно обратить внимание и какой выбрать соответственно этим значениям:

file	sox	ffprobe
A-law	8-bit a-law	pcm_alaw
mu-law	8-bit u-law	pcm_mulaw
Microsoft PCM, 16 bit	16-bit Signed Integer PCM	pcm_s16le (или s16be)
Opus audio	Opus	opus
MPEG	MPEG audio (layer I, II or III)	mp3

Обратная связь

Нам важна любая обратная связь!
Пишите все, что думаете о нашем сервисе, а мы прочитаем и ответим

Источник

Русские Блоги

PCM и WAV структура данных

Частота выборки

В моем другом сообщении в блогеАудио кодирование Понятия дискретизации и квантования были введены в, здесь частота дискретизации.

Частота выборкиУказывает количество цифровых снимков в секунду звукового сигнала. Эта скорость определяет частотный диапазон аудиофайла. Чем выше частота дискретизации, тем ближе форма цифрового сигнала к исходному аналоговому сигналу. Низкая частота дискретизации ограничивает диапазон частот, который может быть записан, что может привести к плохой работе записи с оригинальным звуком.

В соответствии сТеорема выборки НайквистаЧтобы воспроизвести данную частоту, частота дискретизации должна быть как минимум вдвое больше этой частоты. Например, частота дискретизации CD составляет 44 100 выборок в секунду, поэтому частота может воспроизводиться до 22 050 Гц, что чуть выше предела человеческого слуха в 20 000 Гц.

AНизкая частота дискретизации, которая искажает исходную звуковую волну.
BВысокая частота дискретизации для полного воспроизведения оригинальной звуковой волны.

Общие частоты дискретизации для цифрового аудио

Частота выборки	Уровень качества	Частотный диапазон
11,025 Hz	Плохое радио AM (бюджетные мультимедиа)	0–5,512 Hz
22,050 Hz	Рядом с FM-радио (высококачественные мультимедиа)	0–11,025 Hz
32,000 Hz	Лучше, чем FM-радио (стандартная частота дискретизации)	0–16,000 Hz
44,100 Hz	CD	0–22,050 Hz
48,000 Hz	Стандартный DVD	0–24,000 Hz
96,000 Hz	Blu-ray DVD	0–48,000 Hz

Бит глубина

Битовая глубина определяет динамический диапазон. При дискретизации звуковых волн укажите значение амплитуды, наиболее близкое к исходной амплитуде звуковой волны для каждого сэмпла. Более высокая битовая глубина может обеспечить более возможные значения амплитуды, в результате чего в более широком диапазоне динамического, нижний опорный шумовой и более высокую точность.

Бит глубина	Уровень качества	Значение амплитуды	Динамический диапазон
8 бит	Телефон	256	48 dB
16 бит	Аудио CD	65,536	96 dB
24 бита	Аудио DVD	16,777,216	144 dB
32 бит	оптимальный	4,294,967,296	192 dB

Чем выше битовая глубина, тем больше обеспечен динамический диапазон.

PCM аудио данные

Хранение аудиоданных PCM

Параметры аудиоданных ИКМ

Как правило, когда мы описываем параметры аудиоданных PCM, существуют следующие способы описания:

44100 Гц относится к частоте дискретизации, что означает 44100 выборок в секунду. Чем больше частота дискретизации, тем больше места занято для хранения цифрового звука.

16 бит относится к точности выборки, что означает, что после дискретизации исходного аналогового сигнала каждая точка выборки представляется в компьютере 16 битами (два байта). Чем выше точность выборки, тем точнее могут быть представлены различия в аналоговых сигналах.

Стерео означает количество каналов, то есть количество микрофонов, используемых во время семплирования. Чем больше микрофонов, тем больше он может восстановить реальную среду семплирования (конечно, также указывается размещение микрофона).

Вообще говоря, чем больше амплитуда сигнала в данных PCM, тем больше объем.

Обработка аудиоданных PCM

Уменьшить громкость канала 1

Из исходного кода видно, что после считывания 2-байтового значения выборки левого канала эта программа преобразует его в переменную короткого типа на языке Си. Значение делится на 2 и записывается обратно в файл PCM. На следующем рисунке показана диаграмма формы входных двухканальных аудиосэмплов PCM.

На следующем рисунке показана форма сигнала выходного левого канала после обработки. Видно, что амплитуда сигнала левого канала уменьшается вдвое.

PCM → WAV

Определение формата WAV

Суть этого формата заключается в добавлении заголовка файла перед файлом PCM. Значение каждого поля следующее:

Разбор заголовка файла WAV

Вот первые 72 байта файла WAVE, байты отображаются в виде шестнадцатеричных чисел:

Полевой анализ выглядит следующим образом:

PCM → WAV код 1

– EOF –

Источник

Сравнение 24-битного и 16-битного звука: результаты аудиотеста

СОДЕРЖАНИЕ

Двоичное представление

Квантование

Плавающая запятая

Обработка звука

Дизеринг

Динамический диапазон и запас по высоте

Передискретизация

Формирование шума

Приложения

Битрейт и размер файла

СОДЕРЖАНИЕ

Двоичное представление

Квантование

Плавающая запятая

Обработка звука

Дизеринг

Динамический диапазон и запас по высоте

Передискретизация

Формирование шума

Приложения

Битрейт и размер файла

Характеристики и форматы аудио

Частота дискретизации и битовая глубина

Сжатие и потеря качества

Какие форматы и кодеки поддерживаются

Как правильно указать

Обратная связь

Русские Блоги

PCM и WAV структура данных

PCM и WAV структура данных

Частота выборки

Общие частоты дискретизации для цифрового аудио

Бит глубина

PCM аудио данные

Хранение аудиоданных PCM

Параметры аудиоданных ИКМ

Обработка аудиоданных PCM

Уменьшить громкость канала 1

PCM → WAV

Определение формата WAV

Разбор заголовка файла WAV

PCM → WAV код 1

Вам также понравится

какие услуги можно предоставлять населению в качестве бизнеса

Что такое лайтстик и для чего он нужен

xlogs на андроид что это

Добавить комментарий Отменить ответ