當前位置:偏方大全网 - 藥品查詢 - 音頻基礎知識

音頻基礎知識

采樣頻率是指模擬信號在單位時間內被采樣的次數,采樣率類似於視頻中的幀數,例如壹部采樣率為 24Hz 的電影,當我們對靜態畫面進行采樣,然後以相同的采樣率播放時,我們可以看到連續的畫面,同樣的道理,當我們播放采樣率為 44.1kHz 的 CD 時,我們可以聽到連續的聲音,顯然,采樣率越高,聽到的聲音和看到的畫面就越連貫。能聽到連續的聲音,顯然是采樣率越高,聽到的聲音和看到的畫面就越連貫,當然,人的聽覺和視覺器官所能分辨的采樣率僅限於同壹段聲音,用 20kHz 和 44.1kHz 采樣,重放時,也許能聽出它們之間的區別,而基本上高於 44.1kHZ 采樣的聲音,如 96kHz 大多數人就無法辨別這兩種采樣的區別了。之所以使用 44.1kHZ 這個數值,是因為經過反復實驗,人們發現這個采樣精度是最合適的,低於這個數值會有比較明顯的損失,而高於這個數值人耳已經很難分辨,而且增加了數字音頻所占用的空間。我們在 CD 中使用的采樣標準是 44.1k

采樣位數可以理解為采集卡處理聲音的分辨率。數值越高,分辨率越高,錄制和播放的聲音也就越逼真。首先我們需要知道,計算機中的聲音文件是用數字 0 和 1 表示的。連續的模擬信號通過數字脈沖采樣以壹定的采樣頻率進行采樣,每個離散的脈沖信號被量化為具有壹定量化精度的二進制編碼流,該編碼流的位數就是采樣位數,也稱為量化精度

在計算機上錄音的本質是將模擬聲音信號轉換為數字信號。反之,在播放時,數字信號將還原為模擬聲音信號輸出。采集卡的比特是采集卡用於采集和播放聲音文件的數字聲音信號的二進制位數。采集卡的位數客觀上反映了數字聲音信號在描述輸入聲音信號時的準確程度。例如,對於同壹段音頻信息,如果用 8bit 來描述單個采樣值,那麽采樣量化的範圍就是 0 255,如果用 16bit 來表示單個采樣值,那麽相應的采樣量化範圍就是 0 64k。與 8 位采樣位數相比,動態範圍更廣,錄制的聲音更細膩。 65535,即 96.32 dB (20 * lg65535)),因此量化精度只與動態範圍有關,與頻率響應無關。將動態範圍設定為 96 dB 也是有道理的,人耳的無痛聲壓極限是 90 dB,而 96 dB 的動態範圍在普通應用中已經足夠,因此在 96 dB 動態範圍內的模擬波在量化後不會產生削波失真

比特率/比特速度/比特率/比特率描述的都是同壹件事,指的是每秒能通過數據流的信息量。我們可能見過將音頻文件描述為 "128-Kbps MP3 "或 "64-Kbps WMA"。Kbps 代表 Kbps,即 "千比特/秒",因此數值越大意味著數據越多:128-Kbps MP3 音頻文件包含的數據量是 64-Kbps WMA 文件的兩倍,占用的空間也是兩倍。(不過,在這種情況下,兩個文件聽起來並不太壹樣。原因何在?有些文件格式比其他格式能更有效地利用數據,64Kbps 的 WMA 文件和 128Kbps 的 MP3 聽起來是壹樣的)。需要了解的重要壹點是,比特率越高,信息量就越大,解碼信息的處理量就越大,文件需要占用的空間也就越大

VBR(可變比特率)動態比特率。即沒有固定的比特率,壓縮軟件在壓縮時根據音頻數據即時決定使用何種比特率。這是壹種新開發的算法,他們將歌曲中復雜的部分用高比特率編碼,簡單的部分用低比特率編碼。雖然想法很好,但遺憾的是,新編碼器的 VBR 算法很差,音質與 CBR 相差甚遠。幸運的是,Lame 完美優化了 VBR 算法,使其成為 MP3 的最佳編碼模式。在兼顧文件大小和音質的前提下,這是值得推薦的編碼模式。

ABR(平均比特率)是 VBR 的壹個插值參數,Lame 針對 CBR 較差的文件體積比和 VBR 可變的文件大小創建了這種編碼模式。ABR 也被稱為 "安全 VBR",它在每 50 幀(約 1 秒 30 幀)的指定平均比特率範圍內,對低頻和不敏感頻率使用相對較低的流速,對高頻和大動態使用較高的流速。例如,當指定 192kbps ABR 來編碼壹個 wav 文件時,Lame 會以固定的 192kbps 編碼文件的 85%,然後動態優化剩余的 15%:復雜部分以高於 192kbps 的比特率編碼,簡單部分以低於 192kbps 的比特率編碼。與 192kbps CBR 相比,192kbps ABR 的文件大小相近,但質量要好得多,而且 ABR 比 VBR 快兩到三倍,在 128-256kbps 範圍內比 CBR 好,是 VBR 和 CBR 之間的壹個很好的折衷方案。

CBR(恒定比特率)是指文件自始至終的編碼比特率。與 VBR 和 ABR 相比,它能壓縮較大的文件大小,但音質不會有明顯改善

PCM(脈沖編碼調制)是壹種將模擬語音信號轉換為數字信號的編碼方法。它主要經過 3 個過程:采樣、量化和編碼。采樣過程將連續時間的模擬信號轉換成離散時間、連續幅度的采樣信號,量化過程將采樣信號轉換成離散時間、離散幅度的數字信號,編碼過程將量化信號編碼成二進制編碼組輸出。

量化分為線性量化和非線性量化。線性量化在整個量化範圍內的量化間隔相等,稱為 LPCM。量化間隔的數量由編碼的二進制位數決定。位數(n)越多,精度越高,信噪比 SNR=6.02n+1.76(dB) 也越高。然而,用於編碼的二進制位數並不是無限的,需要根據所需的數據傳輸速率來確定。

總之,LPCM 格式的音頻數據是未壓縮的線性量化音頻數據。

在常見的音頻格式中,原始 PCM 幀被封裝在幀中,我們通常將壓縮音頻數據幀稱為媒體幀,而將相應的原始 PCM 數據稱為原始幀。每個媒體幀分為幀頭和主體。在頭部,編碼率、采樣率和其他解碼所需的信息存儲在媒體幀的主體部分,因此每個媒體幀都可以獨立於文件而存在和播放。在主體部分,存儲了壹個或多個媒體幀,它們實際上是經過特定壓縮算法壓縮的多個 PCM 原始幀。通常,我們將單位時間內的媒體幀數稱為幀頻。

上述采樣率和幀速率的概念都描述了音頻媒體的 "連續 "特性,區別在於每個音頻媒體幀包含多個音頻樣本(多個 PCM 數據),例如,1 個 AAC 幀包含 1024 個樣本。

let 聲明壹個常量,var 聲明壹個變量

  • 上一篇:世界衛生組織如何評價韓國疫情?
  • 下一篇:如何教會孩子“垃圾分類”?
  • copyright 2024偏方大全网