オーディオとはその名前の通り、「音」のことを指します。

オーディオの基礎

デジタルの世界では音の情報はファイルの中に格納されており、そのファイルのことをオーディオファイル、もしくは単にオーディオと呼びます。

オーディオファイルにはWAV, AIFF, FLAC, ALAC, MP3, AACなどのファイル形式があります。


MIDIとは違い、オーディオは「実際の音の情報」が格納されたファイルであるということが挙げられます。

AD変換(アナログからデジタルへ変換)

アナログの音をデジタル形式として変換し保存することをサンプリング、またはAD変換と言います。

デジタル形式に変換するときにはアナログの波形を読み取り、0と1の情報に置き換えます。

そのため、デジタル形式になったらパソコンには理解できるけれど、人間には理解できない形式になるのです。

DA変換(デジタルからアナログへ変換)

デジタル形式のオーディオを人間にも理解できる形にするにはデジタル形式を再度アナログ形式に変換してあげる必要があります。

私たちがスピーカーやヘッドホンから聞こえる音は、パソコンがデジタルからアナログに変換した音を聞いているのです。

このように、デジタル形式をアナログ波形に変換することをDA変換と言います。

つまり、人間がデジタルに格納されている音を聞くためにはDA変換をしてくれるデバイス(パソコンやポータブルオーディオプレイヤーなど)が必要なのです。

サンプリング周波数とは

アナログの音は連続した空気の振動です。始まりや終わりという概念はなく、常にリアルタイムで起きています。対して、サンプリングとは録音開始時間から録音終了時間の間に起きた空気の振動を標本化する作業を指します。

サンプリング周波数とはアナログ信号をデジタルデータへの変換(標本化)を1秒間に何回行うかを表す数値です。サンプリング周波数で使われる単位はHz(ヘルツ)です。

CDの形式は44.1kHz、つまり44,100Hzです。1Hzは「1秒間に1回の周波数・振動数」と定義されているので、44,100Hzでは1秒間を44100に区切って、アナログ信号を標本化するのです。

サンプリング周波数を理解するには、パラパラ漫画を想像してみてください。

1秒間に44100の紙をパラパラってやれば、限りなく連続に近い動きをするはずです。ですが、スーパースローモーションで見てみると、パラパラ漫画は連続ではなくあくまでも不連続なのです。

量子化ビット数とは

量子化ビット数とは音の大きさを無音から最大音量までを何段階で再現するかを表します。

CD形式は16ビットです。16ビットとは2の16乗という意味です。

2の16乗とは2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2なので、65536です。

つまり、0(無音)から65536(最大音量)までは65536段階の音量差を表現することが可能という意味です。

量子化ビット数別に見ると、表現可能な数はこのように変わっていきます。

ビット数意味表現可能な数
4bit2^416
8bit2^8256
12bit2^124096
16bit2^1665536
20bit2^201048576
24bit2^2416777216
28bit2^28268435456
32bit2^324294967296

ビット数が上がればそれだけ音量を細かく表現できるので、小さな音から大きな音までの差をよりキレイに表現できるようになります。下の図で言えば、ギザギザの音量がより滑らかになっていくと思ってください。

サンプリング周波数が時間軸(横軸)なのに対して、ビット数は音の大きさ(縦軸)を表している事が分かって頂けたと思います。

16ビットと24ビットの差は非常に小さな音の表現力を差を比べれば分かる

大きい音量で鳴る音楽では16ビットと24ビットの差はあまり感じられないでしょう。

しかし、非常に小さな音の場合はその違いが分かると思います。音量の表現力が65,536段階と16,777,216段階と圧倒的に違うので、小さな音量だと音の変化が分かりやすいのです。

量子化ビット数とダイナミック・レンジの関係

人間の聴覚は120dBのダイナミック・レンジを聞き取る能力があるとされています。ダイナミック・レンジとは一番大きな音と一番小さな音の音量差のことであることから、人間は理論上0dBから120dBの音量の差が聞き取れるのです。デジタルのファイルでは詰め込める最大の音量が0dBとされていることから、相対的に人間の聞き取れる最小の音量は-120dBになります。

1ビットは6dB(デシベル)のダイナミック・レンジを表現できるとされています。そのため、16ビットと24ビットのダイナミック・レンジはそれぞれ:
16ビット X 6 = 「96dB」
24ビット X 6 = 「144dB」
になります。16ビットと24ビットでは「48dB」のダイナミック・レンジの差があります。

デジタルのファイルで言えば0dBから-120dBを表現できれば人間の聴覚の識別能力をカバーできるのです。CDは0dBから-96dBまでしか表現できないので、人間の聴覚の識別能力より低いわけです。

ですから、クラシックのようにイントロがめちゃくちゃ静かで、クライマックスになると鼓膜が破れそうになるくらいうるさくなる(音量差が激しい)音楽ではCDクオリティ(16ビット)ではダイナミック・レンジが足りなくて全ての音量差を表現できないわけです。そのままだとCDにはおさまらないので、レコーディングエンジニアは仕方なくコンプレッサーを使って音を圧縮したりしてやり過ごしているのです。

対して、DVDクオリティ(24ビット)ならば0dBから-144dBまでを表現できるので、クラシックの音量差でも十分に表現可能なのです。

このようなことから、クラシック音楽を24ビットと16ビットで音質比較をした場合、音質の差が分かる人が一定数現れます。

ビットレートの計算

では、CD形式のWAVファイルのビットレートの計算をしてみましょう。

サンプリング周波数 x 量子化ビット数 x チャンネル数で求めることができます。

44100 Hz x 16bit x 2 channel = 1411200 bit = 1411.2 kbps

つまり、CD形式のWAVファイルのビットレートは1411.2kbpsです。

対して高音質はMP3のビットレートは320kbpsなどになります。

WAVと比べると4.4倍ほどビットレートが少ないのです。

オーディオの現在と未来

DTM界では96kHz/24ビットのオーディオが流行しています。

96kHzは1秒間に96000のサンプルを標本化し、24ビット(2の24乗)は音量を16,711,680段階で表現できるため、非常に音質が高いファイル形式です。

これだけサンプリングの精度が上がると、従来の44.1kHz/16ビットのオーディオよりはるかに表現力は上がり、よく音がアナログに近づきます。

しかし、人間の耳は精度が曖昧なので、ダイナミック・レンジがあまり広くない現代音楽では、44.1kHz/16ビットと96kHz/24ビットの音が大幅に違って聞こえるという人は少数派です。

8ビットと16ビットの差は大変多くの人が判別できますが、16ビットと24ビットの違いは多くの人は分かりません。

ですから、96kHz/24ビットのオーディオが流行しているからと言って、それにこだわり続けるのはやめましょう。

多くの場合、96kHz/24ビットが受けられる音質面のメリットよりも、ファイルサイズが大きくてハードディスクを圧迫しやすいデメリットの方が大きいかも知れません。

ヒップホップなどのローファイを「かっこいい」とする音楽であれば、大きなダイナミック・レンジは必要ない場合がほとんどなので、44.1kHz/16ビットで十分だと言えるでしょう。