当前位置:  开发笔记 > 运维 > 正文

音频如何用数字表示?

如何解决《音频如何用数字表示?》经验,为你挑选了3个好方法。

我喜欢考虑一切如何,并用数字表示.例如,明文由类似ASCII的代码表示,图像由RGB值表示.这些是表示文本和图像的最简单方法.

用数字表示音频的最简单方法是什么?我想学习如何编写使用音频的程序,并认为这将是一个很好的开始方式.不过,我似乎无法在互联网上找到任何好的解释.



1> derobert..:

物理上,正如您可能知道的那样,音频是一种振动.通常,我们谈论的是大约20Hz到20,000Hz之间的空气振动.这意味着空气每秒来回移动20至20,000次.

如果您测量振动并将其转换为电信号(例如,使用麦克风),您将获得电信号,其电压与声音的波形相同.在我们的纯音假设中,该波形将与正弦函数的波形匹配.

现在,我们有一个模拟信号,即电压.仍然不是数字.但是,我们知道这个电压在(例如)-1V和+ 1V之间变化.当然,我们可以将电压表连接到电线并读取电压.

任意地,我们将改变电压表的比例.我们将电压乘以32767.它现在称为-1V -32767和+ 1V 32767.哦,它会四舍五入到最接近的整数.

现在,我们将电压表连接到计算机,并指示计算机每秒读取电表449次.添加第二个电压表(用于另一个立体声通道),我们现在可以获得音频CD上的数据.

这种格式称为立体声44,100 Hz,16位线性PCM.它实际上只是一堆电压测量.



2> devin..:

音频可以由数字样本表示.实质上,采样器(也称为模数转换器)每1/fs抓取一个音频信号的值,其中fs是采样频率.然后,ADC对信号进行量化,这是一种舍入操作.因此,如果您的信号范围为0到3伏(满量程范围),则样本将四舍五入为,例如16位数.在此示例中,每1/fs /一次记录一个16位数字

因此,例如,大多数WAV/MP3被采样为44kHz的音频信号.我不知道你想要多少细节,但是有一种称为"奈奎斯特采样率"的东西说采样频率必须至少是所需频率的两倍.因此,在您的WAV/MP3文件中,您最多可以听到22 kHz的频率.

您可以在这个区域进行很多细节.最简单的形式肯定是WAV格式.它是未压缩的音频.像mp3和ogg这样的格式必须先解压缩才能使用它们.



3> Ciro Santill..:

最小C音频生成示例

以下示例以原始格式生成纯1000k Hz的正弦曲线.采样率为44.1kHz,持续4秒.

main.c中:

#include 
#include 
#include 
#include 

int main(void) {
    FILE *f;
    const double PI2 = 2 * acos(-1.0);
    const double SAMPLE_FREQ = 44100;
    const unsigned int NSAMPLES = 4 * SAMPLE_FREQ;
    uint16_t ampl;
    uint8_t bytes[2];
    unsigned int t;

    f = fopen("out.raw", "wb");
    for (t = 0; t < NSAMPLES; ++t) {
        ampl = UINT16_MAX * 0.5 * (1.0 + sin(PI2 * t * 1000.0 / SAMPLE_FREQ));
        bytes[0] = ampl >> 8;
        bytes[1] = ampl & 0xFF;
        fwrite(bytes, 2, sizeof(uint8_t), f);
    }
    fclose(f);
    return EXIT_SUCCESS;
}

生成out.raw:

gcc -std=c99 -o main main.c -lm
./main

out.raw直接玩:

sudo apt-get install ffmpeg
ffplay -autoexit -f u16be -ar 44100 -ac 1 out.raw

或转换为更常见的音频格式,然后使用更常见的音频播放器:

ffmpeg -f u16be -ar 44100 -ac 1 -i out.raw out.flac
vlc out.flac

参数解释于:https://superuser.com/a/1063230/128124

这是D synth中更有趣的佳能:以编程方式合成编程音乐?

在Ubuntu 18.04上测试过.GitHub上游.

物理

音频被编码为每个时刻的单个数字.将其与视频进行比较,视频每时刻需要WIDTH*HEIGHT数字.

然后将此数字转换为扬声器振膜的线性位移:

#include 
#include 
#include 
#include 

typedef uint16_t point_type_t;

double PI2;

void write_ampl(FILE *f, point_type_t ampl) {
    uint8_t bytes[2];
    bytes[0] = ampl >> 8;
    bytes[1] = ampl & 0xFF;
    fwrite(bytes, 2, sizeof(uint8_t), f);
}

/* https://en.wikipedia.org/wiki/Piano_key_frequencies */
double piano_freq(unsigned int i) {
    return 440.0 * pow(2, (i - 49.0) / 12.0);
}

/* Chord formed by the nth note of the piano. */
point_type_t piano_sum(unsigned int max_ampl, unsigned int time,
        double sample_freq, unsigned int nargs, unsigned int *notes) {
    unsigned int i;
    double sum = 0;
    for (i = 0 ; i < nargs; ++i)
        sum += sin(PI2 * time * piano_freq(notes[i]) / sample_freq);
    return max_ampl * 0.5 * (nargs + sum) / nargs;
}

enum notes {
    A0 = 1, AS0, B0,
    C1, C1S, D1, D1S, E1, F1, F1S, G1, G1S, A1, A1S, B1,
    C2, C2S, D2, D2S, E2, F2, F2S, G2, G2S, A2, A2S, B2,
    C3, C3S, D3, D3S, E3, F3, F3S, G3, G3S, A3, A3S, B3,
    C4, C4S, D4, D4S, E4, F4, F4S, G4, G4S, A4, A4S, B4,
    C5, C5S, D5, D5S, E5, F5, F5S, G5, G5S, A5, A5S, B5,
    C6, C6S, D6, D6S, E6, F6, F6S, G6, G6S, A6, A6S, B6,
    C7, C7S, D7, D7S, E7, F7, F7S, G7, G7S, A7, A7S, B7,
    C8,
};

int main(void) {
    FILE *f;
    PI2 = 2 * acos(-1.0);
    const double SAMPLE_FREQ = 44100;
    point_type_t ampl;
    point_type_t max_ampl = UINT16_MAX;
    unsigned int t, i;
    unsigned int samples_per_unit = SAMPLE_FREQ * 0.375;
    unsigned int *ip[] = {
        (unsigned int[]){4, 2, C3, E4},
        (unsigned int[]){4, 2, G3, D4},
        (unsigned int[]){4, 2, A3, C4},
        (unsigned int[]){4, 2, E3, B3},

        (unsigned int[]){4, 2, F3, A3},
        (unsigned int[]){4, 2, C3, G3},
        (unsigned int[]){4, 2, F3, A3},
        (unsigned int[]){4, 2, G3, B3},

        (unsigned int[]){4, 3, C3, G4, E5},
        (unsigned int[]){4, 3, G3, B4, D5},
        (unsigned int[]){4, 2, A3,     C5},
        (unsigned int[]){4, 3, E3, G4, B4},

        (unsigned int[]){4, 3, F3, C4, A4},
        (unsigned int[]){4, 3, C3, G4, G4},
        (unsigned int[]){4, 3, F3, F4, A4},
        (unsigned int[]){4, 3, G3, D4, B4},

        (unsigned int[]){2, 3, C4, E4, C5},
        (unsigned int[]){2, 3, C4, E4, C5},
        (unsigned int[]){2, 3, G3, D4, D5},
        (unsigned int[]){2, 3, G3, D4, B4},

        (unsigned int[]){2, 3, A3, C4, C5},
        (unsigned int[]){2, 3, A3, C4, E5},
        (unsigned int[]){2, 2, E3,     G5},
        (unsigned int[]){2, 2, E3,     G4},

        (unsigned int[]){2, 3, F3, A3, A4},
        (unsigned int[]){2, 3, F3, A3, F4},
        (unsigned int[]){2, 3, C3,     E4},
        (unsigned int[]){2, 3, C3,     G4},

        (unsigned int[]){2, 3, F3, A3, F4},
        (unsigned int[]){2, 3, F3, A3, C5},
        (unsigned int[]){2, 3, G3, B3, B4},
        (unsigned int[]){2, 3, G3, B3, G4},

        (unsigned int[]){2, 3, C4, E4, C5},
        (unsigned int[]){1, 3, C4, E4, E5},
        (unsigned int[]){1, 3, C4, E4, G5},
        (unsigned int[]){1, 2, G3,     G5},
        (unsigned int[]){1, 2, G3,     A5},
        (unsigned int[]){1, 2, G3,     G5},
        (unsigned int[]){1, 2, G3,     F5},

        (unsigned int[]){3, 3, A3, C4, E5},
        (unsigned int[]){1, 3, A3, C4, E5},
        (unsigned int[]){1, 3, E3, G3, E5},
        (unsigned int[]){1, 3, E3, G3, F5},
        (unsigned int[]){1, 3, E3, G3, E5},
        (unsigned int[]){1, 3, E3, G3, D5},
    };
    f = fopen("canon.raw", "wb");
    for (i = 0; i < sizeof(ip) / sizeof(int*); ++i) {
        unsigned int *cur = ip[i];
        unsigned int total = samples_per_unit * cur[0];
        for (t = 0; t < total; ++t) {
            ampl = piano_sum(max_ampl, t, SAMPLE_FREQ, cur[1], &cur[2]);
            write_ampl(f, ampl);
        }
    }
    fclose(f);
    return EXIT_SUCCESS;
}

位移推动空气向后和向前推动,产生压力差,通过空气作为P波传播.

只有位移很重要:一个恒定的信号,即使是最大的,也不会产生声音:振膜只是停留在一个固定的位置.

该采样频率决定了位移的速度应该做的.

44,1kHz是一种常见的采样频率,因为人类可以听到高达20kHz的频率,并且由于奈奎斯特 - 香农采样定理.

采样频率类似于视频的FPS,尽管它与我们通常看到的视频的25(电影院) - 144(硬核游戏监视器)范围相比具有更高的价值.

格式

.raw 是一种未指定的格式,仅包含幅度字节,而不包含元数据.

我们必须在命令行上传递一些元数据参数,如采样频率,因为格式不包含该数据.

还有其他未压缩格式包含所有需要的元数据,例如.wav,参见:从头开始的WAV文件合成 - C.

然而,在实践中,大多数人专门处理压缩格式,这使得文件/流媒体变得更小.其中一些格式考虑了人耳的特征,以有损方式进一步压缩音频.

生物学

人类主要通过频率分解(AKA 傅里叶变换)来感知声音.

我认为这是因为内耳有不同频率共振的部分(TODO确认).

因此,在合成音乐时,我们更多地考虑增加频率而不是时间点.这个例子说明了这一点.

这导致考虑每个时间点在20Hz和20kHz之间的1D向量.

数学傅里叶变换失去了时间概念,因此我们在合成时所做的是采用点组,并总结该组的频率,并在那里进行傅里叶变换.

幸运的是,傅立叶变换是线性的,所以我们可以直接加上和标准化位移.

每组点的大小导致时间 - 频率精度权衡,由与海森堡不确定性原理相同的数学介导.

小波可以是对该中间时间 - 频率描述的更精确的数学描述.

推荐阅读
ar_wen2402851455
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有