乐理与AI音乐生成指南
用"悲伤的音乐"描述让AI作曲,出来的东西往往四不像——有点忧愁,但没有方向,没有重量,没有灵魂。问题不在AI不行,而在于描述不够精确。音乐是一种参数化很强的艺术:调式决定音阶,情绪决定速度,节奏决定密度,音色决定质感。把这些参数说清楚,AI才能生成你真正想要的声音。
这篇文章的目的是:让你理解音乐的核心参数(调式、速度、节奏、音色、结构),并将这些知识转化为精确的AI音乐生成Prompt,使生成结果从"听着差不多"变成"确实是"。
适用范围:历史叙事配乐、电影配乐、游戏BGM、播客背景音乐、任何需要精确情绪控制的音乐生成场景。
调式(Mode)是音乐的情感根基。同一个C音,用大调排列和用小调排列,听感截然不同。大调明亮开阔,小调暗沉内省。这是调式最基础的作用:在音乐还没开始叙事之前,它先定下了情绪的基调。
AI音乐生成时指定调式(如"C major"或"A minor"),是控制输出情绪最直接的方式。
1.1 大调与小调:最基础的情绪两极
大调(Major):明亮、开阔、积极、充满希望。适用于:商业广告、励志视频、快乐场景。代表:C大调 = C D E F G A B C。
小调(Minor):暗沉、内省、忧伤、悲剧感。适用于:悲剧场景、历史叙事、夜晚沉思。代表:A小调 = A B C D E F G A。
但小调里也有差异:自然小调(Natural Minor)是最"标准"的悲伤;旋律小调(Melodic Minor)有东方色彩;和声小调(Harmonic Minor)有强烈的不协和感,更戏剧化。
1.2 调式速查表
| 调式/音阶 | 情绪关键词 | 适用场景 |
|---|---|---|
| 大调(Major) | 明亮/开阔/希望/积极 | 励志片头/广告/开心场景 |
| 自然小调(Natural Minor) | 忧伤/内省/平静 | 历史叙事/夜晚/个人独白 |
| 和声小调(Harmonic Minor) | 戏剧性/紧张/异域感 | 悬疑/中东风格/悲壮场景 |
| 旋律小调(Melodic Minor) | 复杂/深沉/东方感 | 历史剧/亚洲场景 |
| 多里安调式(Dorian) | 爵士感/优雅/略带忧伤 | 爵士/复古/精英感 |
| 弗里吉亚调式(Phrygian) | 西班牙感/激烈/神秘 | 弗拉明戈/中东/紧张场景 |
| 利底亚调式(Lydian) | 梦幻/飘渺/超现实 | 梦境/科幻/失重感 |
| 混合利底亚(Mixolydian) | 蓝调感/流行/温暖 | 摇滚/流行/轻松场景 |
| 洛克里亚调式(Locrian) | 极度不安/不稳定 | 实验性/黑暗/压迫 |
1.3 指定调式的AI Prompt写法
大调写法:"in C major", "C major key"
小调写法:"in A minor", "A minor, harmonic minor"
调式加风格:"in D minor, dark and dramatic", "C major, bright and uplifting"
音乐速度(BPM)不仅影响听感活跃度,更决定了音符能承载多少情感重量。慢速音乐(60-80 BPM)的每个音符之间有充足的呼吸空间,这种空白本身就是情绪的一部分。快速音乐(120+ BPM)适合活力和紧张感,但用于严肃叙事时会显得轻浮。
2.1 BPM与情绪对照表
| BPM范围 | 速度标签 | 情绪特征 | 适用场景 |
|---|---|---|---|
| 40-60 | 极慢板(Grave/Largo) | 沉重/庄严/史诗 | 帝国衰落/历史悲剧/最深沉的叙事 |
| 60-80 | 慢板(Adagio/Lento) | 忧伤/沉思/内省 | 个人独白/夜晚场景/历史叙事 |
| 80-100 | 中速(Andante/Moderato) | 平静/叙事/流动 | 纪录片/行路场景/中性叙事 |
| 100-120 | 快板(Allegro) | 活力/张力/希望 | 冲突/高潮/转折点 |
| 120-160 | 急板(Presto/Vivace) | 极度紧张/兴奋/危机 | 追逐/战斗/危机时刻 |
| 160+ | 狂板(Prestissimo) | 极度紧迫/混乱 | 极度混乱/灾难性场景 |
2.2 节奏型:音乐的骨架
节奏型(Rhythm Pattern)决定了音乐的骨架和脉动感。不同节拍有不同的性格:
- 4/4拍:最常见,稳定感强,适合大多数叙事
- 3/4拍:圆舞曲式,轻盈但有摇摆感,适合流动的场景
- 6/8拍:两拍三连的复合拍,有推进感,适合旅程、行进
- 5/4拍:不规则感,紧张不安,适合心理失衡场景
- 7/8拍:中东/巴尔干地区常见,独特的不平衡感
2.3 节奏密度
音乐的节奏密度也是情绪参数:
- 稀疏节奏:音符之间有大段空白——适合沉思、独白、历史叙事
- 中等密度:稳定脉动——适合纪录片、背景音乐
- 密集节奏:多声部交织——适合高潮、冲突、戏剧性场景
乐器是音乐叙事的音色载体。同一个旋律,用钢琴演奏和用失真电吉他演奏,情绪截然不同。选择什么乐器,就是选择了什么"声音人格"来讲述故事。
3.1 常见乐器的声音人格
| 乐器 | 声音人格 | 适合的情绪场景 |
|---|---|---|
| 钢琴(Piano) | 清澈/多面/现代/古典两栖 | 通用叙事/个人独白/中性背景 |
| 古典吉他(Classical Guitar) | 温暖/亲密/民间感/历史感 | 个人叙事/西班牙/地中海场景 |
| 电吉他(Electric Guitar) | 力量/现代/反叛/张力 | 冲突/张力/现代场景/摇滚 |
| 大提琴(Cello) | 深沉/歌唱性/人类情感 | 悲剧/深沉/个人痛苦 |
| 小提琴(Violin) | 哀怨/明亮/激情/张力 | 戏剧性/历史叙事/高潮 |
| 中提琴/低音提琴 | 沉稳/厚重/历史感 | 深沉叙事/古典/史诗 |
| 铜管(法国号/小号) | 庄严/壮丽/仪式感 | 史诗/军事/帝国/仪式 |
| 萨克斯(Tenor) | 爵士感/都市感/忧郁 | 夜晚/都市/爵士/成熟 |
| 竖琴(Harp) | 梦幻/轻盈/超现实 | 梦境/神话/天堂场景 |
| 手风琴(Accordion) | 欧洲感/怀旧/民间 | 巴黎/怀旧/欧洲历史 |
| 班卓琴(Banjo) | 美国南部/民间/乡村 | 美国乡村/拓荒/民间故事 |
| 日本筝(Koto) | 东方/日本/空灵/禅意 | 日本历史/东方叙事/冥想 |
| 笛子(Flute) | 空灵/自然/孤独/东方 | 自然场景/东方/孤独/冥想 |
| 定音鼓/大鼓 | 心跳/沉重/命运 | 危机/倒计时/命运感 |
| 合成器(Synth) | 现代/科技/未来/冷峻 | 科幻/科技/赛博朋克 |
3.2 乐器组合配方(按场景)
| 场景 | 主奏乐器 | 伴奏乐器 | 节奏特征 |
|---|---|---|---|
| 帝国衰落/历史悲剧 | 大提琴或低音乐器 | 弦乐群+定音鼓 | 极慢/稀疏/沉重 |
| 个人独白/沉思 | 钢琴或尼龙吉他 | 无或极简 | 无节奏(自由拍) |
| 战争/军事 | 铜管(号角/法国号) | 定音鼓+弦乐 | 稳定进行曲/快步 |
| 都市夜晚/爵士氛围 | 萨克斯或钢琴 | 低音提琴+轻柔鼓点 | Bossa nova或慢爵士 |
| 自然/地理纪录片 | 长笛+古典吉他 | 弦乐或无 | 流动/无压力 |
| 危机/灾难 | 合成器+定音鼓 | 铜管+弦乐下行 | 速度递增/紧张 |
| 希望/救赎/光明 | 钢琴或弦乐群 | 铜管高音 | 渐强/从弱到强 |
音乐结构和文章结构一样,需要有起点、展开、高潮、落点。没有结构的音乐,听起来像即兴表演——有材料,但没有方向。
4.1 常用音乐结构
- ABA(带再现的单二部):提出(A)→展开(B)→回归(A)——平衡感强,适合短作品
- ABC(三段式):A → B(对比)→ C(进一步展开或回归)——叙事感强
- 倒装再现(A' B A):展开后回归开头,情感闭环感强——适合悲剧叙事
- 渐进式(Build):从极简开始,逐步加入乐器,层层叠加至高潮——适合电影配乐最常用
- 自由结构(Through-composed):无重复段落,持续变化——适合文学性强的叙事
4.2 叙事配乐推荐结构
对于历史叙事、纪录片配乐,推荐的AI生成结构描述:
"Ambient opening with sparse piano chords → strings gradually enter → tension builds with percussion → climactic resolve with full orchestra → melancholic outro with solo cello"(环境音开场→弦乐渐入→加入定音鼓构建张力→完整管弦乐高潮→大提琴独白收尾)
4.3 动态范围:强弱的对比制造情感
音乐的动态范围(强弱对比)是情感张力的重要来源:
- 大动态:极弱→极强,适合戏剧性叙事(危机、帝国崩塌)
- 中动态:稳定的中间强度,适合背景音乐,不抢注意力
- 小动态:持续平稳,无突出对比,适合持续聆听的场景
这一章是实操核心:给定一个情绪目标,如何拆解为音乐参数,并组合成完整的AI生成Prompt。
5.1 参数优先级
Prompt中各元素的重要程度(优先级,从高到低):
- 调式/音阶(Major/Minor/Dorian...)——情绪根基,必须指定
- 速度/BPM("65 BPM")——情感重量,精确数字
- 主奏乐器(cello/piano/oud...)——声音人格的载体
- 情绪描述(melancholic/solemn...)——整体氛围
- 使用场景(historical documentary/film score...)——帮助AI理解用途
- 结构描述(ambient intro → build → resolve)——叙事方向
- 动态描述(piano → fortissimo → fade)——音乐进程
5.2 Prompt模板
[调式], [速度+BPM], [主奏乐器], [情绪描述], [使用场景], [结构描述]
组合示例:
"in D minor, slow 65 BPM, solo cello with subtle strings, melancholic and solemn, historical documentary score, ambient opening with sparse notes gradually builds tension"
5.3 场景到参数的映射
| 情绪/场景 | 调式 | BPM | 主奏乐器 | 结构特征 |
|---|---|---|---|---|
| 帝国衰落/历史悲歌 | 小调/和声小调 | 40-70 | 大提琴/低音弦乐 | 渐进式+悲壮收尾 |
| 战争/军事 | 小调或大调进行曲 | 100-120 | 铜管+定音鼓 | 稳定脉动+渐强 |
| 个人独白/沉思 | 自然小调 | 55-75 | 钢琴/古典吉他 | 自由/无节奏/即兴感 |
| 希望/救赎/光明 | 大调或利底亚 | 80-100 | 钢琴+弦乐群 | 从弱到强/渐强结构 |
| 危机/压迫 | 和声小调/洛克里亚 | 60-80 | 合成器+定音鼓 | 递增紧张/无释放 |
| 夜晚/爵士氛围 | 多里安调式 | 80-110 | 萨克斯/钢琴 | 循环即兴/慵懒 |
| 自然/地理 | 大调或混合利底亚 | 70-90 | 长笛+古典吉他 | 流动/开放/无压力 |
| 追逐/紧张 | 小调 | 120-160 | 电吉他+合成器 | 密集节奏/持续张力 |
| 神话/超现实 | 利底亚/大调 | 60-80 | 竖琴+弦乐 | 飘渺/混响/延迟 |
| 东方历史 | 旋律小调/五声音阶 | 50-80 | 笛子/筝/二胡 | 线性叙事/无和声 |
当前使用的AI音乐生成工具是MiniMax CLI(mmx)。以下是音乐生成的完整参数说明。
6.1 基础命令格式
mmx music generate \ --prompt "..." \ --instrumental \ --out <输出路径> \ --quiet
6.2 完整参数表
| 参数 | 说明 | 示例 |
|---|---|---|
| --prompt | 完整音乐描述(所有核心参数) | "in D minor, 65 BPM..." |
| --lyrics | 歌词(纯音乐则用--instrumental) | --lyrics "[主歌]..." |
| --instrumental | 纯音乐无人声 | --instrumental |
| --vocals | 人声风格描述 | "warm male baritone" |
| --genre | 音乐流派 | "classical", "jazz", "folk" |
| --mood | 情绪 | "melancholic", "uplifting" |
| --instruments | 主打乐器 | "cello, piano, strings" |
| --tempo | 速度描述(文字) | "slow", "moderate", "fast" |
| --bpm | 精确BPM(数字) | 65 |
| --key | 调性 | "C major", "A minor" |
| --structure | 歌曲结构 | "verse-chorus-verse" |
| --use-case | 使用场景 | "background music for documentary" |
| --out | 输出路径 | ~/.../audio/bgm.mp3 |
6.3 场景命令示例
历史叙事悲歌(BPM65,小调,大提琴)
mmx music generate \ --prompt "in D minor, melancholic and solemn, solo cello with subtle strings, slow tempo 65 BPM, ambient opening with sparse notes gradually builds tension, historical documentary score,悲壮的叙事感" \ --instrumental \ --out ~/gongshangzheng.github.io/media/audio/historical-bgm.mp3 \ --quiet
帝国衰落深沉叙事(BPM55,和声小调,低音弦乐)
mmx music generate \ --prompt "in A harmonic minor, deeply melancholic, low strings and cello, very slow tempo 55 BPM, cinematic atmosphere, no percussion, ambient opening with minimal notes then gradual orchestral build, empire decline historical score" \ --instrumental \ --out ~/gongshangzheng.github.io/media/audio/empire-bgm.mp3 \ --quiet
爵士夜晚氛围(BPM90,多里安调式,萨克斯)
mmx music generate \ --prompt "in D Dorian mode, jazz, warm and slightly melancholic, tenor saxophone with piano and double bass, moderate tempo 90 BPM, bossa nova rhythm, late night urban atmosphere, sophisticated and mature mood" \ --instrumental \ --out ~/gongshangzheng.github.io/media/audio/jazz-night.mp3 \ --quiet
自然纪录片(BPM75,大调,长笛+吉他)
mmx music generate \ --prompt "in C major, serene and peaceful, flute with classical guitar, moderate tempo 75 BPM, flowing and organic, nature documentary score, wide open atmosphere, gentle and flowing" \ --instrumental \ --out ~/gongshangzheng.github.io/media/audio/nature-bgm.mp3 \ --quiet
错误1:指定"传统乐器"而非具体乐器
❌ "traditional instruments"
✅ "cello, classical guitar, violin"
AI对"传统乐器"的理解是模糊的——它可能生成的是民乐合奏或西方古典交响乐队,取决于训练数据中的权重。具体乐器名才能精确控制输出。
错误2:说"slow tempo"而非精确BPM
❌ "slow tempo"
✅ "slow tempo 65 BPM"
"slow"对不同人的含义不同。AI对速度的感知需要精确数字来锚定。BPM比速度形容词可靠得多。
错误3:只说"悲伤音乐"
❌ "sad music"
✅ "melancholic, slow 60 BPM, solo cello in A minor"
"悲伤"是一个方向,但不是参数。AI需要知道是什么类型的悲伤——沉重的?小调?快?还是缓慢的沉思?
错误4:不指定调式
❌ "cinematic music"
✅ "cinematic, in D minor, slow 65 BPM"
调式是AI最强大的情绪控制参数。省略调式,AI会用训练数据中权重最高的东西填充——通常是流行大调。
错误5:Prompt太长反而失去焦点
⚠️ 3-5句完整的参数描述效果最佳。过长的Prompt(10句以上)可能让AI的注意力分散,抓不住核心方向。
主要参考来源
- Wikipedia — Musical mode
- Wikipedia — Tempo
- Wikipedia — Music theory
- Britannica — Musical composition
- Ableton — Learning Music
- 曼昆《经济学原理》(写作框架参考)
- 格雷厄姆《聪明的投资者》(系统构建参考)