ESC
输入关键词搜索文章
目录

乐理与AI音乐生成指南

引言
让AI生成你脑海中音乐的第一步:学会用参数说话

用"悲伤的音乐"描述让AI作曲,出来的东西往往四不像——有点忧愁,但没有方向,没有重量,没有灵魂。问题不在AI不行,而在于描述不够精确。音乐是一种参数化很强的艺术:调式决定音阶,情绪决定速度,节奏决定密度,音色决定质感。把这些参数说清楚,AI才能生成你真正想要的声音。

这篇文章的目的是:让你理解音乐的核心参数(调式、速度、节奏、音色、结构),并将这些知识转化为精确的AI音乐生成Prompt,使生成结果从"听着差不多"变成"确实是"。

适用范围:历史叙事配乐、电影配乐、游戏BGM、播客背景音乐、任何需要精确情绪控制的音乐生成场景。

第一章 · 调式与音阶
调式是音乐的DNA,它决定了整首歌的"性格底色"

调式(Mode)是音乐的情感根基。同一个C音,用大调排列和用小调排列,听感截然不同。大调明亮开阔,小调暗沉内省。这是调式最基础的作用:在音乐还没开始叙事之前,它先定下了情绪的基调。

AI音乐生成时指定调式(如"C major"或"A minor"),是控制输出情绪最直接的方式。

1.1 大调与小调:最基础的情绪两极

大调(Major):明亮、开阔、积极、充满希望。适用于:商业广告、励志视频、快乐场景。代表:C大调 = C D E F G A B C。

小调(Minor):暗沉、内省、忧伤、悲剧感。适用于:悲剧场景、历史叙事、夜晚沉思。代表:A小调 = A B C D E F G A。

但小调里也有差异:自然小调(Natural Minor)是最"标准"的悲伤;旋律小调(Melodic Minor)有东方色彩;和声小调(Harmonic Minor)有强烈的不协和感,更戏剧化。

1.2 调式速查表

调式/音阶情绪关键词适用场景
大调(Major)明亮/开阔/希望/积极励志片头/广告/开心场景
自然小调(Natural Minor)忧伤/内省/平静历史叙事/夜晚/个人独白
和声小调(Harmonic Minor)戏剧性/紧张/异域感悬疑/中东风格/悲壮场景
旋律小调(Melodic Minor)复杂/深沉/东方感历史剧/亚洲场景
多里安调式(Dorian)爵士感/优雅/略带忧伤爵士/复古/精英感
弗里吉亚调式(Phrygian)西班牙感/激烈/神秘弗拉明戈/中东/紧张场景
利底亚调式(Lydian)梦幻/飘渺/超现实梦境/科幻/失重感
混合利底亚(Mixolydian)蓝调感/流行/温暖摇滚/流行/轻松场景
洛克里亚调式(Locrian)极度不安/不稳定实验性/黑暗/压迫

1.3 指定调式的AI Prompt写法

大调写法:"in C major", "C major key"

小调写法:"in A minor", "A minor, harmonic minor"

调式加风格:"in D minor, dark and dramatic", "C major, bright and uplifting"

第二章 · 速度与节奏
慢板才有重量——速度是音乐情感重量的刻度

音乐速度(BPM)不仅影响听感活跃度,更决定了音符能承载多少情感重量。慢速音乐(60-80 BPM)的每个音符之间有充足的呼吸空间,这种空白本身就是情绪的一部分。快速音乐(120+ BPM)适合活力和紧张感,但用于严肃叙事时会显得轻浮。

2.1 BPM与情绪对照表

BPM范围速度标签情绪特征适用场景
40-60极慢板(Grave/Largo)沉重/庄严/史诗帝国衰落/历史悲剧/最深沉的叙事
60-80慢板(Adagio/Lento)忧伤/沉思/内省个人独白/夜晚场景/历史叙事
80-100中速(Andante/Moderato)平静/叙事/流动纪录片/行路场景/中性叙事
100-120快板(Allegro)活力/张力/希望冲突/高潮/转折点
120-160急板(Presto/Vivace)极度紧张/兴奋/危机追逐/战斗/危机时刻
160+狂板(Prestissimo)极度紧迫/混乱极度混乱/灾难性场景

2.2 节奏型:音乐的骨架

节奏型(Rhythm Pattern)决定了音乐的骨架和脉动感。不同节拍有不同的性格:

  • 4/4拍:最常见,稳定感强,适合大多数叙事
  • 3/4拍:圆舞曲式,轻盈但有摇摆感,适合流动的场景
  • 6/8拍:两拍三连的复合拍,有推进感,适合旅程、行进
  • 5/4拍:不规则感,紧张不安,适合心理失衡场景
  • 7/8拍:中东/巴尔干地区常见,独特的不平衡感

2.3 节奏密度

音乐的节奏密度也是情绪参数:

  • 稀疏节奏:音符之间有大段空白——适合沉思、独白、历史叙事
  • 中等密度:稳定脉动——适合纪录片、背景音乐
  • 密集节奏:多声部交织——适合高潮、冲突、戏剧性场景
第三章 · 乐器与音色
每件乐器都有自己的"声音人格"——选错乐器,叙事就错了

乐器是音乐叙事的音色载体。同一个旋律,用钢琴演奏和用失真电吉他演奏,情绪截然不同。选择什么乐器,就是选择了什么"声音人格"来讲述故事。

3.1 常见乐器的声音人格

乐器声音人格适合的情绪场景
钢琴(Piano)清澈/多面/现代/古典两栖通用叙事/个人独白/中性背景
古典吉他(Classical Guitar)温暖/亲密/民间感/历史感个人叙事/西班牙/地中海场景
电吉他(Electric Guitar)力量/现代/反叛/张力冲突/张力/现代场景/摇滚
大提琴(Cello)深沉/歌唱性/人类情感悲剧/深沉/个人痛苦
小提琴(Violin)哀怨/明亮/激情/张力戏剧性/历史叙事/高潮
中提琴/低音提琴沉稳/厚重/历史感深沉叙事/古典/史诗
铜管(法国号/小号)庄严/壮丽/仪式感史诗/军事/帝国/仪式
萨克斯(Tenor)爵士感/都市感/忧郁夜晚/都市/爵士/成熟
竖琴(Harp)梦幻/轻盈/超现实梦境/神话/天堂场景
手风琴(Accordion)欧洲感/怀旧/民间巴黎/怀旧/欧洲历史
班卓琴(Banjo)美国南部/民间/乡村美国乡村/拓荒/民间故事
日本筝(Koto)东方/日本/空灵/禅意日本历史/东方叙事/冥想
笛子(Flute)空灵/自然/孤独/东方自然场景/东方/孤独/冥想
定音鼓/大鼓心跳/沉重/命运危机/倒计时/命运感
合成器(Synth)现代/科技/未来/冷峻科幻/科技/赛博朋克

3.2 乐器组合配方(按场景)

场景主奏乐器伴奏乐器节奏特征
帝国衰落/历史悲剧大提琴或低音乐器弦乐群+定音鼓极慢/稀疏/沉重
个人独白/沉思钢琴或尼龙吉他无或极简无节奏(自由拍)
战争/军事铜管(号角/法国号)定音鼓+弦乐稳定进行曲/快步
都市夜晚/爵士氛围萨克斯或钢琴低音提琴+轻柔鼓点Bossa nova或慢爵士
自然/地理纪录片长笛+古典吉他弦乐或无流动/无压力
危机/灾难合成器+定音鼓铜管+弦乐下行速度递增/紧张
希望/救赎/光明钢琴或弦乐群铜管高音渐强/从弱到强
第四章 · 音乐结构
音乐结构是叙事的起承转合——无结构的音乐没有方向

音乐结构和文章结构一样,需要有起点、展开、高潮、落点。没有结构的音乐,听起来像即兴表演——有材料,但没有方向。

4.1 常用音乐结构

  • ABA(带再现的单二部):提出(A)→展开(B)→回归(A)——平衡感强,适合短作品
  • ABC(三段式):A → B(对比)→ C(进一步展开或回归)——叙事感强
  • 倒装再现(A' B A):展开后回归开头,情感闭环感强——适合悲剧叙事
  • 渐进式(Build):从极简开始,逐步加入乐器,层层叠加至高潮——适合电影配乐最常用
  • 自由结构(Through-composed):无重复段落,持续变化——适合文学性强的叙事

4.2 叙事配乐推荐结构

对于历史叙事、纪录片配乐,推荐的AI生成结构描述:

"Ambient opening with sparse piano chords → strings gradually enter → tension builds with percussion → climactic resolve with full orchestra → melancholic outro with solo cello"(环境音开场→弦乐渐入→加入定音鼓构建张力→完整管弦乐高潮→大提琴独白收尾)

4.3 动态范围:强弱的对比制造情感

音乐的动态范围(强弱对比)是情感张力的重要来源:

  • 大动态:极弱→极强,适合戏剧性叙事(危机、帝国崩塌)
  • 中动态:稳定的中间强度,适合背景音乐,不抢注意力
  • 小动态:持续平稳,无突出对比,适合持续聆听的场景
第五章 · 情绪到参数的转换
把"我想要这种感觉"翻译成精确的AI Prompt

这一章是实操核心:给定一个情绪目标,如何拆解为音乐参数,并组合成完整的AI生成Prompt。

5.1 参数优先级

Prompt中各元素的重要程度(优先级,从高到低):

  1. 调式/音阶(Major/Minor/Dorian...)——情绪根基,必须指定
  2. 速度/BPM("65 BPM")——情感重量,精确数字
  3. 主奏乐器(cello/piano/oud...)——声音人格的载体
  4. 情绪描述(melancholic/solemn...)——整体氛围
  5. 使用场景(historical documentary/film score...)——帮助AI理解用途
  6. 结构描述(ambient intro → build → resolve)——叙事方向
  7. 动态描述(piano → fortissimo → fade)——音乐进程

5.2 Prompt模板

[调式], [速度+BPM], [主奏乐器], [情绪描述], [使用场景], [结构描述]

组合示例:

"in D minor, slow 65 BPM, solo cello with subtle strings, melancholic and solemn, historical documentary score, ambient opening with sparse notes gradually builds tension"

5.3 场景到参数的映射

情绪/场景调式BPM主奏乐器结构特征
帝国衰落/历史悲歌小调/和声小调40-70大提琴/低音弦乐渐进式+悲壮收尾
战争/军事小调或大调进行曲100-120铜管+定音鼓稳定脉动+渐强
个人独白/沉思自然小调55-75钢琴/古典吉他自由/无节奏/即兴感
希望/救赎/光明大调或利底亚80-100钢琴+弦乐群从弱到强/渐强结构
危机/压迫和声小调/洛克里亚60-80合成器+定音鼓递增紧张/无释放
夜晚/爵士氛围多里安调式80-110萨克斯/钢琴循环即兴/慵懒
自然/地理大调或混合利底亚70-90长笛+古典吉他流动/开放/无压力
追逐/紧张小调120-160电吉他+合成器密集节奏/持续张力
神话/超现实利底亚/大调60-80竖琴+弦乐飘渺/混响/延迟
东方历史旋律小调/五声音阶50-80笛子/筝/二胡线性叙事/无和声
第六章 · AI音乐生成工具
mmx music命令的参数说明

当前使用的AI音乐生成工具是MiniMax CLI(mmx)。以下是音乐生成的完整参数说明。

6.1 基础命令格式

mmx music generate \
  --prompt "..." \
  --instrumental \
  --out <输出路径> \
  --quiet

6.2 完整参数表

参数说明示例
--prompt完整音乐描述(所有核心参数)"in D minor, 65 BPM..."
--lyrics歌词(纯音乐则用--instrumental)--lyrics "[主歌]..."
--instrumental纯音乐无人声--instrumental
--vocals人声风格描述"warm male baritone"
--genre音乐流派"classical", "jazz", "folk"
--mood情绪"melancholic", "uplifting"
--instruments主打乐器"cello, piano, strings"
--tempo速度描述(文字)"slow", "moderate", "fast"
--bpm精确BPM(数字)65
--key调性"C major", "A minor"
--structure歌曲结构"verse-chorus-verse"
--use-case使用场景"background music for documentary"
--out输出路径~/.../audio/bgm.mp3

6.3 场景命令示例

历史叙事悲歌(BPM65,小调,大提琴)

mmx music generate \
  --prompt "in D minor, melancholic and solemn, solo cello with subtle strings, slow tempo 65 BPM, ambient opening with sparse notes gradually builds tension, historical documentary score,悲壮的叙事感" \
  --instrumental \
  --out ~/gongshangzheng.github.io/media/audio/historical-bgm.mp3 \
  --quiet

帝国衰落深沉叙事(BPM55,和声小调,低音弦乐)

mmx music generate \
  --prompt "in A harmonic minor, deeply melancholic, low strings and cello, very slow tempo 55 BPM, cinematic atmosphere, no percussion, ambient opening with minimal notes then gradual orchestral build, empire decline historical score" \
  --instrumental \
  --out ~/gongshangzheng.github.io/media/audio/empire-bgm.mp3 \
  --quiet

爵士夜晚氛围(BPM90,多里安调式,萨克斯)

mmx music generate \
  --prompt "in D Dorian mode, jazz, warm and slightly melancholic, tenor saxophone with piano and double bass, moderate tempo 90 BPM, bossa nova rhythm, late night urban atmosphere, sophisticated and mature mood" \
  --instrumental \
  --out ~/gongshangzheng.github.io/media/audio/jazz-night.mp3 \
  --quiet

自然纪录片(BPM75,大调,长笛+吉他)

mmx music generate \
  --prompt "in C major, serene and peaceful, flute with classical guitar, moderate tempo 75 BPM, flowing and organic, nature documentary score, wide open atmosphere, gentle and flowing" \
  --instrumental \
  --out ~/gongshangzheng.github.io/media/audio/nature-bgm.mp3 \
  --quiet
第七章 · 常见错误
这些错误让AI生成的音乐偏离你的想象

错误1:指定"传统乐器"而非具体乐器

❌ "traditional instruments"

✅ "cello, classical guitar, violin"

AI对"传统乐器"的理解是模糊的——它可能生成的是民乐合奏或西方古典交响乐队,取决于训练数据中的权重。具体乐器名才能精确控制输出。

错误2:说"slow tempo"而非精确BPM

❌ "slow tempo"

✅ "slow tempo 65 BPM"

"slow"对不同人的含义不同。AI对速度的感知需要精确数字来锚定。BPM比速度形容词可靠得多。

错误3:只说"悲伤音乐"

❌ "sad music"

✅ "melancholic, slow 60 BPM, solo cello in A minor"

"悲伤"是一个方向,但不是参数。AI需要知道是什么类型的悲伤——沉重的?小调?快?还是缓慢的沉思?

错误4:不指定调式

❌ "cinematic music"

✅ "cinematic, in D minor, slow 65 BPM"

调式是AI最强大的情绪控制参数。省略调式,AI会用训练数据中权重最高的东西填充——通常是流行大调。

错误5:Prompt太长反而失去焦点

⚠️ 3-5句完整的参数描述效果最佳。过长的Prompt(10句以上)可能让AI的注意力分散,抓不住核心方向。

主要参考来源