AI 驱动工具

AI 音乐视频脚本生成器

上传歌曲，确认时间轴歌词，为每个分镜生成可编辑的图片和视频提示词。

上传音频

拖拽音频文件到此处或点击选择

MP3、WAV、M4A · 最大 50MB

歌词来源

MV 方向

发布格式

需要免费注册账号才能生成脚本

费用：2 积分

3 种脚本风格
3 种歌词来源
可编辑提示词
下载 JSON
支持所有音频格式
每次生成仅 2 积分

什么是音乐视频脚本？

把一首完成的歌曲转换为可直接开拍、可动画化、或可喂给 AI 视频模型的音乐视频脚本。

音乐视频脚本是一份按时间轴排列的蓝图，把歌曲的每一秒映射到具体的视觉瞬间。与分镜图（静态画面）或镜头清单（只写镜头运动）不同，一份合格的脚本会把场景描述、镜头语言、人物动作和负面提示词绑定到具体的时间码上。最终输出可以独立存在：交给动画师、AI 视频模型或拍摄团队，他们做出的都会是同一支视频。

过去手写这份文档意味着在 DAW 里反复拖动播放头、在 Excel 里敲场景备注，每改一次歌词就要重新对齐。AI 音乐视频脚本生成器把这个流程反过来：工具先听音频、读取带词级时间戳的歌词，再在不到一分钟内生成完整的时间轴脚本。输出是结构化 JSON，可以直接在浏览器里编辑、导出，或直接送给图片和视频生成模型。

这款音乐视频脚本生成器不是用来替代导演创意的。如果你已经拍完了 MV，只是需要剪辑、调色或混音，你不需要脚本。它最适合的场景是：歌曲已经完成但还没有画面、想在确定拍摄预算前多试几个视觉方向、或者你已经在用 Veo、Runway、Seedance 这类模型做 AI 视频流程，需要一套整链路提示词。

AV script format: two-column timecode-locked scene list — 输出遵循行业标准的 AV Script 格式：按时间码锁定行，左侧是视频方向，右侧是对齐好的歌词。逐行可编辑，可导出为 JSON 或 Markdown。

AI 生成的音乐视频脚本包含什么

每个场景都有六个字段。每个字段对应制作流程中的一个具体环节。

音乐视频脚本生成器跑完后，你看到的不是一整段文字，而是一份结构化的场景列表。下面是每个字段的作用，以及编辑时应该关注什么。

场景标题

一行字描述这场戏，让你在 20 个场景的脚本里不用读完每条提示词就能跳转。

Example: 副歌雨夜特写

时间范围

精确到秒的开始和结束时间戳，与音频波形同步。决定每一次剪切和转场。

Example: 0:42 – 0:50

故事节拍

这一场戏在情绪和叙事上发生了什么。保证整支视频的故事弧线不垮。

Example: 主角停下脚步回头望——全片第一次出现静止。

图片提示词

描述静态画面：主体、灯光、构图、色彩。直接喂给 Nano Banana、Midjourney 等图片模型。

Example: 特写，穿湿皮夹克的短发女孩，霓虹灯倒影在水坑里，电影感 9:16。

视频提示词

描述运动：镜头运动、人物动作、环境变化。喂给 Veo、Runway、Seedance、Kling。

Example: 镜头缓缓上摇，她抬起头；雨势变大；向前迈一步。

负面提示词

列出不要出现的东西：多出的手指、文字水印、版权形象等。AI 生成画面时保证一致性必备。

Example: nsfw, text, watermark, logo, extra limbs, blurry, celebrity likeness

工作流程

四步从音频文件到可编辑、可导出的脚本。

Step 1

上传你的歌曲

拖入音频文件，工具自动检测时长并准备分镜时间轴。

MP3、WAV 或 M4A，最大 50MB、最长 10 分钟。

Tip: 歌曲超过 10 分钟先在 DAW 里裁一刀。音频过长会让分镜数量变得不合理。

Step 2

确认时间轴歌词

三种方式拿到词级时间戳，脚本结构依赖这层对齐。

AI 识别用 Whisper 做语音转文本；粘贴对齐把纯歌词对到音频上；导入接受 LRC 或 SRT。

Tip: 非英文人声、混响很重或伴奏很吵的音频，建议用粘贴对齐。识别准确度在嘈杂音源上会下降。

Step 3

选择视觉方向

三种脚本风格选一种，并选画幅。这一步锁定整支脚本的视觉语言。

电影故事适合带角色连贯性的 3D 动画，写实 MV 适合照片级画面，抽象视觉适合以色彩和运动为主的场景。

Tip: 画幅跟着发布平台走。TikTok 和 Reels 用 9:16，YouTube 用 16:9，1:1 只在跨平台发图时才用。

Step 4

生成、编辑、导出

音乐视频脚本生成器大约 60 秒内返回完整脚本。每个字段都能编辑。可导出 JSON 进入制作流程，或复制为 Markdown 分享。

输出是结构化 JSON，每个场景包含六个字段，外加整体视觉风格摘要和（电影故事模式下的）角色候选。

Tip: 某条图片提示词不满意就重写，用大白话写也行。下游的图片和视频模型完全读得懂自然语言。

三种风格，三种不同的视觉语言

每种风格锁定的是不同的默认值——别把它们当模板，要把它们当成三条不同的制作流水线。

电影故事

最适合：叙事型歌曲、角色弧线、概念专辑

3D 动画、风格化角色与场景

生成器会先产出带视觉描述的角色候选，再写逐场景的故事节拍和连贯性锚点。这些锚点用来保证同一个角色在每一个镜头里都还能被认出来——这是 AI 视频最常见的失败点。当歌词讲的是一个有清晰主角的故事时用这种。

Output: 角色候选、逐场景故事节拍、连贯性锚点

写实 MV

最适合：艺人宣传片、演出画面、电影级氛围作品

照片级画面、自然光、真实场景

提示词专门为照片级视频模型写——自然光语言、真实场景线索、真实的镜头运动。不会出现风格化或卡通标记。当你希望最终画面看起来像实景拍摄时用这种。

Output: 真实场景、自然光、真实镜头运动

抽象视觉

最适合：电子音乐、氛围曲目、情绪驱动视觉

超现实构图、色彩驱动场景、实验性运动

角色和叙事语言被剥离，生成器优先输出色彩方案、运动关键词和氛围描述。当音轨的能量比任何故事都重要、或你打算在纯视觉画面上叠歌词时，这是对的选择。

Output: 色彩方案、运动关键词、氛围描述

看看你的脚本长什么样

以下是 AI 音乐视频脚本生成器为一首真实的 4 分钟歌曲生成的示例输出

视觉风格

Cinematic 3D animation, vibrant color palette, dynamic lighting, playful textures, and stylized character design.

为一首 4:05 的歌曲生成了 17 个分镜

Scene 10:00 – 0:15

图片提示词

Close-up shot: The Young Man with a circus-inspired outfit looks frustrated as he faces a glowing game board with sharp edges. Dark, moody atmosphere. Bright focused lighting on the game board. 16:9.

视频提示词

Camera slowly pans down as the Young Man clenches his fists and steps back from the game board.

Scene 51:00 – 1:15

图片提示词

Mid-shot: The Young Man is stepping onto a carnival stage, balancing a toy on his hand, while the Young Woman gives a thumbs-up from the side, illuminating the scene with her bright smile. Stage lights shining down vibrantly. 16:9.

视频提示词

Camera tracks from behind as the Young Man takes a deep breath and lifts the toy high, while the Young Woman cheers him on with a radiant expression.

Scene 92:00 – 2:15

图片提示词

Wide shot: The Young Man stands tall against a backdrop of an ecstatic crowd, all applauding while he displays his creation with pride, the Young Woman beside him cheering. Rainbow light effects illuminating the scene. 16:9.

视频提示词

Camera raises dramatically as their triumph fills the space with energy, focusing on their joyful expressions.

音乐视频脚本生成器的实际输出将包含所有分镜的时间范围、歌词映射和可编辑提示词。

这款音乐视频脚本生成器是为谁做的

四种具体工作流——拿到时间轴脚本后能立刻进入下一步。

独立音乐人和唱作人

歌已经写好，你知道它应该是什么感觉，但没有导演、也没有分镜师。上传音轨、选一个视觉风格，拿到一份完整的场景清单——可以交给外包动画师、自己拿手机和朋友拍、或者周末花两天喂给 AI 视频工具。

AI 视频创作者和提示词工程师

你已经在用 Veo、Runway、Kling、Seedance——但每次都是一个一个写提示词，画面在场景之间越来越跳。这个工具一次性给你整套按场景对齐、模型就绪的提示词，包含负面提示词，让每一段画面看起来都像同一支视频。

MV 导演和制作团队

把它当前期工具用。一分钟拿到镜头清单的初稿，然后细化提示词、重排场景、锁定视觉风格，再给摄影指导或动画师下任务。JSON 导出可以直接粘到 Notion、Airtable 或你们组的制作表格里。

内容营销和社媒运营

TikTok、Reels、Shorts 上的品牌音乐内容大多死在创意阶段，因为做分镜太慢。这个工具能在你写完 brief 的时间里产出 15 到 30 秒品牌片段的可用视觉方案，并且直接给你在社交上真正能跑的竖屏画幅。

脚本生成器 vs. 手写 vs. ChatGPT

抛开营销话术——AI 音乐视频脚本生成器到底有什么不同。

能力	手写	ChatGPT	本工具
初稿耗时	每首歌 2–4 小时	约 10 分钟	约 60 秒
按音频对齐时间轴	DAW 里手动标记时间码	无音频感知	读波形，自动对齐场景
歌词对齐	手敲时间戳	只有在你粘贴时间戳时才行	Whisper 词级对齐
提示词格式	自由文本，不统一	自由文本，风格泛泛	结构化，针对 AI 视频模型
视觉风格一致性	看写的人状态	场景之间会漂	整支脚本锁定
负面提示词	基本不写	要明确要求才会写	每场景自动生成
导出格式	Word、Excel、PDF	纯文本或 Markdown	JSON + Markdown，直接可用于制作
改一版成本	每次数小时	一轮对话	每次生成 2 积分

常见问题

使用音乐视频脚本生成器之前，先把实际问题说清楚。

脚本包含什么内容？

一份视觉风格摘要、（电影故事模式下的）角色候选，以及一份场景列表。每个场景包含标题、与音频同步的时间范围、故事节拍、图片提示词、视频提示词和负面提示词。除时间范围和歌词映射外，其余字段均可编辑。

哪些字段能改，哪些不能？

可编辑：场景标题、故事节拍、图片提示词、视频提示词、负面提示词、视觉风格摘要。只读：时间范围和歌词映射，因为它们与音频波形锁定。如果时间感不对，用修正后的歌词重新生成，而不是硬改时间。

支持哪些音频格式？

MP3、WAV、M4A，最大 50MB、最长 10 分钟。系统自动检测时长并据此计算场景数。歌曲越长场景越多——写实和卡通模式下大约每 8 到 10 秒一个场景。

AI 歌词识别有多准？

干净的英文人声可以达到 90% 以上的词级准确率。准确率在嘈杂混音、重混响、非英语、嘶吼型人声上会下降。这些情况下建议用粘贴对齐，而不是硬靠识别。

生成一次要多久？

大多数脚本在 45–90 秒内完成，具体看歌曲长度和当前负载。任务页有实时状态。如果超过 3 分钟没返回，刷新一下——结果通常已经保存好了。

多少钱？

每次脚本生成消耗 2 积分，与音频长度无关。重新生成已有脚本也是 2 积分。编辑、导出、复制都是免费的。

可以和其他 AI 工具配合使用吗？

可以。图片和视频提示词写成模型无关的格式，能用于 Veo、Runway、Kling、Seedance、Midjourney、Stable Diffusion、Sora。JSON 导出是结构化的，你可以直接写脚本把提示词喂给你的目标工具。

生成出来不符合我的构想怎么办？

直接编辑任意字段并保存。如果整支脚本都不对，换个视觉风格或自定义方向重新生成——描述框接受自然语言，比如「90 年代末港风霓虹街头、孤独浪漫氛围」。你不会被锁死在第一稿上。

继续你的工作流

搭配这些工具，跑完整支 MV 的制作流程。

LRC 歌词生成器

Live

从任何音频生成完美同步的 LRC 歌词文件。支持词级时间戳，适用于卡拉 OK 和字幕工作流。

脚本转视频

Live

一键将完成的脚本转换为 AI 生成的图片和视频。完整的生产流水线。

添加视频字幕

Coming Soon

将时间轴歌词字幕直接烧录到完成的音乐视频上。支持多种样式和格式。

准备好创建你的音乐视频脚本了吗？

上传你的歌曲，一分钟内获得完整、可编辑、可导出的脚本。

开始生成查看定价