短视频平台机审 6 步全流程:从 OCR 到打标决策,到底谁在判违规
拆解短视频平台机器审核的 6 步全流程:上传预处理 / 文本 OCR+ASR / 视觉物体识别 / 音频指纹 / 账号风控信号 / 分级决策。读完明白为什么同样的视频别人能发你被拦、为什么播放量突然消失。

每次发完视频盯着播放量从 0 慢慢往上爬,心里都会闪过同一个问题:到底是谁在判我的视频"违规"或"安全"?大多数创作者只知道"机审 + 人工审核"两层结构,但 0 → 100 → 一万 → 十万播放量背后的那条流水线长什么样、每一步检查什么、为什么有些视频还没发就被拦截,几乎没人讲明白。
这篇拆解短视频平台机器审核的 6 步全流程:从你点完"发布"那一刻起,到机审做出"放行 / 限流 / 拦截 / 转人工"决策,中间发生的事。
机审到底是怎么一回事
机器审核早就不是"匹配几个违禁词"的简单工作了。当下短视频平台的机审系统是一套规则 + 多模态模型的组合:
- 机审规则——成本极低、毫秒级响应、配置即生效,但只能识别显性特征(违禁词、固定图样、特定指纹)。
- 机审模型——基于大量历史样本训练的深度学习模型,能识别"含义"而不只是"字面",覆盖文本、图像、音频、视频、行为信号五类输入。
实际审核过程是两者组合:先用便宜的规则把高危内容拦截掉,剩下的喂给更贵的模型做精细识别。下面是这条流水线的 6 个步骤。
Step 1:内容上传后的预处理
视频上传到平台 CDN,并不会立即进入审核队列。系统首先做四件事:
- 视频转码 + 切帧——一段 60 秒的视频会被切成数十张图片(按 0.5 秒到 1 秒为间隔,关键场景额外加密采样)。
- 音轨分离——把音频从视频里抽出来,作为独立流送给 ASR(语音转文字)模型。
- 文本字段汇总——标题、描述、话题、Hashtag、置顶评论、贴片字幕全部收集进文本通道。
- 元数据收集——账号风控等级、历史违规、发布 IP、设备指纹、当天发布频次等。
这一步是把"一条视频"拆成四种独立的检查对象——多模态审核的前提是把每个模态先拆开来打标。
Step 2:文本通道——OCR + ASR + 标题描述
这一步处理的是所有"能变成文字"的内容:
| 来源 | 提取方式 | 用途 |
|---|---|---|
| 视频画面中的字幕、贴片文字 | OCR 识别 | 字幕里出现违禁词等价于口播说出 |
| 视频音轨 | ASR 语音转文字 | 把口播变成可检索文本,配合时间戳定位违规话术 |
| 标题、简介、话题、Hashtag | 直接读取 | 这是最便宜也最容易踩雷的入口 |
| 评论区(重点关注置顶 / 高赞) | 定期重扫 | 评论也是创作者的内容延伸,违规会回归 |
所有文本会过两道审核:第一道是规则匹配(敏感词、变体词、谐音替换、英文/拼音绕过),第二道是文本分类模型(识别"含义"——比如"姨妈"被规则放过,但模型可以判断你在讨论生理周期)。
创作者常见误区——以为画面没说就不算。OCR 把"贴在画面上的字"和"用嘴说出来的话"放在同一个池子里审。
Step 3:视觉通道——图像分类 + 物体识别 + 场景识别
这一步处理切出来的每张图。模型会输出三类标签:
- 违规分类标签——色情、血腥、暴力、政治敏感、烟酒、医疗器械、未成年人露出等。每个标签都有"概率"+"置信度"两个分数。
- 场景分类——直播间、餐厅、医院、教室、户外、汽车、卧室。场景本身影响违规判定("卧室+ 裸露肩膀"和"健身房+ 同样画面"风险等级不同)。
- 物体识别——具体物体(药品包装、医疗器械、酒瓶、香烟、武器、特定品牌 logo),用于细化分级与同款追踪。
视觉通道的高危特征命中(如政治敏感人脸 + 标志)会直接拦截,不进入后续步骤。低风险标签则进入加权打分。
Step 4:音频通道——除了 ASR 还有声纹
音频通道做的不只是把声音变成文字。它还包含:
- 音乐版权指纹比对——背景音乐与音乐版权库做指纹匹配,未授权曲库的音乐会被判定为版权违规。
- 声纹检测——识别变声器使用、儿童声音(涉及未成年人保护)、特定公众人物声纹。
- 音频特征分类——尖叫、枪声、爆炸声等非语言信号的分类识别。
这一通道往往是平台监管 AI 数字人主播的重要入口——AI 合成语音的声纹与真人有差异,加上 ASR 的发音不连贯特征,机器对"非人声"识别准确率已经很高。
Step 5:账号与行为信号——风控等级才是隐藏决定权
所有以上模态信号都会被汇总成一组"内容分数"。但内容分数之外,还有一组"账号 + 行为"分数同时输入到最终决策:
| 信号 | 影响方式 |
|---|---|
| 账号风控等级(A/B/C/D) | D 级账号同样内容触发审核阈值远低于 A 级 |
| 历史违规次数 / 类型 | 累计违规会拉低账号分,触发"逐条人工审核" |
| 发布频次异常 | 新号当天发 30 条 / 老号突然爆量都会被标记 |
| 设备 / IP / 网络指纹 | 同一设备多账号、代理 IP、VPN 等场景拉低分数 |
| 用户互动质量 | 用户投诉、负面互动、举报频率累计回流到账号分 |
这就是为什么"一模一样的内容,新号能发老号被拦"或者"老号大 V 一周一条没事,突然连发被拦"。账号分会把同一段视频拐到不同的处置路径。
Step 6:分级决策——四种处置结果
所有信号最终汇总到决策层。机审输出通常落在四个区间之一:
| 分数区间 | 处置 | 用户感知 |
|---|---|---|
| 高危特征命中 | 直接拦截 / 删除 | "内容违规无法发布"或视频消失 |
| 中风险 | 转人工复审(一审) | 视频"审核中"持续一段时间 |
| 轻微疑似 | 低流量推荐 / 仅粉丝可见 | 视频发出但播放量上不去 |
| 低风险 | 放行进入推荐池 | 正常拿初始流量 |
这里有个关键细节:低流量推荐 ≠ 被处罚,是"系统不确定 → 给一点初始流量看用户反应"。如果初始流量段用户互动好,会继续往上送;如果用户开始举报或负面反馈拉高,立即触发二次审核——这就是创作者常感受到的"一开始播放量正常,突然没流量了"。播放量过万、过十万还会进入新一轮人工复核,由不同人审,越往上人越多。
这条流水线给创作者的 5 个启示
- "画面不说"等于"嘴里说了"——OCR 把贴片字幕、弹幕字幕、片头片尾文字都搬进文本审核。
- 账号分比单条内容更重要——同样的话,老账号大概率过,新账号或违规过的账号大概率被拦。日常少踩小雷,比偶尔搞一篇精品更能避免限流。
- "先审后发"不是平台所有内容都会经过的——真正全量先审的是高风险类目(医疗、金融、保健)。其他类目走的是 "先发→低流量→看反应"路径。所以违规视频被推荐了一阵又突然没流量,是正常机制。
- 评论区也归你管——置顶评论里有违禁词,会算到你身上;高赞负面评论会拉低账号分。
- 申诉的本质是引入人工纠错——机器误判几乎是结构性问题。被拦后如果确认无违规,及时申诉能把这条样本喂回模型训练集,未来误判率会下降。
这是依据公开技术资料整理的相对完整流程,非任何平台官方披露的实现细节。具体平台之间在模型权重、风控等级粒度、人工复核环节上各有差异。
FAQ:短视频平台机审最常被问到的 5 个问题
1. 我发的视频"审核中"很久不通过是为什么?
大概率是机审判定为"中风险",转入了人工复审队列。中风险通常出现在两种情况:账号风控等级偏低(新号、近期违规过)+ 内容里有疑似违规标签;或者内容属于高敏感类目(医疗、金融、政治、未成年人相关)。机审快、人工慢,人工排队加上一审、二审,几个小时到半天都正常。
2. 一开始流量正常,发完几小时突然没流量了,是被限流了吗?
多数情况下是"二次审核回流"。机审给了一个低风险评估、放行进入推荐池;进入推荐后初始用户反馈(举报、负向互动、跳出率)超过阈值,触发二次审核,被回滚到限流档。这种通常不是平台主动"惩罚",是用户反馈把视频拉回机审队列重判。
3. 同样的话术,为什么我发被拦,别人发安然无事?
差别在账号风控等级(A/B/C/D)和历史违规记录。同样的内容输入,机审会结合账号分、发布频次、设备指纹做最终决策。账号分高的老号比新号触发审核阈值更宽松。日常想保持账号分,最直接的办法是少踩小雷,避免反复触发警告。
4. 平台机审会读我视频里贴的字幕吗?
会。OCR 是机审文本通道的核心入口之一,会把视频画面中的字幕、贴片字、置顶评论、片头片尾文字一起识别成文本,再走和标题、描述同样的违禁词规则 + 文本分类模型。很多创作者觉得"画面没说就不算",实际上 OCR 把它当成"用嘴说出来"。
5. 有没有办法在发布前知道视频会不会被拦?
没有 100% 准确的方法(平台模型权重不公开),但可以做"概率性预审":把标题、描述、字幕的逐字稿和 OCR/ASR 输出走一遍内容合规检测,识别敏感词、绝对化用语、医疗/金融违禁话术等显性风险;同时检查账号近 30 天有没有累积违规警告。两步加起来能把 70%~80% 的"会被拦"挡在发布前。剩下 20% 主要是语境、人物表情、上下文等机器判断密集场景,目前没有公开工具能模拟。
研究依据与来源
- 互联网广告内容审核专题(二)—— 机器审核 - 人人都是产品经理
- 多模态内容审核:同时处理文本、图片和视频的 AI 方案 - CSDN
- 打破信息茧房,抖音披露算法逻辑与审核机制 - 腾讯新闻
- 抖音是如何做审核和推荐的?- 产品经理互助问答社区
- 10 大内容审核平台,助你提升风控能力 - 博客园
- 多模态大模型 OCR 工作 - CSDN
- 抖音视频的审核机制都包括哪些?- 知乎
下一次发完视频盯着"审核中"那个状态条,至少你能知道流水线大概走到了哪一步。理解机器是怎么判的,比一味抱怨"限流"管用得多。

