返回博客

短视频平台机审 6 步全流程:从 OCR 到打标决策,到底谁在判违规

拆解短视频平台机器审核的 6 步全流程:上传预处理 / 文本 OCR+ASR / 视觉物体识别 / 音频指纹 / 账号风控信号 / 分级决策。读完明白为什么同样的视频别人能发你被拦、为什么播放量突然消失。

行业动态12 分钟阅读1665 次阅读
短视频平台机审 6 步全流程:从 OCR 到打标决策,到底谁在判违规

每次发完视频盯着播放量从 0 慢慢往上爬,心里都会闪过同一个问题:到底是谁在判我的视频"违规"或"安全"?大多数创作者只知道"机审 + 人工审核"两层结构,但 0 → 100 → 一万 → 十万播放量背后的那条流水线长什么样、每一步检查什么、为什么有些视频还没发就被拦截,几乎没人讲明白。

这篇拆解短视频平台机器审核的 6 步全流程:从你点完"发布"那一刻起,到机审做出"放行 / 限流 / 拦截 / 转人工"决策,中间发生的事。

机审到底是怎么一回事

机器审核早就不是"匹配几个违禁词"的简单工作了。当下短视频平台的机审系统是一套规则 + 多模态模型的组合:

  • 机审规则——成本极低、毫秒级响应、配置即生效,但只能识别显性特征(违禁词、固定图样、特定指纹)。
  • 机审模型——基于大量历史样本训练的深度学习模型,能识别"含义"而不只是"字面",覆盖文本、图像、音频、视频、行为信号五类输入。

实际审核过程是两者组合:先用便宜的规则把高危内容拦截掉,剩下的喂给更贵的模型做精细识别。下面是这条流水线的 6 个步骤。

Step 1:内容上传后的预处理

视频上传到平台 CDN,并不会立即进入审核队列。系统首先做四件事:

  • 视频转码 + 切帧——一段 60 秒的视频会被切成数十张图片(按 0.5 秒到 1 秒为间隔,关键场景额外加密采样)。
  • 音轨分离——把音频从视频里抽出来,作为独立流送给 ASR(语音转文字)模型。
  • 文本字段汇总——标题、描述、话题、Hashtag、置顶评论、贴片字幕全部收集进文本通道。
  • 元数据收集——账号风控等级、历史违规、发布 IP、设备指纹、当天发布频次等。

这一步是把"一条视频"拆成四种独立的检查对象——多模态审核的前提是把每个模态先拆开来打标。

Step 2:文本通道——OCR + ASR + 标题描述

这一步处理的是所有"能变成文字"的内容:

来源提取方式用途
视频画面中的字幕、贴片文字OCR 识别字幕里出现违禁词等价于口播说出
视频音轨ASR 语音转文字把口播变成可检索文本,配合时间戳定位违规话术
标题、简介、话题、Hashtag直接读取这是最便宜也最容易踩雷的入口
评论区(重点关注置顶 / 高赞)定期重扫评论也是创作者的内容延伸,违规会回归

所有文本会过两道审核:第一道是规则匹配(敏感词、变体词、谐音替换、英文/拼音绕过),第二道是文本分类模型(识别"含义"——比如"姨妈"被规则放过,但模型可以判断你在讨论生理周期)。

创作者常见误区——以为画面没说就不算。OCR 把"贴在画面上的字"和"用嘴说出来的话"放在同一个池子里审。

Step 3:视觉通道——图像分类 + 物体识别 + 场景识别

这一步处理切出来的每张图。模型会输出三类标签:

  • 违规分类标签——色情、血腥、暴力、政治敏感、烟酒、医疗器械、未成年人露出等。每个标签都有"概率"+"置信度"两个分数。
  • 场景分类——直播间、餐厅、医院、教室、户外、汽车、卧室。场景本身影响违规判定("卧室+ 裸露肩膀"和"健身房+ 同样画面"风险等级不同)。
  • 物体识别——具体物体(药品包装、医疗器械、酒瓶、香烟、武器、特定品牌 logo),用于细化分级与同款追踪。

视觉通道的高危特征命中(如政治敏感人脸 + 标志)会直接拦截,不进入后续步骤。低风险标签则进入加权打分。

Step 4:音频通道——除了 ASR 还有声纹

音频通道做的不只是把声音变成文字。它还包含:

  • 音乐版权指纹比对——背景音乐与音乐版权库做指纹匹配,未授权曲库的音乐会被判定为版权违规。
  • 声纹检测——识别变声器使用、儿童声音(涉及未成年人保护)、特定公众人物声纹。
  • 音频特征分类——尖叫、枪声、爆炸声等非语言信号的分类识别。

这一通道往往是平台监管 AI 数字人主播的重要入口——AI 合成语音的声纹与真人有差异,加上 ASR 的发音不连贯特征,机器对"非人声"识别准确率已经很高。

Step 5:账号与行为信号——风控等级才是隐藏决定权

所有以上模态信号都会被汇总成一组"内容分数"。但内容分数之外,还有一组"账号 + 行为"分数同时输入到最终决策:

信号影响方式
账号风控等级(A/B/C/D)D 级账号同样内容触发审核阈值远低于 A 级
历史违规次数 / 类型累计违规会拉低账号分,触发"逐条人工审核"
发布频次异常新号当天发 30 条 / 老号突然爆量都会被标记
设备 / IP / 网络指纹同一设备多账号、代理 IP、VPN 等场景拉低分数
用户互动质量用户投诉、负面互动、举报频率累计回流到账号分

这就是为什么"一模一样的内容,新号能发老号被拦"或者"老号大 V 一周一条没事,突然连发被拦"。账号分会把同一段视频拐到不同的处置路径。

Step 6:分级决策——四种处置结果

所有信号最终汇总到决策层。机审输出通常落在四个区间之一:

分数区间处置用户感知
高危特征命中直接拦截 / 删除"内容违规无法发布"或视频消失
中风险转人工复审(一审)视频"审核中"持续一段时间
轻微疑似低流量推荐 / 仅粉丝可见视频发出但播放量上不去
低风险放行进入推荐池正常拿初始流量

这里有个关键细节:低流量推荐 ≠ 被处罚,是"系统不确定 → 给一点初始流量看用户反应"。如果初始流量段用户互动好,会继续往上送;如果用户开始举报或负面反馈拉高,立即触发二次审核——这就是创作者常感受到的"一开始播放量正常,突然没流量了"。播放量过万、过十万还会进入新一轮人工复核,由不同人审,越往上人越多。

这条流水线给创作者的 5 个启示

  • "画面不说"等于"嘴里说了"——OCR 把贴片字幕、弹幕字幕、片头片尾文字都搬进文本审核。
  • 账号分比单条内容更重要——同样的话,老账号大概率过,新账号或违规过的账号大概率被拦。日常少踩小雷,比偶尔搞一篇精品更能避免限流。
  • "先审后发"不是平台所有内容都会经过的——真正全量先审的是高风险类目(医疗、金融、保健)。其他类目走的是 "先发→低流量→看反应"路径。所以违规视频被推荐了一阵又突然没流量,是正常机制。
  • 评论区也归你管——置顶评论里有违禁词,会算到你身上;高赞负面评论会拉低账号分。
  • 申诉的本质是引入人工纠错——机器误判几乎是结构性问题。被拦后如果确认无违规,及时申诉能把这条样本喂回模型训练集,未来误判率会下降。

这是依据公开技术资料整理的相对完整流程,非任何平台官方披露的实现细节。具体平台之间在模型权重、风控等级粒度、人工复核环节上各有差异。

FAQ:短视频平台机审最常被问到的 5 个问题

1. 我发的视频"审核中"很久不通过是为什么?

大概率是机审判定为"中风险",转入了人工复审队列。中风险通常出现在两种情况:账号风控等级偏低(新号、近期违规过)+ 内容里有疑似违规标签;或者内容属于高敏感类目(医疗、金融、政治、未成年人相关)。机审快、人工慢,人工排队加上一审、二审,几个小时到半天都正常。

2. 一开始流量正常,发完几小时突然没流量了,是被限流了吗?

多数情况下是"二次审核回流"。机审给了一个低风险评估、放行进入推荐池;进入推荐后初始用户反馈(举报、负向互动、跳出率)超过阈值,触发二次审核,被回滚到限流档。这种通常不是平台主动"惩罚",是用户反馈把视频拉回机审队列重判。

3. 同样的话术,为什么我发被拦,别人发安然无事?

差别在账号风控等级(A/B/C/D)和历史违规记录。同样的内容输入,机审会结合账号分、发布频次、设备指纹做最终决策。账号分高的老号比新号触发审核阈值更宽松。日常想保持账号分,最直接的办法是少踩小雷,避免反复触发警告。

4. 平台机审会读我视频里贴的字幕吗?

会。OCR 是机审文本通道的核心入口之一,会把视频画面中的字幕、贴片字、置顶评论、片头片尾文字一起识别成文本,再走和标题、描述同样的违禁词规则 + 文本分类模型。很多创作者觉得"画面没说就不算",实际上 OCR 把它当成"用嘴说出来"。

5. 有没有办法在发布前知道视频会不会被拦?

没有 100% 准确的方法(平台模型权重不公开),但可以做"概率性预审":把标题、描述、字幕的逐字稿和 OCR/ASR 输出走一遍内容合规检测,识别敏感词、绝对化用语、医疗/金融违禁话术等显性风险;同时检查账号近 30 天有没有累积违规警告。两步加起来能把 70%~80% 的"会被拦"挡在发布前。剩下 20% 主要是语境、人物表情、上下文等机器判断密集场景,目前没有公开工具能模拟。

研究依据与来源

下一次发完视频盯着"审核中"那个状态条,至少你能知道流水线大概走到了哪一步。理解机器是怎么判的,比一味抱怨"限流"管用得多。

短视频平台机审 6 步全流程:从 OCR 到打标决策,到底谁在判违规 - ByeRisk 博客