内容审核逻辑|从入门到被门槛绊倒

作者&投稿:月君 (若有异议请与网页底部的电邮联系)
~

文章开始之前,给大家两条建议:

儿童送养 ”这个话题在大多平台都是极为罕见的,但知乎最近就因此爆发了一场危及平台声誉的危机。

内容审核就是这样一种职业,违法违规信息覆盖范围极广,新的违规信息层出不穷。无论你多么有经验、无论审核系统多么先进,只要发生问题,看起来都是很基础甚至很愚蠢的问题。

知乎这样一个有很强的技术实力和内容审核经验的平台,也会在这个问题上摔跟头,并且可以预料的是,不知道在多久的以后,知乎一定还会发生一次又一次因为存在违规内容带来的危机事件,这事情无可避免。有人说,对于内容审核人员来说这是从入门到被门槛绊倒,一点都不夸张。

读完这篇文章,你可以详细了解 文字类内容审核的逻辑 ,还会了解一些 图片和短视频审核的技术 ,足以补充一个运营或产品在这方面的知识储备了。

在不同公司,对审核类职位的划分标准不同,比如有 内容安全审核、内容推荐审核、内容质量审核 等类似职位。虽然在侧重点和具体操作上有所不同,但有许多逻辑都是共通的。为了避免文章过于复杂,我们在这里侧重最常见的 内容安全审核

不管是什么内容的审核,都应该包含以下 四个基础模块 :机器审核、人工审核、用户投诉审核、结果复审。

机器审核 ,是按照制定好的规则或机器学习算法对内容进行审核,通常,成熟的审核系统能将95%甚至99%以上的内容都自动审核并做出处理。确定有问题的会被自动删除,难以判断是否有问题的会被标注,进入人工审核程序。

人工审核 ,虽然用户投诉审核和结果复审大多时候也是人工审核,但这里所说的人工审核,特指审核机器无法判别的内容,通常占平台内容数量的比例不超过5%,但对于一些大型的内容平台,绝对数量已经很多了。在内容爆炸的时代,我们看到许多平台在全国都有多个审核中心,每个审核中心的员工数量都成千甚至上万。

用户投诉审核 ,是前两者的弥补,有很多违规内容以前没有出现过,所以不在规则可以过滤的范围内,或者非常隐蔽,规则难以严格过滤。用户的投诉是发现新问题的重要渠道。通过知乎的危机事件,我们更应该重视对投诉的审核,并及时据此对机器审核做出补充。

结果复审 ,通常采取抽查方式,比如通过复审机器删除的内容,看规则或算法是否过于严格;比如通过查看人工删除和通过的内容,看员工的工作是否按要求执行;比如通过内容的整体巡查,看是否存在新的问题未被注意到。

在文字类内容平台,比如知乎、、豆瓣以及各类论坛网站,机器审核主要是基于关键词过滤的逻辑,逻辑比较简单,但也没有想象的那么简单。

一篇文章发布到平台后,需要至少经历以下环节:

词语过滤的环节,关键词主要分为三类:

禁止关键词 ,只要匹配到这个词,内容就被自动删除或禁止提交。通常只有极少数词会被纳入禁止关键词,比如明确的色情、邪教以及广告的专属关键词。

审核关键词 ,这是最常见的关键词种类,只要匹配到就会自动进入后台进行审核,文章中的关键词会被高亮并罗列出来,有助于审核人员快速判断。审核关键词也应该尽量是专属关键词,以防止太多内容被拦截到后台。

替换关键词 ,在许多平台,我们会在文中看到莫名的 字母缩写 *,这可能不是文章作者写的,而是这个词被系统自动替换。平台不希望出现这个关键词,但用别的代替读者通常也能读懂。比如一些政治、宗教、不文明用语类词语,都有可能被自动替换。

当然,管理员在添加关键词时,很多时候并不是直接把关键词添加到后台。否则用户用很简单的方式就可以避过关键词过滤,比如在关键词内加一个空格,系统就难以匹配到。

所以,一般后台都会支持 限定符{x} 以限定相邻两字符间可忽略的文字,x 是忽略的字节数。在Discuz!网站后台有明确说明,如 "a{1}s{2}s"(不含引号) 可以过滤 " ass" 也可过滤 " axsxs " 和 " axsxxs " 等等。对于中文字符,若使用 GBK、Big-5 版本,每个中文字符相当于 2 个字节;若使用 UTF-8 版本,每个中文字符相当于 3 个字节。

另外,关键词还可以支持 正则表达式 ,来匹配具有一定模式的关键词,比如" /1\d{10}([^\d]+|$)/ "(不包括引号)用来匹配手机号码。正则表达式的内容过多,大家有兴趣可以搜索学习一下。

以上讲述的,主要是文字类内容的审核和规则,逻辑简单,但应用最为广泛。近年随着短视频类产品的兴起,内容审核的逻辑需要更加深层的技术支持。

技术上的东西,对大多人来说如同天书,而且也没有必要深入了解。我们挑选几个容易理解的点,来窥探几分内容审核背后的技术。

OCR(文本识别技术) ,主要用来识别图片中存在的文字。许多违规内容,包括联系方式、色情信息、广告信息等为了规避审核,都会以图片的方式呈现。

人脸识别技术 ,通常用来识别政治、宗教类人物,识别到后可以直接删除或者进行风险标记。

语音识别技术, 语音识别的应用场景比较多,但在内容审核领域仍然不是刚需,所以使用的较少。但也有些直播或音频平台比较重视音频对比、声纹识别技术,可以轻易识别到一些固定模式的违法违规声音。

视频识别≈图片识别 ,视频是画面与音频组成的以帧为单位的画面,通常采取截帧上传与服务器数据对比来识别。审核模式和图片审核相同,比如通过画面皮肤裸露状态来判断是否过于性感、是否是色情内容。

上下文语义识别技术 ,这种技术用来判断一句话是否能跟上下文结合,是否是一段垃圾文本。比如说,在评论区随便输入一串奇怪的文本,如果系统认为和上下文不相关,就有理由将内容放入审核区。

技术是很酷,用好了可以大量减少我们的工作,但内容审核技术的实施是一件很难一劳永逸的事情,其中的尺度和参数都需要人来不断维护,而且人工审核仍然是非常有必要的,并且需要的人工可能越来越多。内容审核技术的应用,仍然任重道远。

1.替代关键词不能太简单

我曾经在一款APP上看管理类文章,整篇文章多处说到给员工定绩效要遵循“ ART原则”,我迟疑了好几秒才明白,原来是" SMART原则**"。

SM这个词只有两个字母,无论是作为禁止、审核还是替换关键词都不合适,都容易拦截或替换大量不应该处理的内容,一般的方法很难处理。

这时候,我们可以总结一下模式,如果sm这两个字母前面是英文字母,或者后面是英文字母,一般来说就是另一个英文单词,就不会有问题。我们就可以用正则表达式把这一规则写出来,再设置审核或替换就会好很多。

2.审核时间与用户体验的权衡

去知乎和微博搜一下“审核”,被抱怨最多的问题就是 审核时间长 。用户提交内容到内容审核通过,这期间心情会剧烈波动,如果用户等了一两天时间,最后内容被莫名其妙地拒绝,而且不给任何明确的拒绝理由,用户的心情就会由期待变为焦虑,进而变成愤怒,这就是B站被up主抱怨最多的地方。

我们可以从以下角度优化用户体验:

3.理解内容审核的保守倾向

越是体量很大的平台,内容审核越是有保守倾向,这不只是因为盘子大了更加在意风险管理,还有一些现实的原因。内容数量太多,平台就不得不采用规则和算法去审核,这些规则和算法需要最终做出决策,就难免拿着标准一刀切,即使这把刀很小也会有误伤,这种标准对很多内容就显得过于严格。

比如 皮肤裸露面积 达到多少会有问题、裸露哪些位置会有问题,无论标准多么的细化,都会存在误判,被误判的内容比例可能很小,但绝对数量很大。据说很多图片和视频中如果存在 加菲猫 ,都会被过滤掉,因为它黄色面积太大而且和人的皮肤很像。

在被审核的用户看来这些标准有点保守,有点不近人情,甚至可笑。平台的管理人员也知道问题,但他们很难做到很细致,为了快速把违规的内容剔除,只能牺牲掉一部分人的用户体验,毕竟违规内容一旦出现,对平台来说就是大问题。所以说,内容审核技术的应用还非常任重道远。

以上的内容,对于一个运营或产品工作者来说,已经足够了。但如果你真的需要对一款产品的内容审核规范负责,就需要去学习更多知识,需要有更加专业的精神和更谨慎的态度,未来还会有无数难以预料的坎坷等着你。




审核数据准确性的方法主要有逻辑检查和
原始数据应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全。准确性审核主要是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际,并且检查数据是否有错误,计算是否正确等。一、逻辑检查 逻辑检查主要是审核数据是否符合...

审核内容包括哪些内容
3.合规性审查。审核内容是否符合相关的法规、政策、规定等要求。这包括对内容中的条款、规定、标准等是否符合法律法规的要求进行审查,确保内容的合规性。4.逻辑性和一致性检验。审核内容需要符合逻辑,前后一致,没有自相矛盾的地方。这要求对内容的逻辑结构、观点、论证等进行审查,确保内容的连贯性和...

自费出书应该怎么写才能通过审核?
不要东 一 段西 一 段 ,内 在逻辑 要 统 一,确保 稿子 质 量, 这是最 基 本 的 ; 2.花 点 心思 写内 容简 介, 用简 洁 的语 言 , 把 稿子 的 内 容 反 映 出 来 ,这 部 稿子 是什 么类 型的 ,讲 的是 什 么 东 西 ,有 何特 点 、 亮 点 ,读者 群体 ...

初级审核需要什么6
3. 内容准确性审核 内容: 核对文件内容是否准确,与实际情况相符。解释: 准确性审核是核心环节,防止因信息错误导致的问题,确保审核对象的质量。4. 合规性审核 内容: 检查文件是否符合相关法规、政策或标准。解释: 合规性审核是法律和规范的要求,确保审核对象不违反任何法规,避免法律风险。5. 逻辑...

审核些什么内容
审核时还需关注信息的完整性。要确保所审核的资料涵盖所有相关要点,没有遗漏重要信息,同时也没有过分关注非核心细节,影响审核效率。三、合规性审查 审核内容要符合国家法律法规、政策规定和道德标准。这包括检查是否存在违规内容,如不良信息、违法言论、低俗广告等,以确保所审核的资料合法合规。四、逻...

贷款审核要点怎么写
1、资料审核 审查申请人的有关资料是否齐全,内容是否完整,申请表、借款合同等填写是否符合规范; 不同...前后内容是否符合逻辑,客户信用评级表中的评级是否合理,调查报告中的授信建议方案是否合理,贷款金额、...在开放式提问中,借款人不能从问题中获取相关信息,借款人需要根据具体的情况作出回答,审查人员可以根据客户...

审核数据准确性的方法主要有逻辑检查和什么
审核数据准确性的方法主要有逻辑检查和计算检查。数据审核是指是指在进行数据整理之前对原始数据的审查和核对。对于通过调查取得的原始数据,主要从完整性和准确性两个方面去审核。基本概念:通过各种渠道将统计数据搜集上来之后,首先应对这些数据进行加工整理,使之系统化、条理化,以符合分析的需要。数据...

零基础抖音入门指南【能快速读懂的科普类文章】
快速掌握抖音入门,从这里开始你的短视频之旅 抖音作为新兴的视频分享平台,其庞大用户基数(6亿日活跃)意味着巨大的商业潜力。理解其流量逻辑和变现方式至关重要。以下是实用的指南,帮助你轻松上手。1. 抖音算法与规则了解平台推荐机制是成功的关键。视频完播率、点赞、评论、关注和转发数是决定视频...

文稿审核制度包括
文稿审核制度主要包括以下几个核心内容:一、内容审核 这是文稿审核制度的基础环节,主要针对文稿的内容进行审查,包括文稿的主题、观点、语言表达、逻辑结构等方面。审核人员需要确保文稿内容符合相关法规、政策导向,不含有虚假信息、不良价值观等内容,同时保证文稿的语言表达准确、清晰。二、格式审核 文稿的...

审核内容包括哪些
3.信息的完整性和一致性。审核过程中要确保信息的完整性,即所有必要的信息是否都已包含在内,并且信息之间不存在矛盾或不一致的地方。同时,还要检查内容是否连贯,逻辑是否清晰。4.安全性和适宜性。审核内容需要确保其安全性,即不含有危害社会、违反伦理道德或侵犯他人权益的信息。此外,还要检查内容是否...

平陆县19353445337: 抖音的审核推荐机制是怎么样的? -
驷满清凉: 一入抖音深似海,抖音算法背后的逻辑是:智能分发,叠加推荐,及热度加权!2113采取机器与人5261工相结合的审核方法.区别于其他互联网产品的中心化流量分配,即使你是0粉丝4102,也可能拥有百万流量.新视频流量分发以附近和关注为主,再配合用户标签和内容标1653签智能分发,如新视频的完播率高,互动率高,这个视频就有机会持续加持流量.叠加推荐当然以内容的综合权重版作评估标准,综合权重的关键指标有:完播率,点赞量,评论量,转发权量.想要了解更多,欢迎回复评语讨论.

平陆县19353445337: 抖音直播培训之抖音的运营分发规则是怎样的?
驷满清凉: 抖音直播培训之抖音的运营分发规则包括三方面:双重审核、流量池推荐、叠加推荐. 1.双重审核包括机器审核和人工审核,是抖音算法筛选视频内容的道门槛. 机器审...

平陆县19353445337: 如何降低报关审单差错率? -
驷满清凉: 1. 提高审单人员的知识,做到能够进行一定逻辑审核2. 对于审单人员进行各个岗位的操作,让他知道审单时需要审核那些内容,有的放矢3. 加强输单人员和审单人员的沟通4. 对于审核出的错误规定使用一定的标记处,不能一人一个样5. 修改后重新审核

平陆县19353445337: 全小说审核最快是多久?门槛有多低?初中毕业生写的可以吗? -
驷满清凉: 写小说并没有门槛,只要能写出来,并且没有河蟹的内容,就可以找小说网站,注册账号并发表,你可以申请签约,签约条件每个网站都有,一般来说审核两三天内就好,快的当天就好,签约之后根据你小说的受欢迎程度就可以挣钱了,当然如果写的吧自然没什么钱

平陆县19353445337: 新媒体编辑是做什么的?工作内容是? -
驷满清凉: 1.根据网站(包括微信、微博、博客、论坛)的大致发展方向,策划建设相关栏目;2.负责网站相关栏目的信息收集和编辑;3.负责网站内容的日常更新、维护、审核和发布;4.负责网站文章的撰写、整合和优化;5.负责微博微信的内容发布、粉...

平陆县19353445337: 清查数据审核报告 -
驷满清凉: 一\数据审核工作的开展 1.坚持“分级负责,就地解决”的质量控制原则,未经审核的数据不得上报,要严格把好数据关,确保上报的清查表真实,发现问题和数据错误要及时向填表单位询问核实,对数据填入不真实的退回原单位修改.每张清查表都确定普查指导员和普查员联系人,负责普查表的接收、内部协调和报送工作.

平陆县19353445337: 公诉案件证人证言的审查判断内容有哪些?
驷满清凉: 在大多数情形下,只要证人对有关事物的特征和概况能够感知,具备能够正确表达感... 逻辑思维混乱,颠三倒四,导致证言内容含糊不清, 令人费解,将极大地削弱其证据...

平陆县19353445337: 浅谈如何选择有效的税务稽查基本方法 -
驷满清凉: 所谓的税务稽查基本方法是指稽查人员实施税务检查时,为发现税收违法问题,通常采取的手段和措施的总称.目前,税务稽查基本方法主要包括查账方法、分析方法、调查方法、电子查账方法等内容.在这里,笔者结合自身税务稽查工作实践...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网