请问如何才能避免因别人说到自己的百度敏感词词...

点击联系发帖人 时间：2011-09-25 02:15

敏感词

【温馨提示】如何避免发贴时的一些敏感词被屏蔽【张颂文吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名：今日本吧第个签到，本吧因你更精彩，明天继续来努力！
本吧签到人数：0成为超级会员，使用一键签到本月漏签0次！成为超级会员，赠送8张补签卡连续签到：天&&累计签到：天超级会员单次开通12个月以上，赠送连续签到卡3张
关注：537贴子：
【温馨提示】如何避免发贴时的一些敏感词被屏蔽收藏
大家有没留意到，在贴吧里发贴，一些词语你在内容框写的时候是有显示的，可是一发表，就变成“*”号了，这是因为被百度贴吧的后台给屏蔽了，也称“被和谐”，原因是这些词属于敏感词的范畴。&&&
那么，什么叫敏感词？我们又该如何避免辛辛苦苦写好的一篇贴，由于涉及敏感词到最后被屏蔽了一些字呢？&&&
下面，我在网上搜集来了一些答案，希望能为大家解决一下这个困扰哦。
敏感词：&&&
一般是指带有敏感政治倾向（或反执政党倾向）、暴力倾向、不健康色彩的词或不文明语。敏感词不一定是脏话，但是脏话大部分都是敏感词。&&&&&&PS. 本吧是提倡和谐，杜绝讲脏话的。 &&&&&&
大部分论坛，为了方便管理，都进行了关于敏感词的设定。&&&&&&&&
比如，当你发贴的时候带有某些事先设定的词时，这个贴是不能发出的。或者这个词被自动替换为星号“*”或叉号“X”等。&&&&&&&&
敏感词设定功能在贴吧或论坛中都被广泛应用。&&&&&&&&
最近，网上又出现了一种论坛管理功能：当论坛自动搜索到你的贴子里含有一定敏感词时，该贴会自动被删除，或交由人工审核。
比如我在6月12发的一张贴“【剧情】电影《不再让你孤独》中，哥哥的戏份，你都还记得吗？”中，一楼处的“**方镇东”就因为涉及敏感词而被和谐了。
如何避免辛辛苦苦写好的一篇贴，由于涉及敏感词到最后被屏蔽了一些字呢？&&&
因为敏感词没办法在贴吧里一一列举出来，所以现在只能提供“百度贴吧和谐测试器”供大家使用。&&&
大家以后在发贴时，如果自我感觉有涉及带有敏感政治倾向（或反执政党倾向）、暴力倾向、不健康色彩的词或不文明语等，都可以先去“百度贴吧和谐测试器”里将文字复制过去测试清楚了再来贴吧处发表。&&&& 而一些我们觉得不是敏感词，但最后还是被和谐了的字，暂时也想不出什么更好的办法解决了，如果有人想出了好的办法，烦请共享哦。
上面的地址不能直接点击，因为是截图来的，否则发表不出去，学雷锋做好事也不能发布，……烦请大家自己照着图中的地址输入网址吧。
把敏感字用拼音试试*******
拼音也不行的，我试过了
这个方法好，用大写，不会被和谐，哈哈……
国家的网络管制比较严，哪天我们在网上可以自由说话了，我们就真的自由了，哈哈哈
你就真的是"自由天使快乐"了
这个是什么片？名字很适合我
这个名字是乱起的。。随便加几个字哈哈
经常要记得。
发帖秒删，各种被秒，度娘这是欺负我一身蓝天白云吗。
登录百度帐号推荐应用更多频道内容在这里查看
爱奇艺用户将能永久保存播放记录
过滤短视频
暂无长视频（电视剧、纪录片、动漫、综艺、电影）播放记录，
按住视频可进行拖动
&正在加载...
收藏成功，可进入
查看所有收藏列表
当前浏览器仅支持手动复制代码
视频地址：
flash地址：
html代码：
通用代码：
通用代码可同时支持电脑和移动设备的分享播放
用爱奇艺APP或微信扫一扫，在手机上继续观看
当前播放时间：
一键下载至手机
限爱奇艺安卓6.0以上版本
使用微信扫一扫，扫描左侧二维码，下载爱奇艺移动APP
其他安装方式：手机浏览器输入短链接http://71.am/udn
下载安装包到本机：
设备搜寻中...
请确保您要连接的设备（仅限安卓）登录了同一爱奇艺账号且安装并开启不低于V6.0以上版本的爱奇艺客户端
连接失败！
请确保您要连接的设备（仅限安卓）登录了同一爱奇艺账号且安装并开启不低于V6.0以上版本的爱奇艺客户端
部安卓（Android）设备，请点击进行选择
请您在手机端下载爱奇艺移动APP（仅支持安卓客户端）
使用微信扫一扫，下载爱奇艺移动APP
其他安装方式：手机浏览器输入短链接http://71.am/udn
下载安装包到本机：
爱奇艺云推送
请您在手机端登录爱奇艺移动APP（仅支持安卓客户端）
使用微信扫一扫，下载爱奇艺移动APP
180秒后更新
打开爱奇艺移动APP，点击“我的-扫一扫”，扫描左侧二维码进行登录
没有安装爱奇艺视频最新客户端？
教你如何避免敏感词
正在检测客户端...
您尚未安装客户端，正在为您下载...安装完成后点击按钮即可下载
，可在设置中重新打开噢！
30秒后自动关闭
教你如何避免敏感词">教你如何避免敏感词
请选择打赏金额：
播放量12.7万
播放量数据：快去看看谁在和你一起看视频吧~
更多数据：
Copyright (C) 2018
All Rights Reserved
您使用浏览器不支持直接复制的功能，建议您使用Ctrl+C或右键全选进行地址复制
正在为您下载爱奇艺客户端安装后即可快速下载海量视频
正在为您下载爱奇艺客户端安装后即可免费观看1080P视频
&li data-elem="tabtitle" data-seq="{{seq}}"& &a href="javascript:void(0);"& &span>{{start}}-{{end}}&/span& &/a& &/li&
&li data-downloadSelect-elem="item" data-downloadSelect-selected="false" data-downloadSelect-tvid="{{tvid}}"& &a href="javascript:void(0);"&{{pd}}&/a&
选择您要下载的《
色情低俗内容
血腥暴力内容
广告或欺诈内容
侵犯了我的权力
还可以输入
您使用浏览器不支持直接复制的功能，建议您使用Ctrl+C或右键全选进行地址复制注册 | 登录
前去哪儿产品，公众号【乱入花间化绿叶】
从零开始学运营，10年运营老司机带路，2天线下集训+1年在线学习，做个优秀的运营人。
最近对直播比较感兴趣，被问到一个问题——如何屏蔽弹幕中的不良内容？于是便有了如下的学习内容。
一、什么是敏感词汇？
敏感词可大致分为以下几类：政治相关和人名、迷信邪教、黄赌毒、枪支弹药类、骂人讽刺类、时事类、广告和非法信息、其他类。
网上有很多专门的敏感词库，我在网盘里上传了一份名为百度内部的敏感词文件，仅供查看https://pan.baidu.com/s/1o8xtX1K。
2.常出没的地方
所有传播的信息都需要。发送这些垃圾信息的人或者团队被称为“垃圾虫”。
敏感词不仅出现在社区论坛、IM聊天、影音娱乐等内部的评论或上传信息区域，还隐藏在头像、昵称和签名这种地方，需要全面鉴别。
3.哪些地方需要屏蔽？
平常我们主要做的屏蔽是广告过滤、黄赌毒、暴力恐怖、谣言排查等几种。不同的场合屏蔽的级别不同，而且基于传播时效性的不同，屏蔽方式分为同步过滤和异步召回。
比如微博的屏蔽就需要做到基础和全面，甚至一些时事热点也要纳入屏蔽范围。
再比如B站，为了保持弹幕的质量，它还需要屏蔽一些刷屏的、内容尴尬的弹幕，这些弹幕的内容不算敏感，只是让人不喜欢。B站在弹幕方面算是鼻祖，做到了极致——用户可以根据颜色、字体大小、展示方式甚至自定义的文本来进行屏蔽，同时，在视频右边还有专门的弹幕栏，也就是说，我可以弹幕内容当做评论一条条地看而不受其干扰。如图所示：
二、目前有哪些手段可以进行屏蔽？
综合说来，技术屏蔽手段主要通过特征库、语义分析、机器学习等方法来展开。网易易盾上是分三类来写的：垃圾发现、垃圾识别、垃圾处理，有点表意不明，所以下面具体来介绍一下。（以下综合易盾和joylnwang的博客整理而成。）
1.垃圾发现——针对新垃圾
①用户举报：主要是指用户在使用产品过程中遇到不良信息，于是进行投诉。
为了保证投诉的效果，我们需要在举报的便捷性、显眼展示和奖励机制上花一些功夫去做，同时还需要建立科学的举报分类，不仅方便用户选择，还能极大地帮助反垃圾训练特征样本，综合来做才能有更好的效果。
②内容聚合：主要是通过判断内容的相似性，从而确定是否为垃圾信息。
就文本来说，其相似度分为两个层面，第一是基于编辑距离的文本相似度计算，这种算法是根据一段文字如何经过增删、移动而转化为另一段文字的操作步数，来计算两段文字的相似程度，运算的时间和空间复杂度都很高，对于评论，标题这样的短文本往往能获得不错的效果，缺点是对长文本不太适用，且没有考虑文本中意群的重要性。
第二是需要在原始文本中切分出有意义的Term，然后对于两篇文章的Term集合，运算得出文本的相似程度。复杂性上要高于前者，但在处理长文本的方面有优势，而且更有可能从意义的角度识别出相似的文本族（来源于http://blog.csdn.net/joylnwang/article/details/6831565）。
③蜜罐系统：主要是针对专业的垃圾虫团体。
通常垃圾虫都有特定的工具协助，而这些工具大多会分析页面元素并进行调用。如果在页面中埋伏一些“蜜罐”，正常的用户无法看到这些入口，但是程序会直接调用这些入口进行垃圾信息发送。比如某一些隐藏的评论主题，只有程序才会去抓取这些主题并对它们发送垃圾信息。那么进了这些“蜜罐”里的人，都可以被判断为非正常的用户。
2.垃圾识别
①特征匹配：主要是基于已有垃圾特征进行匹配。
对文本来说，建立敏感词库就可以直接屏蔽相关词句，同时，对于文字的变种比如简转繁、加空格、形近字、音近字，都可以有效识别。
对图片来说，主要是MD5，鲁棒哈希，Sift特征识别等手段。对于音频和视频也支持MD5匹配。（原谅我实在不能理清后面几种手段的具体技术实现，不能展开讲，有兴趣的可以百度。）总之，这几种手段可以支持人像识别、动漫识别、相似匹配、图片旋转裁剪、改变亮度色调、水印识别等，基本囊括了所有的不良图片。
②模型匹配：主要是基于机器学习，可以在没有具体特征样本库的情况下识别内容的分类。
音频文件也通过大量语料学习能把语音转换成文本，然后进入文本匹配过程。视频则通过截图的方式转换成为图片识别。
③规则匹配：即模式匹配，分为正则表达式、多模式匹配算法、基于元数据的定制等。
百度给的定义是：模式匹配是数据结构中字符串的一种基本运算，给定一个子串，要求在某个字符串中找出与该子串相同的所有子串。比如自定义规则：同IP下5分钟内发送内容相似度超80%的封禁1小时。
3.垃圾处理
①基础处理：删除内容，封禁内容，封禁用户，删除用户，封禁IP，封禁设备等常规手段
②隐蔽操作：普通的屏蔽操作容易被垃圾虫感知，当他们发现被屏蔽时，会想办法来“破解”反垃圾。故需要进行隐蔽，比较常见的做法有：垃圾发送接口返回成功，但实际仅用户自己可见。
比如直播中的弹幕，进行虚拟展示，仅用户自己可见，其他人都看不到。
③后续操作：每天把删除的垃圾内容汇总到内部分拣平台，由专业人员进行分析和对数据的分拣标记，完成各种模型以及规则的升级。
4.介绍一种常用常见的屏蔽工具——Adblock
Adblock是Mozilla Firefox、Mozilla Application Suite以及Google Chrome浏览器所使用的扩展。
Adblock允许用户拦截广告在内的各种页面元素，并使这些内容不被下载和显示。右键单击一个条幅广告，在上下文菜单中选择“Adblock”，它就再也不会被载入了；或者在侧栏打开 Adblock Plus 查看页面的所有元素，然后选择阻止条幅广告。您可以在过滤器中使用通配符或正则表达式来阻挡所有广告。
以上内容可解决大部分的敏感内容屏蔽问题，如有疑议，请在评论区回复，欢迎一起探讨~
本文由 @小乔（微信公众号：乱入花间化绿叶）原创发布于人人都是产品经理。未经许可，禁止转载。
如果觉得有用，欢迎打赏！
赞赏1人打赏
收藏已收藏 | 54赞已赞 | 6
前去哪儿产品，公众号【乱入花间化绿叶】
产品经理群运营交流群营销交流群
文案交流群
Axure交流群
PM要学点技术
关注微信公众号
10个回答13人关注
6个回答4人关注
6个回答7人关注
37个回答35人关注
11个回答23人关注
15个回答19人关注}

51无线网