长按海报可保存至本地
助力海报 返回大厅
快页运营商不良信息解决方案
0
投票
快页运营商不良信息解决方案
0
投票

1.1   业务前提1.1.1  建设背景

随着互联网、智能设备及各种新生业务的飞速发展,互联网上的数据呈现爆炸式增长,图片、视频、发文、聊天等互动内容已经成为人们表达感情、记录事件和日常工作不可或缺的部分。每天,通过互联网上传的视频、图片数量超过10亿,通过各种社交网络、媒体平台的发文数量超过5亿,而且这种趋势还是继续快速增长。

这些日益增长的内容中也充斥着各种不可控的风险因素,例如色情视频和图片、涉政暴恐内容、各种垃圾广告等等。随着政府监管的日渐严格,这些都是各网站及平台亟待认真对待和管理的工作。而另一方面,人们对这些非结构化内容的认识和解析和也处于初级阶段,需要更加智能的技术和系统来帮助大家深度发掘这其中蕴藏的巨大商业价值。

1.2   建设目标1.2.1  内容采集要求

我方采用必要的技术支撑手段,使用不良信息监测系统,对中国电信股份有限公司芜湖分公司管辖范围内所有网站,进行数据内容采集,采集获取中英文网页、文本、图片等数据,可自动识别出含有淫秽色情、暴力恐怖等疑似不良信息的网站内容,并进行取证留存。

1.2.2  内容监测要求

我方使用不良信息监测系统,支持基于预设的中英文关键字策略监测发现不良信息,预设关键字策略支持与、或组合,并具备关键字策略监测效果跟踪分析能力。

我方使用不良信息监测系统,支持涉黄图片识别、相似已知图片识别、图片内容进行非法信息监测。

1.2.2.1 文本检测

实现对系统采集的文本内容,通过关键词识别进行处理。对命中策略的文本数据送至处理中心,和源数据进行关联并展示,以进行查询和人工审核。功能要求如下:

支持对《网络信息内容生态治理规定》(国家互联网信息办公室令 第5号)中规定的违法及不良信息的识别,该规定包含影响国家安全、涉政、涉毒涉赌、色情、违法违禁、违反道德、广告等方面内容;

对转码预处理后的文本数据进行关键词/关键次组合的识别。

将搜索到的关键词/关键次组合进行标记。

支持关键词权重设置,综合计算每个页面/句子/文章等关键字权重作为是否命中策略依据。

支持组合关键词识别,即一个文本需同时命中组合关键词的策略才能入库。

支持关键词的多种匹配方式,包括精确匹配等多种匹配。

支持识别的文本格式包含但不限于text、htm、html、xml、wml、jsp、php、js、asp、aspx、txt等主流格式。

1.2.2.2 图片检测

实现对系统采集的图片内容,通过智能识别、样例库比对等方法进行识别,对命中策略的图片数据送至处理中心,和源数据进行关联并展示,以进行查询和人工审核。功能要求如下:

支持淫秽色情图片的识别,图片格式应支持主流格式:JPG、JPEG、GIF、PNG、BMP等

支持基于已知的不良信息图片,建立图片样例库。

支持样例图片库的输入、更新和导出。

支持基于图片相似度的识别算法,用于比对采集的图片和样例图片。

支持对缩放、旋转、叠加文字、模糊、扭曲、颜色变化后的图片进行样例库比对。

1.2.3  内容审核要求

提供不良信息的人工审核功能,机器识别结果为不良信息的内容应支持人工审核,进一步判断是否不良信息。功能要求如下:

提供文字信息的人工审核功能,审核项包含正常和违规,默认值是未审核,同时提供批量设置功能。

提供图片的人工审核功能,以实际图片呈现方式确认当前获取的图片是否违法。

支持查看已审核的记录或违规的记录。

支持批量审核。

支持按条件导出功能。

1.2.4  分析结果留存1.2.4.1 网站不良内容留存

系统采集分析发现的不良网站内容可以按照需求定制保存实现,保存的信息除原始内容外还包括存在该不良内容的网页链接、IP地址、发现时间、网页快照等。

1.2.4.2 结果上报

系统可根据需要将不良网站信息上传到外部系统,上传的信息包括违规的内容及相应的网址信息。

1.2.4.3 结果查询

系统支持对不良信息网站内容查询,提供多种统计报表。支持对提供的域名、URL、目的IP、目的端口、协议方法、协议内容类型、时间等可用信息的报表生成。系统支持测试报告的打印预览、Excel、html等格式的输出方式,为管理工作提供方便。

1.2.4.4 时间同步要求

系统与时间校对设备进行时间同步。

同步方式可采用NTP协议进行同步,也可使用GPS 或BITS等时间同步系统,进行时间同步。

修改时间的过程不对系统产生启动或小启动的影响。

1.3   技术方案1.3.1  系统架构

不良监控系统通过前端采集/爬虫设备进行内容采集、去重、识别、数据格式化、打包传输等,通过不良信息监测系统进行研判分析。不良信息监测和域名未备案分析系统功能模块如下:

(1)IP地址导入处理:平台支持通过手动方式导入6万5千个IP地址,根据导入IP地址结合特殊80/8080(HTTP)/443(HTTPS)等,对能通过浏览器打开的网页进行爬取;

(2)日志接收预处理:接收访问日志、DNS日志,并进行数据清洗等预处理;

(3)域名未备案分析:对DNS日志、IDC活跃域名进行引擎研判分析,分析出属于未备案的域名;     

(4)未备案分析结果展示及导出:输出未备案信息核查结果,包括IP/域名是否备案,与备案库比对后,与备案库不一致的或有差异的信息(IP地址的不正确、IP/域名所属客户、公司名称等信息)展示出来并输出,以报表的形式进行输出展示;     

(5)定制报表:根据局方提供的报表模板,提供10份定制报表;  

(6)去重模块:对访问日志的URL进行去重、对爬虫数据进行去重;

(7)爬虫模块:支持日志去重后的每天100万URL爬虫,并优先按照访问频次进行频次;支持对5万顶级域名网站主动爬虫,爬虫策略:14天轮询1次、爬取深度为3层、每个顶级域名网站爬取超过半小时自动结束(防止出现极大型的网站导致其他网站排队过长时间)、针对有反爬虫机制的无法爬取;      

(8)文本处理模块:对网站爬取的文字信息识别分析,鉴别是否为不良信息(反动类、维稳类、防恐防暴类、反诈类、谣言类、政治敏感类、色情类、赌博类),识别准确率超过80%以上,误报率和漏报率不高于20%;      

(9)OCR识别模块:自动解析图片中的文字,供文本处理模块使用;   

(10)图片模式识别模块:对网站爬取图片文件识别分析,鉴别是否为不良信息(色情、刀、枪、爆炸、恐怖分子、游行、血腥、藏独、港独、自焚),识别准确率超过80%以上,误报率和漏报率不高于20%;

(11)后台识别与控制模块:支持对特定域名和特定IP地址段是否需要监测与不检测的控制,支持定向配置域名自动爬取网站内容进行监控,不支持自动爬取IP段的监控;对词库进行管理,基本的增删改查功能,审核通过后用于算法的关键词匹配;支持人工标记修改关键词的不良类型,目前提供基础关键词2万个,每月更新一次;对图片库进行管理,基本的增删改查功能;对顶级域名信息做维护,以及爬虫策略做维护;      

(12)业务管理与前台展示模块:包含用户管理、权限管理、单位管理,可管理用户权限,用户与单位绑定,用户登录时,只能看到自己单位的数据;支持图片、文本二级审核和质检,可查看不良结果列表和系统处理记录,并进行质检与打标,打标完成形成算法识别训练素材;系统运行日志、操作日志查询;告警配置管理模块;中心服务器统计报表输出;

(13)接口模块:与DNS接口、与IDC信息安全管控平台接口。

1.3.2  技术方案要求

本期工程对IDC不良信息监测系统进行建设,针对恶意网络资源、不良信息实时监测、发现和处置,具备及时和准确监测能力;

对未备案网站进行实时扫描(实时扫描现增量,存量定期复核、支持手动批量导入域名进行未备案网站核查,每次批量导入网站数据不低于1万个,核查时间不超过12小时)和自动处置(告警和处置),实现对网站备案主体信息准确率进行自动拨测和自动处置能力,对未备案结果进行输出展示;

系统具备良好的系统管理、配置管理、数据统计分析、展示查看和告警管理功能。

1.3.3  功能设计1.3.3.1 互联网内容采集功能

日志采集

接收IDCISP信息安全管理系统上报的访问日志,提取访问日志的URL,,同时聚类统计每天的访问次数。

接收DNS传输过来的日志数据,并进行预处理。

文本、图片数据爬取

系统支持互联网内容采集,支持基于URL爬虫采集数据和基于域名深度遍历采集数据,系统采用爬虫方式爬取页面中的文本、图片内容进行分析,爬虫主要实现以下功能:

支持业务类型

系统支持网站业务信息进行采集和识别,根据内容类型(文字、图片)进行分类识别。对于已在可信任名单的数据,不再进行识别。

内容采集

(1)域名爬虫可对添加进入系统的域名进行采用深度遍历搜索任务调度模式采集网页内容。深度遍历搜索模式下,网页扫描器可自动递归地对网站和子站点进行层次性遍历搜索,遍历层数可人工配置,至少能支持到3层。

(2)URL爬虫可和访问日志端建立获取URL接口,系统可将接收的URL文件处理成URL扫描器能识别的格式文件,再通过调度程序将文件以负载均衡的方式分配给各子扫描器进行扫描。

(3)系统需支持网页中文字、图片的采集。

(4)分布式高效爬取功能:爬虫服务器支持分布式部署,同时整个爬虫系统采取并行负载平衡搜索技术,各个服务器根据任务的爬取量进行负载的方式实现多进程并发的高效爬取,从而充分利用系统资源,提高系统的效率。

(5)支持对顶级≥5万个顶级域名主动采集

(6)每天支持≥100万访问日志的URL的主动采集

(7)支持监控IP地址数量约为≥6万5千个

平台支持通过手动方式导入IP地址,根据导入IP地址结合特殊端口(80/8080/4043等),对能通过浏览器打开的网页进行爬取。

1.3.3.2 互联网内容去重功能

系统应支持冗余数据的去重功能,对采集和获取后的数据判断是否重复,对于重复的数据不再进行内容识别,防止重复识别。

根据互联网上信息大量转载、重复上传的特点,系统中的互联网文本、图片

数据存在较大规模的重复,因此排除重复数据减少对词语频度分析的干扰和影响是所有处理的基础。数据去重如下:

1.特定时间段内的URL去重处理

系统需支持对提交到后台处理的中标数据能集中进行URL地址和IP地址去重处理,再输出给人工审核,以防止审核相同的URL地址。

2.图片数据去重处理

系统需支持通过图片审计去重功能,如下:

(1)对于已人工确认的图片,即使该图片出现位置不同,也无需进行二次人工处理,可以直接根据结果入库或丢弃,提高了人工处理效率和图片审计的精度。

(2)对于已经由程序审计过的图片无需再次进行图片审计,这样只审计新增图片,提高审计效率。

3.网页数据去重处理

系统需支持对新增加的待审计网页数据与原有数据做比较,如果在系统中没有该网页的记录,则进行入库处理;如果存在该记录且网页内容没有发生变化,则不作处理;如果如果存在该记录且网页内容发生了变化,则对原记录进行更改,并重新进行人工审计。

1.3.3.3 互联网内容分析检测功能

本期项目工程建设,提供的系统支持文本、图片的分析检测功能,发现IDC/CDN/专线互联网的不良信息。

文本分析检测功能

1.文本分析检测基本

(1)系统需支持对采集获取的文本内容,按照系统定义的文本识别方式进行比对分析,将中标的内容进行标记并且高亮显示,并将不良文本内容传送给后台处理进行标记保存。

(2)系统支持多种文本格式内容的关键字检测功能,应能对采集到的网页中的附件文本进行内容分析,应可分析处理网页中链接的以下格式文件中的文本内容,文件格式包括但不限于TXT、RTF、DOC、PDF等。

(3)系统支持英文/数字(ASCII编码)、简体中文(GBK/GB18030)和UTF-8等编码的文本内容匹配和网页解析,能满足目前各种编码格式的网页内容匹配。

2.关键字分析功能

(1)系统需支持当网页内容中出现系统配置的多个关键字的任意一个时,该条内容能被监控出来,关键字支持“与”、“或”逻辑关系,关键字应至少支持中文、英文。

(2)关键字库支持不良信息按色情、赌博、诈骗、毒品等主题进行分类管理,每个监测主题支持关键词的与、或、非逻辑关系组合,使监测策略更加强大。

针对于关键字策略,可以进行策略的增加、修改、删除等功能。在系统策略中进行关键字匹配时,下发指定关键字特征(支持多策略组合),在检查业务数据时,通过检测业务内容中有一种指定关键字类型中的关键字判定关键字特征匹配成功。

3.关键字检测校准功能

由于通过关键字的匹配命中方式,如果规则相对宽泛,则可能造成系统监测事件的误报,为降低事件误报情况,提升命中准确率,系统提供通过关键字规则权重设置调整的功能,用于校准命中规则,提高命中率。

系统支持不同的关键字配置不同权重阀值,支持加权和减权关键字,当关键字权重达到固定阀值后才认定内容违规,可根据查准率和出现概率,设置调整关键字的权重,通过人工的配置调整,提高规则有效性,提升命中准确率。

合理的设置监测策略,能极大的提高数据中标率,降低误报率,从而极大的降低工作人员的工作量。主要调整方式如下:

调整关键字权重

设置减权关键字

把易误报的业务类型和URL增加到系统信任对象(黑白名单策略)

按照系统使用情况定期调整关键词权重,合理设置权重阈值。

权重值越高说明违规程度越高,权重值越小说明违规嫌疑越小。可以根据实际情况灵活设置和调整关键字权重。

4.检测告警功能

系统通过专有技术对重复的报警数据进行排重处理;还提供报警数据排序机制,可以按照报警数据命中关键字的权重对报警记录进行排序,将最可疑的报警记录排在最前面进行展示,方便用户高效的定位到不良信息报警记录。

5.文本分析结果输出

经文本识别后的中标文本内容至少留存以下信息:

中标数据生成时间

文本摘要(高亮显示关键词及关键词组合)

文本所在网页的快照

文本所在的网页URL地址

文本所在的网页IP地址

图片分析检测功能

1.系统需支持发现图像本身的URL以及图片链接所在的网址。

2.系统需支持色情图片识别,对还原的图片进行分析,如果图片满足不良图片特征,系统将该图片判定为疑似不良图片。通过对图片的分析计算及处理,系统需将该疑似中标图片及所包括的主要相关信息进行保存,提供图片的缩略查看功能,待人工进行审核确认。

3.系统需支持建立样例图片库,提取加入样例库的图片特征建立特征库,用做图片识别时可使用样例图片库的特征数据。对于反动、暴力、赌博、色情等不良图片可以采用样例库图片分析技术,即由用户手工在样例库中添加该图片,系统通过先进的图片摘要技术可以自动的识别任何与该样例库图片特征相符的图片。支持同本地不良图片库中的同一张图片的翻转、放大、缩小、切图或者拉伸等处理后的图片进行比对的能力。

4.系统需支持样例图片识别,系统能发现网络中与违规图片样本相似的图片,并且根据相似的图片样本进行分组统一告警,并且在人工审核过程中,提供图片的缩略查看功能。样例库图片识别功能主要用于以下几种情况:

(1)非法图片的识别,例如反动图片、违规图片等,这类图片的发现的基础是事先可建立相应的样例图片库;

(2)色情图片的再次识别,管理系统发现色情图片和非法图片后可自动加入到样例库。

5.格式及处理能力

多格式支持:系统识别图片格式支持大部分图片格式,其中包括:JPEG、JPG、PNG、TIFF、JBIG、JPEG-2000、BMP、GIF、ICO。

6.经图片审计后的中标图片(色情、样例)至少留存以下信息:

(1)中标数据生成时间

(2)图片缩略图(能够通过缩略图查看原图)

(3)图片所在的网页URL

(4)图片所在的网页IP地址

7.图片分析检测功能支持开关功能,根据可开启或者关闭。

1.3.3.4 不良信息审核功能

本项目工程建设,提供的系统支持审核配置管理功能,系统通过关键字匹配、色情图片识别和样例图片识别技术,提取出网站中疑似内容违规信息,由人工对疑似违规数据进行确认审核,需满足以下:

1.系统支持将自动分析发现的不良内容提交给审核人员,由人工对自动分析结果进行审核判别。管理员在对系统上报的不良网站进行审核时,可设置不良网站的类别(如淫秽色情、低俗、反动、正常等)。

2.识别结果的指标为疑似度,疑似度预设定为:低、中、高。提交人工审核的疑似度可调节。如人工审核疑似度可设置为低、中、高。疑似度小于低的,自动放行。疑似度大于高,自动放入疑似黑名单库;疑似度在低以上的,自动放入待审核库,由人工审核认定后进入疑似黑名单库。

3.系统应支持人工修改系统自动判定形成的疑似黑名单名单的功能,用于校正系统自动识别、审核形成的疑似黑名单名单记录。对于人工校正纠正为合法内容的记录,系统自动从疑似黑名单名单中清除该记录。

4.支持对人工确认违规的文本和图片进行原始快照取证保存、查看、下载,保存的信息除原始内容外至少应包括存在该不良内容的网页链接、IP地址、发现时间、上报采集点、网页快照、图片快照等,违规信息内容保存时间至少为180天。

5.在人工审核时,管理员能够按照以下几种方式选择查看可审核的文本、图片内容:

(1)按照起至时间段选择查看,时间粒度精确到小时;

(2)按照内容类别:如文本、图片等

(3)按照指定URL地址选择查看:支持单个或多个URL地址;

(4)按照指定IP地址选择查看:支持单个或多IP地址;

(5)在审核内容查看时,每条中标内容应支持以下元素:

1)文本:

支持将系统发现的疑似违规文本内容提交人工进行审核确认功能,需提交人工审核的信息至少包括:命中系统预设关键字策略规则的疑似违规信息、中标的关键字策略、中标网页的URL地址、中标网页的详细信息、中标时间、疑似度等;

2)图片:

支持将系统发现的疑似违规图片内容提交人工进行审核确认功能,需提交人工审核的信息至少包括:命中系统预设样例图片策略规则的疑似违规信息、系统自动判定为色情图片的疑似违规信息、中标图片的URL地址、中标时间、疑似度等;

6.系统应根据关键字库(涉黄、政治等)、图像库(涉黄、政治等)、网址库(涉黄、政治等)的分类对发现的不良网站进行分类展现。

1.3.3.5 违规内容告警功能

系统支持违规内容发现时自动提供网页方式告警功能,提示审核人员及时处理。告警信息集中展现于管理平台中,具备内容监控平台数据审核权限的用户可直接在集中管理界面上查看各告警信息,宏观掌握系统信息安全状况。

1.3.3.6 网站内容分析识别策略管理

内容识别策略至少包括关键字库策略、图像特征库策略,应允许本地管理员自行根据可设置(增加、删除、修改)。

黑名单管理功能

根据疑似黑名单网站判断结果,生成网站黑名单库,网站黑名单库支持增加、删除、修改、查询功能。

(1) 黑名单支持除重功能。

(2) 黑名单支持批量导入、导出功能。

(3) 黑名单支持上限设置,该参数可配置。如果操作黑名单时,其数量逼近或超出限制,系统可自动提示。系统可提供以下黑名单库的数量管理策略,供管理人员选用:

1) 先进先出策略:如果疑似屏蔽名单中的数量达到了上限,那么遵循先进先出的原则,清除先进入名单的疑似URL记录;

2) 自动合并策略:在设定的周期(如一定时间)内,某个域名或者IP下的疑似屏蔽名单达到了设定的数量(该参数可配置),那么系统自动合并疑似屏蔽名单中的这些记录为其对应的域名或IP地址。

白名单管理功能

系统在内容识别时支持白名单模式。信任白名单生效时,不对信任白名单中的网址进行爬虫采集和内容识别。

信任白名单网址信息包括域名、URL、IP地址和端口号等。可以支持其中的一项或多项生效策略。

系统应提供对信任白名单单信息的管理( 增加、删除、修改)功能。信任名单维护支持系统接口、人工导入和文件批量导入方式。

白名单应支持导出功能。

1.3.3.7 系统管理功能

提供的系统支持用户权限管理、日志管理、内容识别策略管理功能。

1.权限管理功能

用户权限管理功能支持最小权限分配管理和职责分离原则,采用基于角色的系统安全控制模型。通过分配和取消角色来完成用户权限的授予和取消,安全管理人员根据可定义各种角色,并设置合适的访问权限,而用户根据其责任和资历再被指派为不同的角色。将整个访问控制过程分成两个部分,即访问权限与角色相关联,角色再与用户关联,实现用户与访问权限的逻辑分离。

2.日志管理功能

系统应具备完善的日志管理功能,能记录和保存系统日志,供管理员查看和导出。日志类型包括业务操作日志、系统运行状态日志、系统安全日志等。操作日志管理至少保存180天。

1) 系统运行日志:

告警:记录系统运行过程中出现的系统异常信息,包括告警信息名称,发生时间,告警信息类型,告警信息级别等内容;

进程启动/停止:记录系统运行过程涉及到的重点进程的启动及停止的日志信息,包括进程名称,进程启动/停止时间、完成情况等内容。

2) 业务操作日志

系统变更配置:记录系统配置信息变更的情况,包括配置信息内容、变更时间、系统管理员名称、变更完成情况等内容;

对可信任名单、疑似屏蔽名单、监控策略的设置,包括设置信息内容、设置时间、系统管理员名称、设置完成情况等内容。

3) 系统安全日志

为保证数据安全,当关键字、可信任名单、疑似屏蔽名单数据被异常读写复制时,系统自动记录日志。包括读写时间、读写内容等信息。

1.3.3.8 统计报表功能

系统支持按日、按周、按月提供统计报表功能,并提供报表的查看、下载。统计报表保存时间应至少为30天。至少需提供以下类型统计报表:

(1) 监测网站统计报表,统计指标为监测网站数量统计。

(2) 审计工作量统计报表,统计指标为用户帐号、审核总数量、审核确认违规内容数量。

(3) 网站违规信息统计报表,统计指标为统计时间段、违规信息、违规次数、所属IP、域名等。

1.4   方案特点1.4.1  文本识别

智能语义分析技术主要包括:自动分词、关键词匹配、权重计算、模糊匹配,识别准确率>95%。

1.4.2  覆盖范围广

支持优酷、爱奇艺、腾讯视频、腾讯微视、百度视频、好看视频、快手、抖音、B站等多个专业视频网站中与特定关键词相关的视频。

支持对指定的通用网站、微博号、微信号、自媒体账号发布的音视频和图片内容。

支持各类文档中包含的文字和图片识别。

1.4.3  全方位识别

千亿级海量样本库、百万级违规词库、上万种变体类型,数百种语义标签、高效识别各类场景中涉政、色情、违禁、垃圾广告等违规内容。

1.4.4  深度学习

深度学习算法性能指标大幅提高:新一代算法利用深度学习模型实现大样本无监督训练、改善分类粒度,大幅降低误判率,未来可不断增加训练样本进一步提升指标。

误报率的降低可以大大减轻人工审核的工作量:根据现网应用情况,系统的误报率可降低到千分之五。


关闭

年度最佳行业解决方案(运营商)

快页运营商不良信息解决方案

登陆即可获得 8 次投票机会