政府網(wǎng)站建設(shè)管理規(guī)范第7部分:集約化平臺(tái)內(nèi)容安全審核_第1頁(yè)
政府網(wǎng)站建設(shè)管理規(guī)范第7部分:集約化平臺(tái)內(nèi)容安全審核_第2頁(yè)
政府網(wǎng)站建設(shè)管理規(guī)范第7部分:集約化平臺(tái)內(nèi)容安全審核_第3頁(yè)
政府網(wǎng)站建設(shè)管理規(guī)范第7部分:集約化平臺(tái)內(nèi)容安全審核_第4頁(yè)
政府網(wǎng)站建設(shè)管理規(guī)范第7部分:集約化平臺(tái)內(nèi)容安全審核_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ICS35.240

CCSL60

23

黑龍江省地方標(biāo)準(zhǔn)

DB23/TXXXX.7—XXXX

政府網(wǎng)站建設(shè)管理規(guī)范第7部分:集約化

平臺(tái)內(nèi)容安全審核

征求意見(jiàn)稿

在提交反饋意見(jiàn)時(shí),請(qǐng)將您知道的相關(guān)專(zhuān)利連同支持性文件一并附上。

XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施

黑龍江省市場(chǎng)監(jiān)督管理局??發(fā)布

DB23/TXXXX.7—XXXX

政府網(wǎng)站建設(shè)管理規(guī)范第7部分:集約化平臺(tái)內(nèi)容安全審核

1范圍

本文件規(guī)定了黑龍江省政府網(wǎng)站集約化平臺(tái)內(nèi)容安全審核的要求,包括總體框架、內(nèi)容安全審核要

求、技術(shù)對(duì)接要求等。

本文件適用于省級(jí)、地市級(jí)政府網(wǎng)站集約化平臺(tái)內(nèi)容的安全審核。

2規(guī)范性引用文件

本文件沒(méi)有規(guī)范性引用文件。

3術(shù)語(yǔ)和定義

下列術(shù)語(yǔ)和定義適用于本文件。

政務(wù)新媒體

各級(jí)行政機(jī)關(guān)、承擔(dān)行政職能的事業(yè)單位及其內(nèi)設(shè)機(jī)構(gòu)在微博、微信等第三方平臺(tái)上開(kāi)設(shè)的政務(wù)賬

號(hào)或應(yīng)用,以及自行開(kāi)發(fā)建設(shè)的移動(dòng)客戶端等。

不良違法信息

計(jì)算機(jī)信息系統(tǒng)及其存儲(chǔ)介質(zhì)中存在、出現(xiàn)的,以圖像、文字,聲音、視頻等多種形式表示的,含

有攻擊人民民主專(zhuān)政、社會(huì)主義制度,攻擊黨和國(guó)家領(lǐng)導(dǎo)人,破壞民族團(tuán)結(jié)等危害國(guó)家安全內(nèi)容的信息;

含有宣傳封建迷信、淫穢色情、兇殺、教唆犯罪等危害社會(huì)秩序的內(nèi)容等。

信息系統(tǒng)

政府網(wǎng)站集約化平臺(tái)建設(shè)所涉及的互動(dòng)交流系統(tǒng)、全媒體內(nèi)容管理系統(tǒng)、統(tǒng)一信息資源庫(kù)系統(tǒng)、集

約化服務(wù)系統(tǒng)、政務(wù)信息公開(kāi)系統(tǒng)等應(yīng)用系統(tǒng)。

政府?dāng)?shù)據(jù)

政府網(wǎng)站在信息發(fā)布、解讀回應(yīng)、辦事服務(wù)、互動(dòng)交流等網(wǎng)站應(yīng)用在運(yùn)行過(guò)程制作或獲取的,以一

定形式記錄、保存的文件、資料、圖表和數(shù)據(jù)等各類(lèi)信息資源,包括政府部門(mén)直接或通過(guò)第三方依法采

集的、依法授權(quán)管理的和因履行職責(zé)需要依托政府網(wǎng)站形成的信息資源等。

政府網(wǎng)站

各級(jí)人民政府及其部門(mén)、派出機(jī)構(gòu)和承擔(dān)行政職能的事業(yè)單位在互聯(lián)網(wǎng)上開(kāi)辦的,具有信息發(fā)布、

解讀回應(yīng)、辦事服務(wù)、互動(dòng)交流等功能的網(wǎng)站。

1

DB23/TXXXX.7—XXXX

政府門(mén)戶網(wǎng)站

縣級(jí)以上各級(jí)人民政府開(kāi)設(shè)的政府門(mén)戶網(wǎng)站。

部門(mén)網(wǎng)站

省級(jí)、地市級(jí)政府部門(mén)開(kāi)設(shè)的部門(mén)網(wǎng)站。

機(jī)審

機(jī)器審核,通過(guò)AI算法對(duì)劣質(zhì)內(nèi)容進(jìn)行識(shí)別、過(guò)濾的一種審核模式,通過(guò)提取海量數(shù)據(jù)樣本的特征,

輸入機(jī)器學(xué)習(xí)形成的機(jī)器算法。

注:機(jī)器審核通??梢詤^(qū)分為機(jī)審規(guī)則和機(jī)審模型,機(jī)審規(guī)則是最簡(jiǎn)單的機(jī)器審核方式,僅支持識(shí)別文本類(lèi)內(nèi)容。

機(jī)審模型則能力更加強(qiáng)大,可支持文本、圖片、音視頻的審核。

機(jī)審規(guī)則

由海量的風(fēng)險(xiǎn)詞和匹配規(guī)則構(gòu)成的風(fēng)險(xiǎn)詞表。

標(biāo)簽體系

按照統(tǒng)一規(guī)則對(duì)內(nèi)容或者用戶進(jìn)行分類(lèi)后形成的體系。

功能模塊

數(shù)據(jù)說(shuō)明、可執(zhí)行語(yǔ)句等程序元素的集合,單獨(dú)命名的可通過(guò)名字來(lái)訪問(wèn)的過(guò)程、函數(shù)、子程序或

宏調(diào)用。

注:功能模塊化是將程序劃分成若干個(gè)功能模塊,每個(gè)功能模塊完成了一個(gè)子功能,再把這些功能模塊總起來(lái)組成

一個(gè)整體。以滿足所要求的整個(gè)系統(tǒng)的功能。

智能識(shí)別

利用模式識(shí)別和圖像處理的技術(shù),根據(jù)需求來(lái)自動(dòng)分析和抽取原始數(shù)據(jù)中的關(guān)鍵信息。

4總體框架

業(yè)務(wù)流程規(guī)范

4.1.1審核業(yè)務(wù)規(guī)范

審核業(yè)務(wù)流程包含“人工審核”、“專(zhuān)家審核”、“智能機(jī)審”,詳見(jiàn)圖1:

2

DB23/TXXXX.7—XXXX

圖1審核業(yè)務(wù)流程圖

4.1.2巡檢業(yè)務(wù)規(guī)范

巡檢業(yè)務(wù)是信息發(fā)布后保證內(nèi)容安全工作的重要組成部分,應(yīng)具備采集政務(wù)新媒體矩陣發(fā)布內(nèi)容的

能力,同時(shí)應(yīng)具備圖、文、音、視全模態(tài)數(shù)據(jù)識(shí)別能力,及時(shí)發(fā)現(xiàn)政務(wù)新媒體矩陣不合規(guī)信息、政府網(wǎng)

站內(nèi)被惡意篡改以及新法規(guī)發(fā)布前合規(guī)發(fā)布后不合規(guī)的內(nèi)容,并如圖2所示將內(nèi)容及時(shí)推送預(yù)警至工作

人員。

圖2巡檢業(yè)務(wù)流程圖

4.1.3業(yè)務(wù)性要求

政府網(wǎng)站內(nèi)容安全

應(yīng)形成“發(fā)布前審核”、“發(fā)布后巡檢”業(yè)務(wù)閉環(huán),政府網(wǎng)站的信息發(fā)布前使用智能機(jī)審與人工審

核結(jié)合的方式完成審核流程。信息發(fā)布后周期性對(duì)信息進(jìn)行全量巡檢,保障信息發(fā)布后及時(shí)發(fā)現(xiàn)被惡意

篡改的內(nèi)容,以及符合新頒布的法律法規(guī)等。

政務(wù)新媒體矩陣內(nèi)容安全

不在發(fā)布前信息審核范圍內(nèi)的媒體、自媒體發(fā)布的內(nèi)容應(yīng)定向采集巡檢,以保障內(nèi)容的安全性。

3

DB23/TXXXX.7—XXXX

4.1.4功能性要求

人機(jī)結(jié)合審核功能模塊

應(yīng)具備人審、機(jī)審結(jié)合的管理功能模塊,支持審核流程自定義、支持審核數(shù)據(jù)管理,支持審核員對(duì)

待審數(shù)據(jù)的通過(guò)、不通過(guò)、標(biāo)記等功能,支持不同用戶角色管理。

文本智能識(shí)別功能模塊

應(yīng)具備文本智能識(shí)別功能模塊,使用深度學(xué)習(xí)、上下文語(yǔ)義識(shí)別、NLP技術(shù)、行為識(shí)別、文本聚類(lèi)、

內(nèi)容變種識(shí)別等技術(shù),結(jié)合多場(chǎng)景、多維度判定,定位文本中有問(wèn)題的部分。支持對(duì)圖片/視頻中的文

字位置進(jìn)行精準(zhǔn)定位,并支持對(duì)楷體、宋體、仿宋、隸書(shū)、行楷、手寫(xiě)體、豎排文字和傾斜角度的文字

檢測(cè)。支持策略配置、精細(xì)化分類(lèi)以及自定義詞庫(kù),可高效檢測(cè)涉政、暴恐、違禁、色情、謾罵等內(nèi)容。

圖片智能識(shí)別功能模塊

應(yīng)具備圖片智能識(shí)別功能模塊,采用深度學(xué)習(xí)、OCR、人臉識(shí)別、圖片聚類(lèi)、二維碼檢測(cè)、行為識(shí)

別等技術(shù),構(gòu)建圖片識(shí)別引擎,精準(zhǔn)識(shí)別圖片中落馬官員、失德藝人、劣跡藝人、政治敏感內(nèi)容、涉恐、

涉黃、欺詐廣告等紅線違規(guī)違法內(nèi)容。

音頻智能識(shí)別功能模塊

應(yīng)具備智能音頻識(shí)別模塊,采用深度學(xué)習(xí)、普通話/英文聲音轉(zhuǎn)換為文字等語(yǔ)音識(shí)別技術(shù)。實(shí)現(xiàn)將

數(shù)據(jù)與庫(kù)中的參考模板進(jìn)行比較,采用判決的方法找出最接近語(yǔ)音特征的能力,得出識(shí)別結(jié)果。同時(shí)支

持聲紋識(shí)別、嬌喘、呻吟、ASMR、領(lǐng)導(dǎo)人聲紋檢測(cè)等功能,輔助音頻檢測(cè)判定結(jié)果能夠支持包括WAV、

MP3、WMA、FLAC、AMR、OPUS、M4A、AAC等格式,可對(duì)其進(jìn)行多場(chǎng)景、多維度地檢測(cè)與識(shí)別。如監(jiān)測(cè)紅

線違規(guī)識(shí)別、色情、辱罵等。

視頻智能識(shí)別功能模塊

應(yīng)具備視頻只能識(shí)別模塊,基于深度學(xué)習(xí)的人工智能技術(shù),支持對(duì)視頻截幀留存、識(shí)別其中包括視

頻畫(huà)面、語(yǔ)音、字幕、標(biāo)題中出現(xiàn)的紅線違規(guī)等內(nèi)容,例如政治內(nèi)容、落馬官員、色情污穢、暴恐宗教、

低俗辱罵、廣告水印、吸煙賭博場(chǎng)景等類(lèi)型,支持格式包括支持MP4、AVI、MKV、MOV等。

特征庫(kù)管理模塊

通過(guò)建立敏感特征庫(kù),可以統(tǒng)一對(duì)敏感人物、敏感圖像、敏感音頻信息進(jìn)行管理與編輯,支持手動(dòng)

添加與刪除,支持自定義人像庫(kù)上傳及審核,支持敏感圖像標(biāo)注上傳。對(duì)已審核完成的人像、音頻及圖

像標(biāo)注數(shù)據(jù),可支持實(shí)時(shí)更新到關(guān)聯(lián)到相關(guān)任務(wù)的特征庫(kù)。

省級(jí)與地市級(jí)平臺(tái)聯(lián)動(dòng)

4.2.1省市聯(lián)動(dòng)架構(gòu)

省市聯(lián)動(dòng)架構(gòu)圖見(jiàn)圖3:

4

DB23/TXXXX.7—XXXX

圖3省市聯(lián)動(dòng)架構(gòu)圖

4.2.2內(nèi)容審核系統(tǒng)省市聯(lián)動(dòng)規(guī)范

敏感樣例庫(kù)省市聯(lián)動(dòng)

應(yīng)在省級(jí)平臺(tái)建立敏感樣例總庫(kù),且作為敏感內(nèi)容判斷的唯一標(biāo)準(zhǔn),同時(shí)通過(guò)接口將樣例數(shù)據(jù)下發(fā)

到地市單位使用,敏感樣例庫(kù)主要用于審核人員之間的知識(shí)傳播、支撐知識(shí)圖譜運(yùn)行以及與巡檢系統(tǒng)的

敏感特征庫(kù)聯(lián)動(dòng)。

審核業(yè)務(wù)省市聯(lián)動(dòng)

應(yīng)在敏感樣例庫(kù)支撐的基礎(chǔ)上建立審核業(yè)務(wù)省市聯(lián)動(dòng)機(jī)制,如地市在工作中遇到難以判別的實(shí)例可

將該實(shí)例提交至省級(jí)平臺(tái)專(zhuān)家協(xié)商處理,省級(jí)專(zhuān)家處理審核后一方面將協(xié)助結(jié)果發(fā)至地市,另一方面將

該案例作為新的敏感規(guī)則上傳至敏感樣例庫(kù),并將該樣例同步下發(fā)到其余地市。

聯(lián)動(dòng)權(quán)限分配

5

DB23/TXXXX.7—XXXX

集約化平臺(tái)包含省市兩級(jí)平臺(tái),應(yīng)建立用戶角色以控制行政權(quán)限,角色包含省級(jí)專(zhuān)家審核員、省級(jí)

審核員、市級(jí)專(zhuān)家審核員、市級(jí)審核員等。不同的角色可看到不同的數(shù)據(jù)量,省級(jí)用戶擁有全省數(shù)據(jù),

市級(jí)用戶只能查詢本地市的數(shù)據(jù),同時(shí)不同角色也在省市聯(lián)動(dòng)流程中負(fù)責(zé)不同的崗位職責(zé)。

4.2.3內(nèi)容巡檢系統(tǒng)省地聯(lián)動(dòng)規(guī)范

敏感特征庫(kù)省市聯(lián)動(dòng)

應(yīng)在省級(jí)平臺(tái)建立敏感特征總庫(kù),作為全省巡檢敏感內(nèi)容判斷的唯一標(biāo)準(zhǔn),同時(shí)接收來(lái)自敏感樣例

庫(kù)的新敏感樣例,將其特征化后分發(fā)至各地市憑條,同步應(yīng)用至巡檢任務(wù)中。

預(yù)警統(tǒng)計(jì)省市聯(lián)動(dòng)

應(yīng)建立巡檢監(jiān)控預(yù)警和統(tǒng)計(jì)省市聯(lián)動(dòng),各地市平臺(tái)應(yīng)將本地政務(wù)媒體矩陣的賬號(hào)、發(fā)文數(shù)量、發(fā)文

質(zhì)量以及預(yù)警內(nèi)容推送至省級(jí)平臺(tái),方便省級(jí)平臺(tái)掌控各地市政務(wù)媒體矩陣發(fā)文質(zhì)量。

聯(lián)動(dòng)權(quán)限分配

應(yīng)建立用戶角色以控制數(shù)據(jù)查看權(quán)限,省級(jí)用戶可查看全省預(yù)警數(shù)據(jù),市級(jí)用戶只能查看本地市預(yù)

警數(shù)據(jù)。

5審核標(biāo)準(zhǔn)

文本審核規(guī)范要求

5.1.1關(guān)鍵詞過(guò)濾

能夠通過(guò)與或表達(dá)、正則表達(dá)的方式配置組合關(guān)鍵詞策略,可快速、精準(zhǔn)定位色情、暴恐涉政、廣

告、辱罵等文本垃圾。

5.1.2文本分類(lèi)識(shí)別

支持業(yè)界監(jiān)督學(xué)習(xí)算法樸素貝葉斯、SVM、邏輯回歸、自然語(yǔ)言識(shí)別等技術(shù),自動(dòng)識(shí)別文本不良信

息類(lèi)別,包括涉黃類(lèi)、政治類(lèi)、商業(yè)廣告類(lèi)、欺詐類(lèi)、涉黑類(lèi)等。

5.1.3文本聚類(lèi)識(shí)別

支持采用文本編輯距離、K-means聚類(lèi)等算法,自動(dòng)對(duì)現(xiàn)網(wǎng)海量文本數(shù)據(jù)進(jìn)行聚類(lèi),結(jié)合預(yù)置合法

性類(lèi)別,有效判定文本是否存在違規(guī)風(fēng)險(xiǎn)。

5.1.4文本違規(guī)實(shí)體識(shí)別

能夠?qū)⑦`規(guī)文本中的關(guān)鍵詞識(shí)別定位,得到違規(guī)實(shí)體和實(shí)體位置以及實(shí)體所屬的違規(guī)類(lèi)型(如賭博、

色情、涉政、違規(guī)人員、違規(guī)地點(diǎn)等)。文本違規(guī)實(shí)體間關(guān)系抽?。和ㄟ^(guò)關(guān)系抽取技術(shù),得到識(shí)別到的

違規(guī)實(shí)體之間的關(guān)系,構(gòu)建三元組(實(shí)體-關(guān)系-實(shí)體)。

圖片及視頻審核規(guī)范要求

5.2.1涉政圖片及視頻識(shí)別

6

DB23/TXXXX.7—XXXX

支持敏感專(zhuān)項(xiàng)、嚴(yán)格涉政、時(shí)事報(bào)道、領(lǐng)導(dǎo)人相關(guān)、英雄烈士相關(guān)、邪教迷信、落馬官員相關(guān)、熱

點(diǎn)輿情、涉政綜合等精細(xì)化子分類(lèi)返回。對(duì)于涉政圖片及視頻,尤其是敏感人物/政治人物、特定場(chǎng)景、

特定事件、特定著裝等關(guān)鍵內(nèi)容。也采用基于類(lèi)似深度學(xué)習(xí)的方法,根據(jù)視頻、圖像信息的特定特點(diǎn),

進(jìn)行涉政識(shí)別服務(wù)。該服務(wù)主要分為政治敏感人物識(shí)別、涉政場(chǎng)景識(shí)別和特定事件識(shí)別三大模塊。最后,

由三大模塊的識(shí)別結(jié)果共同判定,得到該片段是否涉政的最終結(jié)論。

5.2.2暴恐圖片及視頻識(shí)別

支持對(duì)包含暴力、血腥場(chǎng)景、恐怖組織頭目、旗幟、涉政等涉嫌違禁的暴恐類(lèi)圖片及視頻信息檢測(cè)。

能同時(shí)識(shí)別出圖片中含有的暴恐元素,如:火光、刀具、鮮血、旗幟、軍隊(duì)等,能夠根據(jù)不同場(chǎng)景管控

需求不同,可針對(duì)性的配置,提升識(shí)別的準(zhǔn)確度。

在采用深度學(xué)習(xí)算法,采用深度學(xué)習(xí)算法,根據(jù)截幀畫(huà)面、聲音、文字、視頻等多維度綜合決策視

頻結(jié)果,可快速對(duì)圖片視頻內(nèi)容進(jìn)行判別并快速定位暴恐旗幟、人物和場(chǎng)景以及敏感政治人物。最終在

結(jié)果中返回證據(jù)畫(huà)面,協(xié)助播控人員判斷。下面將分暴恐和涉政兩個(gè)方面進(jìn)行闡述。

針對(duì)暴恐圖片及視頻,該服務(wù)需要對(duì)媒體內(nèi)容進(jìn)行深度分析,包括敏感文字識(shí)別、敏感圖像識(shí)別、

敏感物品檢測(cè)、敏感音頻識(shí)別、敏感人物檢測(cè)等內(nèi)容。重點(diǎn)關(guān)注旗幟\橫幅、特定事件、行刑/血腥場(chǎng)面、

武器、特定著裝、暴亂場(chǎng)面以及戰(zhàn)爭(zhēng)場(chǎng)面等特定事物與場(chǎng)景。

5.2.3違禁和廣告圖片及視頻識(shí)別

支持違禁品、血腥場(chǎng)景、違禁人物、違禁Logo、公職服飾、不文明行為、違禁場(chǎng)景、火焰、骷髏、

貨幣、毒品等細(xì)分場(chǎng)景識(shí)別;支持含二維碼、色情廣告、推廣廣告違規(guī)等細(xì)分場(chǎng)景識(shí)別;相比普通場(chǎng)景

而言,圖片視頻中的不良場(chǎng)景兼具通用性與獨(dú)特性,即不良場(chǎng)景是在普通場(chǎng)景中發(fā)生了不良狀況形成。

鑒于普通場(chǎng)景已經(jīng)擁有大量數(shù)據(jù),但不良場(chǎng)景數(shù)據(jù)極少,可采用遷移學(xué)習(xí)思想將普通場(chǎng)景數(shù)據(jù)進(jìn)行很好

的建模后,再遷移到不良場(chǎng)景中使用。遷移學(xué)習(xí)是機(jī)器學(xué)習(xí)的重要分支。近幾年,遷移學(xué)習(xí)發(fā)展十分迅

猛,很多學(xué)者開(kāi)始挖掘深度學(xué)習(xí)模型的遷移能力。本項(xiàng)目采用基于模型的遷移學(xué)習(xí)——?dú)埐钸w移網(wǎng)絡(luò)來(lái)

檢測(cè)不良場(chǎng)景。

5.2.4涉黃圖片及視頻識(shí)別

支持色情傳播、色情性器官、色情挑逗、色情低俗段子、色情性行為、色情輿情事件、色情交友類(lèi)

等精細(xì)化子分類(lèi)返回。該部分通過(guò)深度學(xué)習(xí)算法和實(shí)時(shí)更新的億級(jí)圖像樣本庫(kù),可實(shí)現(xiàn)對(duì)圖片與視頻進(jìn)

行識(shí)別以及色情程度量化。視頻檢測(cè)采用截幀畫(huà)面、聲音、文字多維度綜合決策視頻結(jié)果,最大限度避

免因?yàn)榻貓D模糊而導(dǎo)致誤判。支持色情圖片、視頻的識(shí)別服務(wù),支持批量對(duì)圖像的色情程度實(shí)時(shí)打分,

分?jǐn)?shù)越高被判為色情圖像的概率越高。其內(nèi)容主要根據(jù)以下標(biāo)準(zhǔn)區(qū)分:

a)色情:全裸、露點(diǎn)、露臀(包含類(lèi)似全裸)、性愛(ài)姿勢(shì)、高仿真3D動(dòng)畫(huà)類(lèi),高仿真器具及不

雅姿勢(shì)(不雅姿勢(shì)包括各種帶有引誘性的動(dòng)作);

b)性感:性感動(dòng)作,布料稀少衣服遮擋敏感部分大于三分之二并沒(méi)有不雅姿勢(shì)(如泳衣、正常

哺乳類(lèi)未露點(diǎn)等);

c)正常:非色情,正常的物品、風(fēng)景、人物、表情及動(dòng)作。

最后,集成多種特征實(shí)現(xiàn)對(duì)圖像的描述,采用瀑布型網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)對(duì)色情圖片及視頻的檢測(cè)。

5.2.5圖片文字轉(zhuǎn)換

7

DB23/TXXXX.7—XXXX

支持OCR,可以提取圖像中包含的文字內(nèi)容,再結(jié)合文本識(shí)別算法進(jìn)行違規(guī)圖片精準(zhǔn)判定。OCR圖文

識(shí)別服務(wù)算法提供上億字符樣本積累,可精準(zhǔn)定位圖片中文字位置,準(zhǔn)確識(shí)別斜排字,藝術(shù)字等字體。

可用于字幕識(shí)別、印刷文本識(shí)別等場(chǎng)景。

圖文識(shí)別服務(wù)應(yīng)當(dāng)能將電子設(shè)備中拍攝到的圖片進(jìn)行一系列預(yù)處理,通過(guò)深度學(xué)習(xí)的方式對(duì)圖片中

的文本框進(jìn)行檢測(cè)和識(shí)別,確定其文本的具體位置和方向,然后進(jìn)行文本框的切割和處理,使其能進(jìn)行

文本框中單獨(dú)字符的識(shí)別,深度學(xué)習(xí)的過(guò)程是對(duì)文本框的確定起著至關(guān)重要的作用,所以我們?cè)谶M(jìn)行深

度學(xué)習(xí)的時(shí)候不斷的進(jìn)行模型的訓(xùn)練和性能的提升,在預(yù)測(cè)出所有的文本框后和圖片進(jìn)行比對(duì),計(jì)算識(shí)

別率和準(zhǔn)確率,并對(duì)此進(jìn)行不斷的改進(jìn),以適應(yīng)項(xiàng)目中的所有需求。

在通過(guò)深度學(xué)習(xí)完成圖片中文本框的檢測(cè)之后,就需要進(jìn)行OCR的單獨(dú)字符識(shí)別,在識(shí)別的過(guò)程中

會(huì)調(diào)用識(shí)別算法的接口,將文本框中的文字根據(jù)其角度進(jìn)行文本的矯正和重定位,之后在樣本庫(kù)中進(jìn)行

文字的對(duì)比識(shí)別,將文本框中的所有字符檢測(cè)識(shí)別,再根據(jù)特定的組合,將圖片中所有的信息輸出。

音頻審核規(guī)范要求

5.3.1聲紋識(shí)別檢測(cè)

支持利用聲紋檢測(cè)進(jìn)行嬌喘聲識(shí)別,精準(zhǔn)識(shí)別嬌喘、呻吟、耳騷等無(wú)語(yǔ)義的違規(guī)聲音,高效過(guò)濾違

規(guī)語(yǔ)音信息;聲紋識(shí)別模塊是對(duì)語(yǔ)音數(shù)據(jù)中的說(shuō)話人身份信息的分析和處理,負(fù)責(zé)將語(yǔ)音數(shù)據(jù)中說(shuō)話人

身份信息提取出來(lái)并建立聲紋模型,通過(guò)對(duì)語(yǔ)音中說(shuō)話人身份信息和聲紋庫(kù)中的聲紋模型進(jìn)行相似度匹

配,來(lái)判斷當(dāng)前說(shuō)話人的身份;同時(shí)也可以找出多條語(yǔ)音或多個(gè)聲紋模型中具有相同說(shuō)話人身份信息的

數(shù)據(jù)。

5.3.2語(yǔ)音內(nèi)容識(shí)別

語(yǔ)音轉(zhuǎn)寫(xiě)模塊是把語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為文字信息,語(yǔ)音識(shí)別模塊借助于聲學(xué)模型和語(yǔ)言模型,將語(yǔ)音信

號(hào)轉(zhuǎn)換為文字信息。而文本翻譯模塊則負(fù)責(zé)將一種語(yǔ)言下的文字轉(zhuǎn)換為另外一種語(yǔ)言,如將英文轉(zhuǎn)換為

中文。基于自然語(yǔ)言處理技術(shù)、語(yǔ)音特征提取等多項(xiàng)能力,有效識(shí)別音頻中涉黃、涉政、暴恐、違禁、

廣告等多維度的違規(guī)內(nèi)容,高效過(guò)濾違規(guī)不良語(yǔ)音內(nèi)容。

5.3.3音頻智能識(shí)別

智能音頻過(guò)濾采用基于ffmpeg的音頻信息動(dòng)態(tài)轉(zhuǎn)碼技術(shù)、基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)和智能特色

語(yǔ)義分析技術(shù),能夠?qū)^大部分音頻格式進(jìn)行多場(chǎng)景、多維度地檢測(cè)與識(shí)別。其中包括落馬官員、失德

藝人、劣跡藝人、涉政、涉黃、廣告導(dǎo)流等諸多類(lèi)型。智能音頻過(guò)濾產(chǎn)品識(shí)別準(zhǔn)確率高,處理速度快,

檢測(cè)場(chǎng)景廣泛,能夠極大降低人工審核成本,提升音頻內(nèi)容質(zhì)量。

5.3.4色情污穢違規(guī)識(shí)別

運(yùn)用海量的實(shí)時(shí)更新的敏感詞庫(kù)和文本色情模型,識(shí)別音頻中涉及性器官、性行為、色情交易、嬌

喘等無(wú)語(yǔ)義的色情內(nèi)容或引誘性性暗示的內(nèi)容,回調(diào)給客戶出現(xiàn)的位置和命中的敏感詞信息。

5.3.5紅線違規(guī)識(shí)別

運(yùn)用海量的實(shí)時(shí)更新的敏感詞庫(kù)和文本涉政模型,識(shí)別音頻中的落馬官員、失德藝人、劣跡藝人、

國(guó)內(nèi)外領(lǐng)導(dǎo)人、宗教人物、英烈人物、封殺人物、政治機(jī)構(gòu)、敏感政治事件、危險(xiǎn)違禁品、涉賭等言論,

并回調(diào)給客戶出現(xiàn)的位置和命中的敏感詞信息。

8

DB23/TXXXX.7—XXXX

5.3.6謾罵、不文明用語(yǔ)違規(guī)識(shí)別

運(yùn)用海量的實(shí)時(shí)更新的敏感詞庫(kù)和文本辱罵模型,識(shí)別音頻中含有人稱(chēng)和性器官的辱罵或口頭禪式

的不文明用語(yǔ),回調(diào)給客戶出現(xiàn)的位置和命中的敏感詞信息。

5.3.7廣告內(nèi)容違規(guī)識(shí)別

運(yùn)用廣告模型和行為策略,識(shí)別音頻中含有引誘交易的涉嫌廣告的描述以及有廣告行為的賬號(hào),回

調(diào)給客戶出現(xiàn)的違規(guī)內(nèi)容的位置。

5.3.8性別識(shí)別

運(yùn)用成熟的性別模型,識(shí)別音頻中說(shuō)話人的性別。

文檔審核規(guī)范要求

能夠提供對(duì)常見(jiàn)文檔的審核能力,精準(zhǔn)識(shí)別文檔中涉政,涉黃,涉暴,廣告違禁,低俗,公眾事件

等多種違規(guī)內(nèi)容。

文檔解析模塊:接口直接傳入文檔,須支持多種文檔格式解析,智能解析文件中的文本和圖片,檢

測(cè)并過(guò)濾文件中的有害信息,可支撐業(yè)務(wù)各項(xiàng)badcase的多次檢測(cè)核驗(yàn)。

文檔支持txt、doc、docx、ppt、pptx、xls、xlsx、pdf等格式。

審核結(jié)果規(guī)范

5.5.1規(guī)范用語(yǔ)

參考并依據(jù)出版行業(yè)標(biāo)準(zhǔn)規(guī)范或權(quán)威資料,結(jié)合人工智能技術(shù)發(fā)現(xiàn)中文錯(cuò)別字、多字、少字、人名、

地名、英文(單詞拼寫(xiě))、部分成對(duì)標(biāo)點(diǎn)、科技計(jì)量、重句、異形詞、也作、曾用詞等各類(lèi)錯(cuò)誤;領(lǐng)導(dǎo)

人姓名、職務(wù)和領(lǐng)導(dǎo)人排序錯(cuò)誤。

內(nèi)容及知識(shí)檢查

易錯(cuò)詞檢查、敏感內(nèi)容檢查、重點(diǎn)詞檢查、領(lǐng)導(dǎo)人信息檢查、英文拼寫(xiě)檢查、譯文檢查、國(guó)際單位

符號(hào)檢查、不規(guī)范名詞檢查、標(biāo)點(diǎn)符號(hào)檢查、異體字檢查、繁簡(jiǎn)誤用、紀(jì)年檢查、地名檢查、古詩(shī)文檢

查;

體例及格式檢查

圖/表/公式序號(hào)及引用關(guān)系檢查、大綱標(biāo)題檢查、數(shù)學(xué)元素符號(hào)及體例檢查、參考文獻(xiàn)檢查、腳注、

尾注參見(jiàn)落空檢查、列表序號(hào)檢查、千分位、全半角、單位間隙檢查;

詞匯依據(jù)

詞匯依據(jù)來(lái)源詳細(xì)信息見(jiàn)表1

表1詞匯依據(jù)來(lái)源信息

依據(jù)版本/標(biāo)準(zhǔn)號(hào)出版社/發(fā)布單位作者主管部門(mén)歸口單位

《作者編輯常用標(biāo)

第四版中國(guó)標(biāo)準(zhǔn)出版社中國(guó)標(biāo)準(zhǔn)出版社——

準(zhǔn)及規(guī)范》

9

DB23/TXXXX.7—XXXX

中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)全國(guó)語(yǔ)言文字標(biāo)

教育部(語(yǔ)言)

《標(biāo)點(diǎn)符號(hào)用法》GB/T15834-2011督檢驗(yàn)檢疫總局、中國(guó)國(guó)家標(biāo)—準(zhǔn)化技術(shù)委員會(huì)

(360-2)

準(zhǔn)化管理委員會(huì)(TC500)

《圖書(shū)編輯校對(duì)實(shí)—

第五版廣西師范大學(xué)出版社黎洪波,利來(lái)友—

用手冊(cè)》

中華人民共和國(guó)——

《通用規(guī)范漢字表》第一版外文出版社

國(guó)務(wù)院

教育部國(guó)家語(yǔ)言——

《通用規(guī)范漢字表》第一版語(yǔ)文出版社

文字工作委員會(huì)

中國(guó)社會(huì)科學(xué)院——

《現(xiàn)代漢語(yǔ)詞典》第七版商務(wù)印書(shū)館語(yǔ)言研究所詞典

編輯室

《第一批異形詞整異形詞研究課題——

第一版語(yǔ)文出版社

理表說(shuō)明》組

語(yǔ)文出版社/中華人民共和國(guó)——

《第一批異形詞整

第一版教育部、國(guó)家語(yǔ)言文字工作委/

理表》

員會(huì)

《中國(guó)成語(yǔ)大詞典》——

第一版上海辭書(shū)出版社王濤等

(新一版)

《使用語(yǔ)言文字規(guī)——

第一版上海辭書(shū)出版社費(fèi)錦昌

范指南》

《外國(guó)地名譯名手——

第一版商務(wù)印書(shū)館中國(guó)地名委員會(huì)

冊(cè)》(中型本)

《英語(yǔ)姓名譯名手——

第五版商務(wù)印書(shū)館李學(xué)軍

冊(cè)》

《辭海》第七版上海辭書(shū)出版社陳至立——

《中華人民共和國(guó)——

第一版商務(wù)印書(shū)館崔乃夫

地名大詞典》

《中國(guó)人名大辭典》第一版商務(wù)印書(shū)館臧勵(lì)龢——

《中華科學(xué)技術(shù)大全國(guó)科學(xué)技術(shù)名——

第一版商務(wù)印書(shū)館

詞典》詞審定委員會(huì)

5.5.2敏感人物檢測(cè)

內(nèi)容審核平臺(tái)對(duì)敏感人物的檢測(cè),全面識(shí)別落馬官員、劣跡藝人、失德藝人、涉政正面人物、涉政

負(fù)面人物、暴恐人物等敏感人物。具體包括國(guó)家/地區(qū)落馬官員、劣跡藝人、失德藝人等。支持檢測(cè)視

頻、圖片中出現(xiàn)的用戶自定義敏感人物。

人臉識(shí)別功能是采用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)為核心的人臉識(shí)別算法,整合了基于CNN的人臉檢測(cè)、

關(guān)鍵點(diǎn)檢測(cè)、對(duì)齊、特征提取算法作為人臉特征提取流水線。該功能具有人臉檢測(cè)、人臉定位、人臉特

征提取、人臉比對(duì)等一整套技術(shù)方案,以及高效的數(shù)據(jù)處理能力。其人臉庫(kù)具有網(wǎng)絡(luò)搜索功能,為人臉

識(shí)別引擎提供高效實(shí)時(shí)的人臉特征數(shù)據(jù)。

針對(duì)特定人物采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)建立人臉特征模型,可自動(dòng)識(shí)別視頻畫(huà)面中所有人臉

的五官及輪廓位置。在保證精度的前提下針對(duì)視頻優(yōu)化的接近實(shí)時(shí)的人臉識(shí)別模型,可自動(dòng)識(shí)別視頻畫(huà)

面中所有人臉的五官及輪廓位置,返回人物名稱(chēng)、人臉位置信息、人臉表情、視頻人臉出現(xiàn)的時(shí)間區(qū)間。

5.5.3涉政

識(shí)別是否包含涉政內(nèi)容,包括黨和國(guó)家領(lǐng)導(dǎo)人、黨的政策方針、反動(dòng)言論、政治事件、外國(guó)政要等。

10

DB23/TXXXX.7—XXXX

以模擬人類(lèi)對(duì)自然語(yǔ)言的理解,并返回用戶所期望的結(jié)果。對(duì)采集到的文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理,

提取特征詞、關(guān)鍵詞、實(shí)體名稱(chēng)并且根據(jù)句法邏輯對(duì)相關(guān)的情感傾向進(jìn)行初步判斷。

根據(jù)負(fù)面詞意、詞頻、以及負(fù)面詞出現(xiàn)的位置、標(biāo)簽類(lèi)別等多維標(biāo)準(zhǔn),對(duì)負(fù)面信息的重要性程度進(jìn)

行分類(lèi)。并通過(guò)機(jī)器學(xué)習(xí)的方式強(qiáng)化數(shù)據(jù)準(zhǔn)確性,以及標(biāo)記的穩(wěn)定性標(biāo)簽分類(lèi)。

根據(jù)涉政詞庫(kù)、涉政人物關(guān)鍵詞等對(duì)數(shù)據(jù)做文本比對(duì)分析,識(shí)別其中涉政詞匯并對(duì)用戶進(jìn)行預(yù)警。

助力互聯(lián)網(wǎng)內(nèi)容責(zé)任主體筑牢安全防線。巡檢建黨百年提法、落馬官員、領(lǐng)導(dǎo)人書(shū)寫(xiě)錯(cuò)誤、領(lǐng)導(dǎo)人

外號(hào)變體、反動(dòng)人物等,以及涉及臺(tái)灣和其他敏感的政治性錯(cuò)誤。同時(shí)基于海量人臉庫(kù)和專(zhuān)業(yè)審核人員

的審核標(biāo)準(zhǔn),利用深度學(xué)習(xí)技術(shù),識(shí)別正常、漫畫(huà)、惡搞、負(fù)面涉政人物的違規(guī)信息,降低違規(guī)風(fēng)險(xiǎn)。

5.5.4暴恐違禁

通過(guò)海量暴恐圖片庫(kù),依托深度學(xué)習(xí)引擎,支持國(guó)旗國(guó)徽,恐怖主義,軍裝,槍支道具,血腥暴亂,

兒童邪典等不同類(lèi)型的圖片識(shí)別??植乐髁x包括主要恐怖組織標(biāo)識(shí)、臺(tái)獨(dú)、港獨(dú)、藏獨(dú)、疆獨(dú)等。血腥

暴亂包括血肉模糊、燃燒爆炸、游行集會(huì)等場(chǎng)景。

5.5.5違禁廣告

通過(guò)OCR識(shí)別、垃圾文本識(shí)別、廣告分類(lèi)模型,利用強(qiáng)大的文字變體識(shí)別能力,上萬(wàn)種主流聯(lián)系方

式(微信、qq、手機(jī)號(hào)、網(wǎng)址、公眾號(hào)、百度搜索、微博、廣告法合規(guī)等)變體特征庫(kù)。

5.5.6色情

主要識(shí)別是否包含涉黃內(nèi)容,例如談?wù)撁舾衅鞴?、開(kāi)低俗玩笑、發(fā)表性騷擾言論等。

以模擬人類(lèi)對(duì)自然語(yǔ)言的理解,并返回用戶所期望的結(jié)果。對(duì)采集到的文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理,

提取特征詞、關(guān)鍵詞、實(shí)體名稱(chēng)并且根據(jù)句法邏輯對(duì)相關(guān)的情感傾向進(jìn)行初步判斷。

根據(jù)負(fù)面詞意、詞頻、以及負(fù)面詞出現(xiàn)的位置、標(biāo)簽類(lèi)別等多維標(biāo)準(zhǔn),對(duì)負(fù)面信息的重要性程度進(jìn)

行分類(lèi)。并通過(guò)機(jī)器學(xué)習(xí)的方式強(qiáng)化數(shù)據(jù)準(zhǔn)確性,以及標(biāo)記的穩(wěn)定性標(biāo)簽分類(lèi)。

采用以情感詞為文本特征的SVM情感分類(lèi)方法,對(duì)數(shù)據(jù)進(jìn)行分析,將色情污穢內(nèi)容分為色情、性感

等多個(gè)等級(jí),靈活適應(yīng)不同應(yīng)用、場(chǎng)景,利用強(qiáng)大的NLP語(yǔ)義模型和大規(guī)模GPU集群和深度學(xué)習(xí)技術(shù),多

角度全方位進(jìn)行攔截。

5.5.7特殊標(biāo)志識(shí)別

特殊標(biāo)志識(shí)別包括但不限以下內(nèi)容:

a)支持公共LOGO識(shí)別,包括常見(jiàn)的品牌LOGO、電視臺(tái)LOGO、企業(yè)LOGO等。

b)支持自定義LOGO識(shí)別,支持識(shí)別圖片、視頻中出現(xiàn)的用戶自定義LOGO。

5.5.8辱罵內(nèi)容識(shí)別

主要識(shí)別是否包含辱罵內(nèi)容,包括臟字臟詞、訓(xùn)斥指責(zé)、人身攻擊等。

對(duì)采集到的文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理,提取特征詞、關(guān)鍵詞、實(shí)體名稱(chēng)并且根據(jù)句法邏輯對(duì)相關(guān)

的情感傾向進(jìn)行初步判斷。根據(jù)負(fù)面詞意、詞頻、以及負(fù)面詞出現(xiàn)的位置、標(biāo)簽類(lèi)別等多維標(biāo)準(zhǔn),對(duì)負(fù)

面信息的重要性程度進(jìn)行分類(lèi)。并通過(guò)機(jī)器學(xué)習(xí)的方式強(qiáng)化數(shù)據(jù)準(zhǔn)確性,以及標(biāo)記的穩(wěn)定性標(biāo)簽分類(lèi)。

根據(jù)辱罵詞庫(kù)對(duì)數(shù)據(jù)做文本比對(duì)分析,識(shí)別其中辱罵詞匯。

5.5.9民族問(wèn)題識(shí)別

11

DB23/TXXXX.7—XXXX

主要識(shí)別是否包含民族問(wèn)題的內(nèi)容,包括少數(shù)民族政策、制造民族對(duì)立、攻擊少數(shù)民族特等。

對(duì)采集到的文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理,提取特征詞、關(guān)鍵詞、實(shí)體名稱(chēng)并且根據(jù)句法邏輯對(duì)相關(guān)

的情感傾向進(jìn)行初步判斷。再對(duì)用戶定制的關(guān)鍵詞組進(jìn)行巡查,根據(jù)民族詞庫(kù)對(duì)數(shù)據(jù)做文本比對(duì)分析,

識(shí)別其中涉民族詞匯。

5.5.10宗教問(wèn)題識(shí)別

主要識(shí)別是否包含宗教問(wèn)題的內(nèi)容,包括傳教活動(dòng)、宗教歧視、宗教迫害等。根據(jù)負(fù)面詞意、詞頻、

以及負(fù)面詞出現(xiàn)的位置、標(biāo)簽類(lèi)別等多維標(biāo)準(zhǔn),對(duì)負(fù)面信息的重要性程度進(jìn)行分類(lèi)。通過(guò)數(shù)據(jù)做文本比

對(duì)分析,識(shí)別其中涉宗教詞匯并對(duì)用戶進(jìn)行預(yù)警。

業(yè)務(wù)標(biāo)簽體系

應(yīng)建立健全與內(nèi)容審核相關(guān)的業(yè)務(wù)標(biāo)簽體系,搭建與標(biāo)簽體系配套的編碼邏輯,并及時(shí)更新,如表

1樣例:

表2業(yè)務(wù)標(biāo)簽體系

標(biāo)簽編碼標(biāo)簽名稱(chēng)標(biāo)簽編碼標(biāo)簽名稱(chēng)

SH010001政治人物

SH010002負(fù)面人物

SH010004公眾人物

SH010005涉政場(chǎng)景

SH010006國(guó)旗

SH010007黨旗

SH010008軍旗

SH010009徽章

SH010010臂章

SH010011標(biāo)志檢測(cè)

SH010012反動(dòng)組織相關(guān)標(biāo)識(shí)

SH010013地圖相關(guān)

SH01涉政

SH010014公務(wù)服飾

SH010015公務(wù)車(chē)輛

SH010016錢(qián)幣檢測(cè)

SH010017落馬官員

SH010018國(guó)家領(lǐng)導(dǎo)人

SH010019政府官員

SH010020英雄模范

SH010021反動(dòng)人物

SH010022敏感人物

SH010023黨政相關(guān)違規(guī)

SH010024領(lǐng)導(dǎo)人相關(guān)違規(guī)

SH010025封殺藝人

12

DB23/TXXXX.7—XXXX

SH010026文本涉政

SH010027種族主義

SH010028宗教

SH010029南海諸島缺失

SH010030阿克賽欽缺失

SH010031臺(tái)灣島缺失

SH010032藏南缺失

SH020001男性裸露

SH020002女性裸露

SH020003藝術(shù)品色情

SH020004低俗動(dòng)作

SH020005卡通色情

SH020006親密行為

SH02涉黃

SH020007性用具

SH020008敏感部位特寫(xiě)

SH020009性器官特寫(xiě)

SH020010女性性感

SH020011色情廣告

SH020012色情識(shí)別

SH030001血腥場(chǎng)景

SH030002尸體

SH030003排泄物

SH030004游行

SH03血腥暴力

SH030005爆炸火災(zāi)

SH030006管制刀具

SH030007槍支彈藥

SH030008大型武器

SH040001賭博

SH040002違禁品

SH04違禁

SH040003不良場(chǎng)景

SH040004廣告推銷(xiāo)

SH050003謾罵

SH050004涉政敏感詞

SH050005

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論