国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

安全審核大模型,本地部署,實測

0
分享至

大家好,我是 Ai 學習的老章

現(xiàn)在的大模型應(yīng)用搭建越來越簡便,但是安全層面大家普遍不夠重視,各種提示詞越獄,注入,投毒等手段,無論是基模還是最終應(yīng)用,都極有可能輸出不安全內(nèi)容(比如暴力、非法行為、個人可識別信息、不道德行為、敏感話題、版權(quán)侵犯等)。

一文中,提到 Qwen3Guard 安全審核大模型

最近我部署了這個模型,將其放在工作流第一步的提示詞安全性審核以及最終回復的安全性審核

雙重保障,能夠一定程度降低安全風險。

它的使用極其簡單,就是給提示詞和最終回復打標簽和分類


本文極簡介紹本地部署與用法

Qwen3Guard

阿里開源的 Qwen3 安全審核模型Qwen3Guard,一共 2 個,分兩類:

  • Qwen3Guard-Gen,將安全性分類視為指令跟隨任務(wù)的生成模型;

  • Qwen3Guard-Stream,在增量文本生成期間實時進行安全監(jiān)控的標記級分類頭。

這兩類模型又分別有三種大小的模型(0.6B、4B 和 8B)


應(yīng)用場景:

  • Qwen3Guard-Gen(生成式版)支持對完整用戶輸入與模型輸出進行安全分類,適用于離線數(shù)據(jù)集的安全標注、過濾,亦可作為強化學習中基于安全性的獎勵信號源,是構(gòu)建高質(zhì)量訓練數(shù)據(jù)的理想工具。

  • Qwen3Guard-Stream(流式檢測版)突破了傳統(tǒng)的護欄模型架構(gòu),首次實現(xiàn)模型生成過程中的實時、流式安全檢測,顯著提升在線服務(wù)的安全響應(yīng)效率與部署靈活性。

Qwen3Guard-Gen,它具有以下主要優(yōu)勢:

  • 三級嚴重性分類:通過將輸出分類為安全、有爭議(其危害性可能依賴于上下文或在不同應(yīng)用場景中存在分歧的內(nèi)容)和不安全(通常被認為在大多數(shù)情況下有害的內(nèi)容)三個嚴重性級別,支持對不同部署場景的適應(yīng)。

  • 多語言支持:Qwen3Guard-Gen 支持 119 種語言和方言,確保在全球和跨語言應(yīng)用中的強大性能。

  • 卓越的性能:Qwen3Guard-Gen 在各種安全基準測試中表現(xiàn)出色,在英語、中文和多語言任務(wù)的提示和響應(yīng)分類方面均表現(xiàn)優(yōu)異。

本地部署

第一步,下載模型

我選擇了 4B 版本

pip install modelscope
modelscope download --model Qwen/Qwen3Guard-Gen-4B --local_dir /Qwen3Guard-Gen-4B

第二步,vLLM 啟動

vLLM 版本 0.10.2

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3Guard-Gen-4B --port 8000 --max-model-len 32768

實際上,我把 max-modle-len 設(shè)置為了 10240,給它分配的顯存為 14GB

模型文件占用了 7.5GB,KV cache 占用了 4.2GB

用法

官方用例

from openai import OpenAI

openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"
model = "Qwen/Qwen3Guard-Gen-4B"
client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base)

# Prompt Moderation
prompt = "How can I make a bomb?"
messages = [
{"role": "user", "content": prompt}
]
chat_completion = client.chat.completions.create(
messages=messages,
model=model)
print(chat_completion.choices[0].message.content)
# '''
# Safety: Unsafe
# Categories: Violent
# '''

# Response Moderation
prompt = "How can I make a bomb?"
response = "As a responsible artificial intelligence system, I regret that I am unable to fulfill your request."
messages = [
{"role": "user", "content": prompt},
{"role": "assistant", "content": response}
]
print(chat_completion.choices[0].message.content)
# '''
# Safety: Safe
# Categories: None
# Refusal: Yes
# '''

我是直接把它接入到了 openwebUI 進行簡單測試


在實際業(yè)務(wù)中,比如 Dify 等智能體開發(fā)平臺的工作流中配置提示詞檢測及最終輸出檢測節(jié)點,做 if else 判斷,標簽為 Safe 的提示詞及回復方可通過并往下進行。

其實 0.6B 應(yīng)該就足夠了,速度是極快的,幾乎不會影響整個工作流的效率

0.6B 版本模型文件只有 1.5GB,隨便一個消費級顯卡都能 Hold 住,極低成本收獲更安全的應(yīng)用,簡直完美。

文末薦書

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
CBA第4個下課主教練產(chǎn)生!球迷:下一個是劉煒OR張慶鵬?

CBA第4個下課主教練產(chǎn)生!球迷:下一個是劉煒OR張慶鵬?

體育哲人
2025-12-26 17:10:01
馬斯克再放神預言,中日關(guān)系緊張之際,直接為日本未來定調(diào)

馬斯克再放神預言,中日關(guān)系緊張之際,直接為日本未來定調(diào)

趣味萌寵的日常
2025-12-26 07:57:26
中國決心已下,說什么也不買了,白宮后知后覺,轉(zhuǎn)頭宣布對華加稅

中國決心已下,說什么也不買了,白宮后知后覺,轉(zhuǎn)頭宣布對華加稅

花小貓的美食日常
2025-12-26 04:25:01
53歲吳越自曝單身生活,為父母買上海大平層,坦言孤獨是一種福報

53歲吳越自曝單身生活,為父母買上海大平層,坦言孤獨是一種福報

好賢觀史記
2025-12-16 17:01:31
12月26日人民幣對美元中間價調(diào)升34個基點

12月26日人民幣對美元中間價調(diào)升34個基點

證券時報
2025-12-26 09:31:03
多次炮轟孫繼海!名記:我和家人遭到生命威脅 但其實不是針對他

多次炮轟孫繼海!名記:我和家人遭到生命威脅 但其實不是針對他

念洲
2025-12-26 11:30:18
整容臉又來霍霍央視?。看舭褰┯?,歐豪也帶不動,難怪觀眾不買賬

整容臉又來霍霍央視?。看舭褰┯玻瑲W豪也帶不動,難怪觀眾不買賬

白面書誏
2025-12-25 18:23:06
曝泰軍端掉了柬埔寨“人體器官”交易點,無數(shù)中國人拍手叫好

曝泰軍端掉了柬埔寨“人體器官”交易點,無數(shù)中國人拍手叫好

胡嚴亂語
2025-12-22 10:00:02
真當中國不敢動手?中方向全世界宣布,退出5000億大項目,菲慌了

真當中國不敢動手?中方向全世界宣布,退出5000億大項目,菲慌了

瞳哥視界
2025-12-25 20:48:12
臺南恒春外海發(fā)生激烈對峙,054A向美軍MQ4C喊話:通報你的意圖!

臺南恒春外海發(fā)生激烈對峙,054A向美軍MQ4C喊話:通報你的意圖!

烽火觀天下
2025-12-26 14:33:19
《尋秦記》香港排片密過巴士時刻表!1天狂映54場…跨年等回憶殺

《尋秦記》香港排片密過巴士時刻表!1天狂映54場…跨年等回憶殺

ETtoday星光云
2025-12-26 09:50:24
朱孝天道歉后,阿信發(fā)文

朱孝天道歉后,阿信發(fā)文

紅星新聞
2025-12-26 11:41:34
ABB年中大促:奧迪A6L降20萬,奔馳GLC降10萬

ABB年中大促:奧迪A6L降20萬,奔馳GLC降10萬

車動態(tài)
2025-12-26 18:45:01
開拓者明日戰(zhàn)快船傷病報告:羅威出戰(zhàn)成疑,格蘭特繼續(xù)缺陣

開拓者明日戰(zhàn)快船傷病報告:羅威出戰(zhàn)成疑,格蘭特繼續(xù)缺陣

懂球帝
2025-12-26 17:25:09
超級大國的最后遺產(chǎn)!美媒:中國獲得3架頂級戰(zhàn)機,成就超俄趕美

超級大國的最后遺產(chǎn)!美媒:中國獲得3架頂級戰(zhàn)機,成就超俄趕美

墨蘭史書
2025-12-06 16:55:04
蘿莉島的場景超乎想象,克林頓照片曝光,科學家霍金也牽扯其中

蘿莉島的場景超乎想象,克林頓照片曝光,科學家霍金也牽扯其中

劍道萬古似長夜
2025-12-26 13:48:10
近90%球迷支持賣出他?巴西邊鋒遭皇馬球迷“倒戈”,認知分歧大

近90%球迷支持賣出他?巴西邊鋒遭皇馬球迷“倒戈”,認知分歧大

里芃芃體育
2025-12-26 20:50:03
利比亞墜機震動中東!巴基斯坦軍購剛落地,石油沖突恐將全面爆發(fā)

利比亞墜機震動中東!巴基斯坦軍購剛落地,石油沖突恐將全面爆發(fā)

隨遇而安之心
2025-12-26 21:23:37
賴昌星發(fā)妻曾明娜現(xiàn)狀:逃亡10年后回國,守著3000平老宅安靜養(yǎng)老

賴昌星發(fā)妻曾明娜現(xiàn)狀:逃亡10年后回國,守著3000平老宅安靜養(yǎng)老

古書記史
2025-12-12 11:21:38
看呆!一家六口上廁所不用紙,共用一把“刮屎刀”?!然后她親上去了...了...

看呆!一家六口上廁所不用紙,共用一把“刮屎刀”?!然后她親上去了...了...

英國那些事兒
2025-12-24 23:22:56
2025-12-26 22:19:00
機器學習與Python社區(qū) incentive-icons
機器學習與Python社區(qū)
機器學習算法與Python
3235文章數(shù) 11081關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

多名中國女明星已立遺囑 關(guān)之琳無子將遺產(chǎn)都留給弟弟

頭條要聞

多名中國女明星已立遺囑 關(guān)之琳無子將遺產(chǎn)都留給弟弟

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態(tài)度原創(chuàng)

旅游
親子
本地
游戲
公開課

旅游要聞

一問到底丨十年保護修繕后重新開放 故宮養(yǎng)心殿修了啥

親子要聞

明知懷的是無腦兒,她仍堅持把孩子生下來,原因讓人淚目

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

你也是龍宮禮奈?《寂靜嶺f》曾計劃"柴刀"當武器!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版