国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OCR 新紀(jì)元,超強文檔解析 Skills 來了

0
分享至


知識管理缺了一塊拼圖

前段時間我在一文中介紹了 Karpathy 的知識管理方法——把各種原始素材統(tǒng)統(tǒng)丟進raw/目錄,用 Obsidian Web Clipper 一鍵裁剪網(wǎng)頁,配合 LLM 慢慢「編譯」成結(jié)構(gòu)化 wiki

這個思路是對的,先不管三七二十一,把所有原始材料攢在一起。但問題來了:實際工作中,原始材料可不只是網(wǎng)頁和 Markdown

合同、財報、研報是 PDF、內(nèi)部培訓(xùn)材料是 PPT、數(shù)據(jù)是 Excel,各種文檔是 Word……這些東西直接扔給大模型,輕則格式一塌糊涂,重則整個表格都消失了,跨頁的更是截成碎片。做過 RAG 的都知道,解析是第一道關(guān),解析不好,后面再聰明也白搭——垃圾進,垃圾出

OCR、文檔解析相關(guān)我寫過 N 多篇:DeepSeek-OCR、HunyuanOCR、PaddleOCR、GLM-OCR、MinerU 等,橫向?qū)Ρ攘艘陨祥_源方案,從落地層面我最推薦的可能還是一文中我實測過的TextIn xParse,實力我就不單獨摘過來了,總之很強!

現(xiàn)在 xparse-parse 的 Skills 發(fā)布了,試用之后感覺:這才是最省心的方式

先說大家最關(guān)心的格式支持問題,再細說安裝的事兒

格式支持

TextIn xParse 屬于商業(yè)工具,但這次的skill提供了每日1000頁的額度,個人使用完全足夠

  • 格式支持:PDF+圖片(JPG/PNG/BMP/TIFF/WebP),≤10MB,每日1000頁,1次/秒

  • 配置憑證后:https://cc.co/16YSe8(注冊后獲取APP IDSecret Code),全格式解鎖Word、Excel、PPT、HTML、OFD、RTF等20+格式,單文件≤500MB,無每日頁數(shù)上限

Skills 地址:github.com/intsig-textin/xparse-skills

核心是兩樣?xùn)|西:

  • SKILL.md——告訴 Agent 什么時候觸發(fā)文檔解析、怎么路由

  • xparse-cli——Go 編寫的跨平臺二進制工具,底層調(diào)用 TextIn xParser API

整個工作流如下圖:


用戶說一句話 → Agent 自動識別是文檔任務(wù) → 觸發(fā) xparse-parse Skill → 調(diào)用 xparse-cli → 根據(jù)有無憑證自動走免費/付費 API → 返回 Markdown 或 JSON。

全程你不用寫一行代碼,甚至不用知道 xparse-cli 怎么用

安裝方式

方式一:對話框一句話安裝

在 Agent 對話框直接說:

幫我從技能市場安裝 intsig-textin/xparse-parser

方式二:npx 命令安裝(強烈推薦)

npx skills add intsig-textin/xparse-skills

我最推薦這種方式,比較優(yōu)雅


而且還可以一鍵安裝到所有 Agent 工具中


憑證配置只要一條命令:

xparse-cli auth

按提示輸入 App ID 和 Secret Code,保存到~/.xparse-cli/config.yaml,后續(xù)自動讀取

也支持環(huán)境變量方式(適合 CI/CD):

export XPARSE_APP_ID=your_app_id
export XPARSE_SECRET_CODE=your_secret_code
用法

在 OpenClaw、Claude Code 等 Agent 平臺安裝 xparse-parser Skill 后,只需自然語言指令即可完成解析全流程

例如:

  • “幫我讀一下這份PDF合同,提取關(guān)鍵條款”

  • “把這個報告轉(zhuǎn)成Markdown,保存到桌面”

  • “這份加密PDF密碼是123456,幫我解析前10頁”

  • “提取這張表格圖片里的內(nèi)容,輸出JSON”

核心命令詳解

這里大家了解就行了,其實配置好 Skills之后,完全不需要記住這些

# 最基礎(chǔ):解析 PDF,輸出 Markdown 到終端
xparse-cli parse report.pdf

# 輸出結(jié)構(gòu)化 JSON
xparse-cli parse report.pdf --view json

# 保存到目錄(自動命名為 report.md / report.json)
xparse-cli parse report.pdf --output ./result/

# 保存到指定文件
xparse-cli parse report.pdf --output parsed.md

# 只解析指定頁碼范圍(支持多段)
xparse-cli parse report.pdf --page-range 1-5
xparse-cli parse report.pdf --page-range 1-2,5-10

# 解析加密 PDF
xparse-cli parse secret.pdf --password mypassword

# 獲取字符級坐標(biāo)和置信度(做人工核驗時用)
xparse-cli parse report.pdf --view json --include-char-details --output ./parsed.json

值得注意的是,CLI默認已經(jīng)開啟了一套完整的解析能力,不需要額外配置:

能力

標(biāo)題層級

自動識別文檔結(jié)構(gòu),最多 5 級標(biāo)題

表格結(jié)構(gòu)

HTML 格式保留單元格層級

圖片提取

內(nèi)嵌圖片識別和提取

目錄樹

自動生成文檔 TOC

分頁結(jié)果

頁面級元數(shù)據(jù)

唯一需要手動開啟的是--include-char-details(字符坐標(biāo)),因為這個會大幅增加返回數(shù)據(jù)量,按需開啟

幾個實用進階玩法

① 管道組合,直接喂給 LLM

# 解析后搜索關(guān)鍵詞
xparse-cli parse report.pdf | grep "revenue"


# 解析完直接喂給 LLM 總結(jié)
xparse-cli parse paper.pdf | llm "summarize this paper"

② 批量處理

# 準(zhǔn)備一個文件列表 files.txt,一行一個路徑
xparse-cli parse --list files.txt --output ./results/

③ 從解析結(jié)果里下載圖片

# 先解析為 JSON
xparse-cli parse report.pdf --view json --output result.json


# 再從 JSON 里批量下載所有圖片
xparse-cli download --from result.json --output ./images/

④ 私有化部署

如果是私有部署的 TextIn 服務(wù),可以通過--base-url指定:

xparse-cli parse report.pdf --base-url https://your-private-server.com
總結(jié)

xparse-parse Skill 這個組合,我覺得把文檔解析這件事做到了目前最低門檻的狀態(tài):

適合你用的場景:

  • 用 Agent 做個人知識管理,原料里有大量 PDF/Word/PPT

  • 搭建 RAG 知識庫,需要高精度的文檔結(jié)構(gòu)化

  • 日常工作要解析合同、財報、研報這類復(fù)雜文檔

優(yōu)缺點直說:

評價

? 零代碼零門檻

說話就能用,適合所有技術(shù)水平

? 復(fù)雜表格能力強

跨頁拼接、合并單元格、無線表格都不虛

? 免費額度夠用

PDF+ 圖片 1000 頁/天,輕度使用完全夠

? 管道/批量支持

可與 LLM、腳本組合,適合自動化流水線

?? Word/PPT/Excel 需付費

免費版只有 PDF 和圖片

?? 免費版 10MB 限制

大型 PDF 需要付費賬戶

制作不易,如果這篇文章覺得對你有用,可否點個關(guān)注。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
不冷靜!迪亞洛吃到本賽季個人第10次技犯,將自動停賽一場

不冷靜!迪亞洛吃到本賽季個人第10次技犯,將自動停賽一場

懂球帝
2026-04-20 21:15:08
讓以色列心驚膽戰(zhàn)的對手,終于猛龍過江了:既非土耳其,也非伊朗

讓以色列心驚膽戰(zhàn)的對手,終于猛龍過江了:既非土耳其,也非伊朗

遁走的兩輪
2026-04-19 19:10:28
今天才知道:冰箱冷凍室不能放這4樣,放了冰箱容易炸,真可怕

今天才知道:冰箱冷凍室不能放這4樣,放了冰箱容易炸,真可怕

Home范
2026-04-20 11:07:38
中國鋁業(yè)總經(jīng)理張瑞忠:隨著二季度下游全面進入旺季 電解鋁庫存將逐步進入去庫通道

中國鋁業(yè)總經(jīng)理張瑞忠:隨著二季度下游全面進入旺季 電解鋁庫存將逐步進入去庫通道

財聯(lián)社
2026-04-20 17:54:08
縣城少婦們的幸福感很強

縣城少婦們的幸福感很強

微微熱評
2026-04-11 12:04:02
徐帆回應(yīng)離婚8個月,馮小剛狀態(tài)曝光,和養(yǎng)女徐朵貼臉引發(fā)爭議

徐帆回應(yīng)離婚8個月,馮小剛狀態(tài)曝光,和養(yǎng)女徐朵貼臉引發(fā)爭議

阿尢說歷史
2026-04-21 01:36:48
牡丹江男子拽住跳樓女友整整五分鐘,力竭松手女方墜亡,法院判了

牡丹江男子拽住跳樓女友整整五分鐘,力竭松手女方墜亡,法院判了

奇思妙想草葉君
2026-04-18 12:15:59
千萬網(wǎng)紅回應(yīng)家中300萬元黃金和名包被盜,“入職不到四個月司機干的,先承諾退回又失聯(lián),已報警”

千萬網(wǎng)紅回應(yīng)家中300萬元黃金和名包被盜,“入職不到四個月司機干的,先承諾退回又失聯(lián),已報警”

大風(fēng)新聞
2026-04-20 19:55:07
追覓造車已進入實質(zhì)性推進階段,第二款旗艦SUV對標(biāo)理想L9、問界M9 | 獨家

追覓造車已進入實質(zhì)性推進階段,第二款旗艦SUV對標(biāo)理想L9、問界M9 | 獨家

鈦媒體APP
2026-04-20 10:40:57
國家其實已經(jīng)暗示得很明白了,只是很多人一直沒真正聽明白!

國家其實已經(jīng)暗示得很明白了,只是很多人一直沒真正聽明白!

Ck的蜜糖
2026-04-10 17:45:46
網(wǎng)友爸爸2年前垃圾堆里撿回72條32GB DDR4內(nèi)存:如今價值近14萬

網(wǎng)友爸爸2年前垃圾堆里撿回72條32GB DDR4內(nèi)存:如今價值近14萬

快科技
2026-04-20 10:51:04
世錦賽戰(zhàn)報:中國小將1-3落后大滿貫,囧哥追至6-7僅差一局

世錦賽戰(zhàn)報:中國小將1-3落后大滿貫,囧哥追至6-7僅差一局

工從昊懂球阿靖
2026-04-21 03:57:56
舒淇不再隱瞞!多年無子的她終于承認:我們不是丁克,是生不出來

舒淇不再隱瞞!多年無子的她終于承認:我們不是丁克,是生不出來

長歌侃娛
2026-04-19 09:54:43
50后還剩多少人?我算了一下,哭了

50后還剩多少人?我算了一下,哭了

荷蘭豆愛健康
2026-04-20 07:11:38
金像獎最大贏家,不是影帝梁家輝,而是坐在古天樂背后的滕麗名

金像獎最大贏家,不是影帝梁家輝,而是坐在古天樂背后的滕麗名

阿訊說天下
2026-04-20 12:37:29
39萬億債務(wù)讓中國買單,中方理都不理!巴西盧拉拍案 聯(lián)合國真沒

39萬億債務(wù)讓中國買單,中方理都不理!巴西盧拉拍案 聯(lián)合國真沒

杰絲聊古今
2026-04-20 14:38:31
咸陽檢察長陳平:死刑前喊冤,被槍斃后家屬不能收尸,直接火化

咸陽檢察長陳平:死刑前喊冤,被槍斃后家屬不能收尸,直接火化

婉婉碎碎念
2024-10-18 16:54:45
斯諾克世錦賽90后首人逆轉(zhuǎn),7連鞭晉級16強

斯諾克世錦賽90后首人逆轉(zhuǎn),7連鞭晉級16強

格斗聯(lián)盟有話說
2026-04-21 05:02:45
平壤街頭那些“國產(chǎn)車”的秘密:2002年以后,再沒造出一輛

平壤街頭那些“國產(chǎn)車”的秘密:2002年以后,再沒造出一輛

百姓識天下
2026-04-20 08:43:49
71年毛主席來到杭州休息,看見陳勵耘時,厭煩道:你怎么又來了

71年毛主席來到杭州休息,看見陳勵耘時,厭煩道:你怎么又來了

讓時間說真話
2024-06-05 22:10:13
2026-04-21 06:28:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

藝術(shù)
家居
教育
時尚
手機

藝術(shù)要聞

春天最適合小住三五天的地方

家居要聞

自然慢調(diào) 慢享時光

教育要聞

“真大方,還拍給外人看”,女兒蹭枕頭,家長放網(wǎng)上,網(wǎng)友卻毛了

春天衣服不用準(zhǔn)備太多!這幾大單品提前備好,百搭實用又不過時

手機要聞

OPPO影像旗艦高端發(fā)力 Find X9 Ultra走出國門

無障礙瀏覽 進入關(guān)懷版