ProductIntelHub

ContextD – 將你的螢幕活動進行OCR辨識，透過本地API與LLMs搭配使用

主要是在兩天內憑感覺寫出來的，只貢獻了約5個核心洞見，其餘全是開源程式碼（第一次嘗試，還算可以）

API 平台
大型語言模型
工作流程自動化

Mar 20, 2026造訪官網

✨ AI 摘要

ContextD 是一款工具，能對您的螢幕活動進行光學字元辨識 (OCR)，並透過本地 API 將擷取的文字提供給大型語言模型 (LLMs) 使用。

適合誰

開發者將大型語言模型整合至桌面應用程式, 希望根據螢幕內容自動化任務的使用者, 分析螢幕資料的研究人員

為何值得關注

它能讓大型語言模型直接處理並根據您螢幕上的資訊採取行動。

核心功能

對螢幕活動進行光學字符識別（OCR）。
整合大型語言模型（LLMs）。
提供本地API供LLM互動使用。
捕捉並處理螢幕上的文字。

使用場景

軟體開發者可以使用 ContextD 自動擷取螢幕上的程式碼片段與錯誤訊息，將其輸入大型語言模型以生成解釋或潛在解決方案，從而簡化除錯與學習流程。
內容創作者可以運用 ContextD 從螢幕顯示的圖片或影片中提取文字，再利用大型語言模型重新表述或摘要內容，用於社群貼文或部落格文章。
學生可以透過 ContextD 擷取講義投影片或教科書頁面，將經光學字元辨識處理的文字輸入大型語言模型，生成學習筆記、記憶卡片或回答理解性問題，提升學習成效。

原始來源