搜尋

ContextD – 將你的螢幕活動進行OCR辨識,透過本地API與LLMs搭配使用

主要是在兩天內憑感覺寫出來的,只貢獻了約5個核心洞見,其餘全是開源程式碼(第一次嘗試,還算可以)

  • API 平台
  • 大型語言模型
  • 工作流程自動化
Mar 20, 2026造訪官網

AI 摘要

ContextD 是一款工具,能對您的螢幕活動進行光學字元辨識 (OCR),並透過本地 API 將擷取的文字提供給大型語言模型 (LLMs) 使用。

適合誰

開發者將大型語言模型整合至桌面應用程式, 希望根據螢幕內容自動化任務的使用者, 分析螢幕資料的研究人員

為何值得關注

它能讓大型語言模型直接處理並根據您螢幕上的資訊採取行動。

核心功能

  • 對螢幕活動進行光學字符識別(OCR)。
  • 整合大型語言模型(LLMs)。
  • 提供本地API供LLM互動使用。
  • 捕捉並處理螢幕上的文字。

使用場景

  • 軟體開發者可以使用 ContextD 自動擷取螢幕上的程式碼片段與錯誤訊息,將其輸入大型語言模型以生成解釋或潛在解決方案,從而簡化除錯與學習流程。
  • 內容創作者可以運用 ContextD 從螢幕顯示的圖片或影片中提取文字,再利用大型語言模型重新表述或摘要內容,用於社群貼文或部落格文章。
  • 學生可以透過 ContextD 擷取講義投影片或教科書頁面,將經光學字元辨識處理的文字輸入大型語言模型,生成學習筆記、記憶卡片或回答理解性問題,提升學習成效。