Needle: We Distilled Gemini Tool Calling into a 26M Model

  • Hacker News
  • 发布时间: 2026年5月12日
  • 首次出现: 2026年5月12日

产品摘要

大家好,我是Cactus的Henry。我们开源了Needle,一个2600万参数的工具调用(函数调用)模型。它在消费级设备上能达到6000 tok/s的预填充速度和1200 tok/s的解码速度。我们一直对构建能在消费级设备上运行的智能体模型投入不足感到沮丧...

适合谁

评估AI产品工作流的团队 / 对比新兴工具的开发者 / 追踪早期品类变化的运营者

为什么值得看

主要发现来源是Hacker News。

核心功能

  • 主要公开产品网址为 https://github.com/cactus-compute/needle。
  • 描述:大家好,我是Cactus的Henry。我们开源了Needle,一个2600万参数的工具调用(函数调用)模型。它在消费级设备上能达到6000 tok/s的预填充速度和1200 tok/s的解码速度。我们一直对构建能在...(此处省略后续内容)
  • GitHub仓库链接为 cactus-compute/needle。
  • 在Hacker News上以“Needle:我们将Gemini工具调用蒸馏成一个2600万参数的模型”列出。
  • 来源描述:大家好,我是Cactus的Henry。我们开源了Needle,一个2600万参数的工具调用(函数调用)模型。它在消费级设备上能达到6000 tok/s的预填充速度和1200 tok/s的解码速度。我们一直对构建能在...(此处省略后续内容)

使用场景

  • 主要发现来源是Hacker News。
  • 公开的GitHub仓库可供直接技术审查。
  • Hacker News提及是近期的(2026-05-12)。
  • 主要公开产品网址为 https://github.com/cactus-compute/needle。
  • 描述:大家好,我是Cactus的Henry。我们开源了Needle,一个2600万参数的工具调用(函数调用)模型。它在消费级设备上能达到6000 tok/s的预填充速度和1200 tok/s的解码速度。我们一直对构建能在...(此处省略后续内容)

为什么值得关注

Needle:我们将 Gemini 工具调用能力蒸馏至 2600 万参数模型中,目前正出现在新的发现平台上,值得在势头形成初期予以关注。当前置信度为中等(49/100),应将其视为早期信号而非既定趋势。

情报分解

依据

  • Listed on Hacker News as "Needle: We Distilled Gemini Tool Calling into a 26M Model".
  • Source description: Hey HN, Henry here from Cactus. We open-sourced Needle, a 26M parameter function-calling (tool use) model. It runs at 6000 tok/s prefill and 1200 tok/s decode on consumer devices. We were always frustrated by the litt....
  • Source publish date is 2026-05-12.
  • Description: Hey HN, Henry here from Cactus. We open-sourced Needle, a 26M parameter function-calling (tool use) model. It runs at 6000 tok/s prefill and 1200 tok/s decode on consumer devices. We were always frustrated by the litt....
  • GitHub repository is linked as cactus-compute/needle.
  • Primary public product URL is https://github.com/cactus-compute/needle.

信号

  • Hacker News mention is recent (2026-05-12).
  • A public GitHub repo is available for direct technical review.
  • Primary discovery source is Hacker News.

推断

  • Public code access can lower evaluation friction for developer audiences.

未知

  • Documentation is not explicitly linked in the current allowed evidence set.
  • No tagline is stored on the current product record.
  • Pricing details are not explicitly linked in the current allowed evidence set.
  • Recent changelog or release history is not explicitly linked in the current allowed evidence set.
  • Release cadence cannot be confirmed unless a changelog or release link is explicitly provided.

证据快照

Needle: We Distilled Gemini Tool Calling into a 26M Model

Listed on Hacker News as "Needle: We Distilled Gemini Tool Calling into a 26M Model".

Source page snapshot抓取时间: 2026年5月12日
打开来源

Needle: We Distilled Gemini Tool Calling into a 26M Model GitHub repository

GitHub repository is linked as cactus-compute/needle.

Needle: We Distilled Gemini Tool Calling into a 26M Model official profile

Primary public product URL is https://github.com/cactus-compute/needle.

原始来源