Omi：能看屏幕、能听对话的开源AI第二大脑，300K+用户的选择

你有没有这样的经历？

开了一整天会，到下午三点已经记不清早上讨论了什么；浏览器开了二十多个标签页，重要信息淹没在信息海里根本找不到；跟客户聊了半小时需求，回头写文档时只想得起一半内容。我们每天看过的、听过的、聊过的信息量巨大，但真正能记住的少之又少。

笔记工具记不全，截图工具太碎片化，AI聊天助手又不记得你之前看过什么。你需要的是一个真正能"读屏+听音+记忆"的AI伙伴，帮你把碎片信息变成可检索的结构化记忆。这就是今天要介绍的开源项目——Omi。

Omi 是什么？

Omi 是一个开源的"AI第二大脑"，它能捕获你的屏幕内容和对话音频，实时转录，生成摘要和行动项，并提供一个记住你看过和听过所有内容的AI聊天界面。支持macOS桌面端、移动端和可穿戴硬件，已经获得300K+用户信任，GitHub星标超过10K，MIT协议完全开源。

简单说：它就是你身边那个从不走神的AI助手，帮你记下一切，随时可查。

核心功能

屏幕捕获与理解：实时读取你的屏幕内容，知道你在看什么文档、什么网页、什么代码
对话实时转录：通过麦克风或Omi可穿戴设备捕获对话，实时转成文字
智能摘要与行动项：自动从对话和屏幕内容中提取重点摘要和待办行动项
AI聊天记忆：一个能记住你所有看过和听过内容的AI聊天窗口，随时提问随时回答
说话人分离（Diarization）：多人会议时自动区分不同说话人，不混淆谁说了什么
多设备协同：macOS桌面端、iOS/Android移动端、Omi Glass可穿戴设备无缝衔接
MCP协议集成：支持Model Context Protocol，可与Claude等AI工具深度集成
丰富SDK：提供Python、Swift、React Native SDK，方便开发者二次开发
插件生态（Apps）：支持GitHub、Slack、OmiMentor等第三方App集成
完全开源：所有代码、硬件设计、固件全部开源，MIT协议可商用

安装步骤

macOS桌面端（极速体验）

这是最快的方式，克隆即用，无需配置任何环境变量：

# 一键安装运行（连接云端后端，无需本地服务）
git clone https://github.com/BasedHardware/omi.git && cd omi/desktop && ./run.sh --yolo

运行前请确保你的Mac满足以下条件：

macOS 14.0 及以上版本
已安装 Xcode（包含Swift编译器和代码签名工具）
已安装 Node.js（建议v18+）

--yolo 参数会自动构建Swift应用、连接云端后端、启动应用，全程无需配置.env文件或凭证。

macOS桌面端（完整本地开发版）

如果你想在本地跑完整后端栈，需要以下步骤：

# 1. 安装必要工具
xcode-select --install

# 2. 安装Rust工具链
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

# 3. 克隆项目
git clone https://github.com/BasedHardware/omi.git
cd omi/desktop

# 4. 配置环境变量
cp Backend-Rust/.env.example Backend-Rust/.env
# 编辑 .env 文件，填入你的API密钥

# 5. 构建并运行
./run.sh

后端独立部署（自托管）

如果你要部署自己的后端服务，以下是完整步骤：

# 1. 安装Google Cloud SDK
# macOS:
brew install google-cloud-sdk
# Windows:
choco install gcloudsdk

# 2. 安装必要依赖
# macOS:
brew install git ffmpeg opus python
# Windows:
choco install git.install ffmpeg python

# 3. 克隆项目并进入后端目录
git clone https://github.com/BasedHardware/omi.git
cd omi/backend

# 4. 创建虚拟环境并安装依赖
python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate
pip install -r requirements.txt

# 5. 配置环境变量
cp .env.template .env
# 编辑 .env 文件，填入以下必要密钥：
# - OpenAI API Key（用于LLM调用）
# - Deepgram API Key（用于语音转文字）
# - Redis凭证（推荐使用Upstash免费版）
# - Pinecone配置（向量数据库）
# - ADMIN_KEY（本地开发可设为临时值如"123"）

# 6. 配置Firebase（需要自己的Google Cloud项目）
# 确保启用以下API：
# - Cloud Resource Manager API
# - Firebase Management API
# - Cloud Firestore API
# 并在Firestore中创建复合索引

# 7. 启动后端服务
uvicorn main:app --reload --env-file .env

移动端（iOS / Android）

cd omi/app

# iOS:
bash setup.sh ios

# Android:
bash setup.sh android

注意：移动端开发需要对应平台的开发环境（iOS需要Mac + Xcode，Android需要Android Studio）。

MCP服务器（与Claude等AI工具集成）

Omi提供了MCP服务器，能让Claude等AI工具直接访问你的记忆和对话记录：

# 方式一：通过Docker运行
docker run --rm -i -e OMI_API_KEY=your_api_key_here omiai/mcp-server

# 方式二：通过pip安装
pip install mcp-server-omi

在Claude Desktop配置文件 claudedesktopconfig.json 中添加：

{
  "mcpServers": {
    "omi": {
      "command": "docker",
      "args": ["run", "--rm", "-i", "-e", "OMI_API_KEY=your_api_key_here", "omiai/mcp-server"]
    }
  }
}

API Key在Omi应用中的 Settings > Developer > MCP 页面生成。

使用方法

级别1：桌面端基础使用——装完即用

用 ./run.sh --yolo 启动macOS桌面端
授权屏幕录制和麦克风权限（首次运行系统会弹出授权弹窗）
开始你的日常工作——开会、浏览网页、写代码
Omi会在后台自动捕获屏幕内容和对话音频
打开Omi窗口，查看实时转录、历史摘要、AI聊天

这是最简单的上手方式，不需要任何硬件，你的Mac就够用。

级别2：带上Omi可穿戴设备——24小时持续捕获

购买或自制 Omi可穿戴设备（硬件设计完全开源）
通过蓝牙配对到你的Omi移动端App
佩戴设备，它会持续捕获你身边的所有对话
回到电脑前，所有音频记录自动同步到云端
在任何设备上查看完整的对话历史和记忆

Omi Glass开发板（ESP32-S3，带摄像头+音频）更是能在可穿戴形态下实现视觉+音频双重捕捉。

级别3：开发者模式——用SDK和MCP打造自己的AI工作流

Python SDK——连接Omi设备并实时转录

import asyncio
import os
from omi import listen_to_omi, OmiOpusDecoder, transcribe
from asyncio import Queue

OMI_MAC = "YOUR_OMI_MAC_ADDRESS_HERE"
OMI_CHAR_UUID = "19B10001-E8F2-537E-4F6C-D104768A1214"
DEEPGRAM_API_KEY = os.environ.get("DEEPGRAM_API_KEY")

async def main():
    audio_queue = Queue()
    decoder = OmiOpusDecoder()

    def handle_audio(sender, data):
        pcm_data = decoder.decode_packet(data)
        if pcm_data:
            audio_queue.put_nowait(pcm_data)

    def handle_transcript(transcript):
        print(f"转录结果: {transcript}")

    await asyncio.gather(
        listen_to_omi(OMI_MAC, OMI_CHAR_UUID, handle_audio),
        transcribe(audio_queue, DEEPGRAM_API_KEY, on_transcript=handle_transcript)
    )

if __name__ == "__main__":
    asyncio.run(main())

扫描设备蓝牙地址：

# 安装SDK后，用命令行扫描附近的Omi设备
omi-scan

通过MCP与Claude集成——让AI助手读取你的记忆

配置好MCP服务器后，在Claude中你可以直接：

查询你的历史记忆（get_memories）
创建新记忆（create_memory）
搜索对话记录（get_conversations）
删除或编辑记忆（deletememory、editmemory）

这意味着你对Claude说的每一句话，它都能结合你过去的完整上下文来回答，而不是每次都从零开始。

自托管后端——数据完全自主掌控

按照上面的后端部署步骤搭建自己的服务后，在App中设置 BASEAPIURL 指向你的服务器地址即可。所有的对话记录、记忆、转写数据都存储在你自己的服务器上，无需担心隐私泄露。

实际场景举例

场景	怎么用Omi
日常开会	佩戴Omi设备或打开桌面端，会议结束后自动生成纪要和行动项，再也不用手动记录
客户需求沟通	对话被实时转录，客户提到的每个细节都被记录，回头写需求文档时随时查询
代码Review	屏幕捕获记录你看过的每段代码，AI聊天可以帮你回顾之前看过的代码逻辑
学习课程	看网课时Omi记录屏幕和音频，课后自动整理笔记，不用暂停做记录
多人访谈	说话人分离功能自动区分不同发言者，不会混淆谁说了什么
日报/周报	让AI根据一周的对话和屏幕记录自动生成工作汇报
跨设备协作	在Mac上看的内容、手机上听到的对话，全部同步到同一个记忆库
与Claude协作	通过MCP让Claude读取你的Omi记忆，提供真正个性化的AI助手体验

与同类项目对比

对比维度	Omi	Otter.ai	Rewind.ai	Mem.ai	微软Copilot
开源	MIT协议完全开源	闭源	闭源	闭源	闭源
屏幕捕获	实时读取	无	有	无	无
对话转录	实时+说话人分离	有	无	无	无
可穿戴硬件	Omi设备+Omi Glass	无	无	无	无
AI聊天记忆	记住你看过听过的所有内容	无	无	有限	无
自托管	后端可完全自部署	不支持	不支持	不支持	不支持
MCP集成	与Claude等AI工具深度联动	无	无	无	无
SDK	Python/Swift/RN	无	无	有限API	有限API
价格	免费（自托管）	免费/付费套餐	付费	免费/付费	订阅制
平台支持	macOS/iOS/Android/可穿戴	全平台	macOS	Web	MS 365

可以看出，Omi的独特优势在于开源+自托管+全栈能力（屏幕+音频+硬件），这在目前市面上找不到第二个。

技术架构速览

Omi的架构设计相当精巧，值得开发者关注：

macOS桌面端：Swift/SwiftUI构建前端，Rust实现高性能后端（包括Firestore交互、Redis缓存、认证和LLM调用）
移动端：Flutter跨平台开发，iOS和Android共用一套代码
云端后端：Python + FastAPI，集成Firebase（数据存储）、Redis（缓存）、Deepgram（语音转文字）、LLM（AI能力）
可穿戴固件：nRF芯片 + Zephyr RTOS（C语言），Omi Glass用ESP32-S3
转录流水线：音频 -> VAD（语音活动检测） -> 说话人分离 -> Deepgram STT -> 结构化摘要
数据流：可穿戴设备通过BLE传输 -> 移动端App中转 -> HTTPS/WebSocket推送到云端后端处理

整套架构从嵌入式固件到移动端到云端后端全部开源，这在AI可穿戴领域是非常少见的。

常见问题

Q：不用Omi硬件，只装桌面端能用吗？ A：完全可以。桌面端自带屏幕捕获和麦克风录音功能，不需要额外的硬件设备。

Q：我的隐私安全吗？ A：如果使用--yolo模式连接云端，数据会上传到Omi的服务器。如果你重视隐私，推荐自部署后端，所有数据存在你自己的服务器上，代码开源可审计。

Q：支持Windows/Linux吗？ A：目前桌面端只支持macOS 14+。但你可以在任何平台使用移动端App，或者自部署后端后通过Web访问。Python SDK也可以在任何平台使用来连接Omi硬件。

Q：Omi硬件必须买吗？ A：不是。硬件设计完全开源，你可以根据自己的需求购买零件DIY。当然也可以直接购买成品套装省去组装麻烦。

小结

Omi是目前少有的"全栈开源AI记忆系统"——从可穿戴硬件到桌面应用到云端后端全部开源，能看屏幕、能听对话、自动转录、智能摘要、AI聊天记忆，还支持MCP协议与主流AI工具联动。无论你是想找个AI辅助工作记忆，还是想研究可穿戴AI设备的架构设计，Omi都值得深入体验。

项目地址：https://github.com/BasedHardware/omi 官网：https://omi.me 文档：https://docs.omi.me

写评论

读者评论

0 条

登录后参与

暂无评论，来分享你的看法吧