返回广场

Omi:能看屏幕、能听对话的开源AI第二大脑,300K+用户的选择

你有没有这样的经历? 开了一整天会,到下午三点已经记不清早上讨论了什么;浏览器开了二十多个标签页,重要信息淹没在信息海里根本找不到;跟客户聊了半小时需求,回头写文档时只想得起一半内容。我们每天看过的、听过的、聊过的信息量巨大,但真正能记住的少之又少。 笔记工具记不全,截图工具太碎片化,AI

你有没有这样的经历?

开了一整天会,到下午三点已经记不清早上讨论了什么;浏览器开了二十多个标签页,重要信息淹没在信息海里根本找不到;跟客户聊了半小时需求,回头写文档时只想得起一半内容。我们每天看过的、听过的、聊过的信息量巨大,但真正能记住的少之又少。

笔记工具记不全,截图工具太碎片化,AI聊天助手又不记得你之前看过什么。你需要的是一个真正能"读屏+听音+记忆"的AI伙伴,帮你把碎片信息变成可检索的结构化记忆。这就是今天要介绍的开源项目——Omi

Omi 是什么?

Omi 是一个开源的"AI第二大脑",它能捕获你的屏幕内容和对话音频,实时转录,生成摘要和行动项,并提供一个记住你看过和听过所有内容的AI聊天界面。支持macOS桌面端、移动端和可穿戴硬件,已经获得300K+用户信任,GitHub星标超过10K,MIT协议完全开源。

简单说:它就是你身边那个从不走神的AI助手,帮你记下一切,随时可查。

核心功能

  • 屏幕捕获与理解:实时读取你的屏幕内容,知道你在看什么文档、什么网页、什么代码
  • 对话实时转录:通过麦克风或Omi可穿戴设备捕获对话,实时转成文字
  • 智能摘要与行动项:自动从对话和屏幕内容中提取重点摘要和待办行动项
  • AI聊天记忆:一个能记住你所有看过和听过内容的AI聊天窗口,随时提问随时回答
  • 说话人分离(Diarization):多人会议时自动区分不同说话人,不混淆谁说了什么
  • 多设备协同:macOS桌面端、iOS/Android移动端、Omi Glass可穿戴设备无缝衔接
  • MCP协议集成:支持Model Context Protocol,可与Claude等AI工具深度集成
  • 丰富SDK:提供Python、Swift、React Native SDK,方便开发者二次开发
  • 插件生态(Apps):支持GitHub、Slack、OmiMentor等第三方App集成
  • 完全开源:所有代码、硬件设计、固件全部开源,MIT协议可商用

安装步骤

macOS桌面端(极速体验)

这是最快的方式,克隆即用,无需配置任何环境变量:

# 一键安装运行(连接云端后端,无需本地服务)
git clone https://github.com/BasedHardware/omi.git && cd omi/desktop && ./run.sh --yolo

运行前请确保你的Mac满足以下条件:

  • macOS 14.0 及以上版本
  • 已安装 Xcode(包含Swift编译器和代码签名工具)
  • 已安装 Node.js(建议v18+)

--yolo 参数会自动构建Swift应用、连接云端后端、启动应用,全程无需配置.env文件或凭证。

macOS桌面端(完整本地开发版)

如果你想在本地跑完整后端栈,需要以下步骤:

# 1. 安装必要工具
xcode-select --install

# 2. 安装Rust工具链
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

# 3. 克隆项目
git clone https://github.com/BasedHardware/omi.git
cd omi/desktop

# 4. 配置环境变量
cp Backend-Rust/.env.example Backend-Rust/.env
# 编辑 .env 文件,填入你的API密钥

# 5. 构建并运行
./run.sh

后端独立部署(自托管)

如果你要部署自己的后端服务,以下是完整步骤:

# 1. 安装Google Cloud SDK
# macOS:
brew install google-cloud-sdk
# Windows:
choco install gcloudsdk

# 2. 安装必要依赖
# macOS:
brew install git ffmpeg opus python
# Windows:
choco install git.install ffmpeg python

# 3. 克隆项目并进入后端目录
git clone https://github.com/BasedHardware/omi.git
cd omi/backend

# 4. 创建虚拟环境并安装依赖
python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate
pip install -r requirements.txt

# 5. 配置环境变量
cp .env.template .env
# 编辑 .env 文件,填入以下必要密钥:
# - OpenAI API Key(用于LLM调用)
# - Deepgram API Key(用于语音转文字)
# - Redis凭证(推荐使用Upstash免费版)
# - Pinecone配置(向量数据库)
# - ADMIN_KEY(本地开发可设为临时值如"123")

# 6. 配置Firebase(需要自己的Google Cloud项目)
# 确保启用以下API:
# - Cloud Resource Manager API
# - Firebase Management API
# - Cloud Firestore API
# 并在Firestore中创建复合索引

# 7. 启动后端服务
uvicorn main:app --reload --env-file .env

移动端(iOS / Android)

cd omi/app

# iOS:
bash setup.sh ios

# Android:
bash setup.sh android

注意:移动端开发需要对应平台的开发环境(iOS需要Mac + Xcode,Android需要Android Studio)。

MCP服务器(与Claude等AI工具集成)

Omi提供了MCP服务器,能让Claude等AI工具直接访问你的记忆和对话记录:

# 方式一:通过Docker运行
docker run --rm -i -e OMI_API_KEY=your_api_key_here omiai/mcp-server

# 方式二:通过pip安装
pip install mcp-server-omi

在Claude Desktop配置文件 claudedesktopconfig.json 中添加:

{
  "mcpServers": {
    "omi": {
      "command": "docker",
      "args": ["run", "--rm", "-i", "-e", "OMI_API_KEY=your_api_key_here", "omiai/mcp-server"]
    }
  }
}

API Key在Omi应用中的 Settings > Developer > MCP 页面生成。

使用方法

级别1:桌面端基础使用——装完即用

  1. ./run.sh --yolo 启动macOS桌面端
  2. 授权屏幕录制和麦克风权限(首次运行系统会弹出授权弹窗)
  3. 开始你的日常工作——开会、浏览网页、写代码
  4. Omi会在后台自动捕获屏幕内容和对话音频
  5. 打开Omi窗口,查看实时转录、历史摘要、AI聊天

这是最简单的上手方式,不需要任何硬件,你的Mac就够用。

级别2:带上Omi可穿戴设备——24小时持续捕获

  1. 购买或自制 Omi可穿戴设备(硬件设计完全开源)
  2. 通过蓝牙配对到你的Omi移动端App
  3. 佩戴设备,它会持续捕获你身边的所有对话
  4. 回到电脑前,所有音频记录自动同步到云端
  5. 在任何设备上查看完整的对话历史和记忆

Omi Glass开发板(ESP32-S3,带摄像头+音频)更是能在可穿戴形态下实现视觉+音频双重捕捉。

级别3:开发者模式——用SDK和MCP打造自己的AI工作流

Python SDK——连接Omi设备并实时转录

import asyncio
import os
from omi import listen_to_omi, OmiOpusDecoder, transcribe
from asyncio import Queue

OMI_MAC = "YOUR_OMI_MAC_ADDRESS_HERE"
OMI_CHAR_UUID = "19B10001-E8F2-537E-4F6C-D104768A1214"
DEEPGRAM_API_KEY = os.environ.get("DEEPGRAM_API_KEY")

async def main():
    audio_queue = Queue()
    decoder = OmiOpusDecoder()

    def handle_audio(sender, data):
        pcm_data = decoder.decode_packet(data)
        if pcm_data:
            audio_queue.put_nowait(pcm_data)

    def handle_transcript(transcript):
        print(f"转录结果: {transcript}")

    await asyncio.gather(
        listen_to_omi(OMI_MAC, OMI_CHAR_UUID, handle_audio),
        transcribe(audio_queue, DEEPGRAM_API_KEY, on_transcript=handle_transcript)
    )

if __name__ == "__main__":
    asyncio.run(main())

扫描设备蓝牙地址:

# 安装SDK后,用命令行扫描附近的Omi设备
omi-scan

通过MCP与Claude集成——让AI助手读取你的记忆

配置好MCP服务器后,在Claude中你可以直接:

  • 查询你的历史记忆(get_memories
  • 创建新记忆(create_memory
  • 搜索对话记录(get_conversations
  • 删除或编辑记忆(deletememoryeditmemory

这意味着你对Claude说的每一句话,它都能结合你过去的完整上下文来回答,而不是每次都从零开始。

自托管后端——数据完全自主掌控

按照上面的后端部署步骤搭建自己的服务后,在App中设置 BASEAPIURL 指向你的服务器地址即可。所有的对话记录、记忆、转写数据都存储在你自己的服务器上,无需担心隐私泄露。

实际场景举例

场景怎么用Omi
日常开会佩戴Omi设备或打开桌面端,会议结束后自动生成纪要和行动项,再也不用手动记录
客户需求沟通对话被实时转录,客户提到的每个细节都被记录,回头写需求文档时随时查询
代码Review屏幕捕获记录你看过的每段代码,AI聊天可以帮你回顾之前看过的代码逻辑
学习课程看网课时Omi记录屏幕和音频,课后自动整理笔记,不用暂停做记录
多人访谈说话人分离功能自动区分不同发言者,不会混淆谁说了什么
日报/周报让AI根据一周的对话和屏幕记录自动生成工作汇报
跨设备协作在Mac上看的内容、手机上听到的对话,全部同步到同一个记忆库
与Claude协作通过MCP让Claude读取你的Omi记忆,提供真正个性化的AI助手体验

与同类项目对比

对比维度OmiOtter.aiRewind.aiMem.ai微软Copilot
开源MIT协议完全开源闭源闭源闭源闭源
屏幕捕获实时读取
对话转录实时+说话人分离
可穿戴硬件Omi设备+Omi Glass
AI聊天记忆记住你看过听过的所有内容有限
自托管后端可完全自部署不支持不支持不支持不支持
MCP集成与Claude等AI工具深度联动
SDKPython/Swift/RN有限API有限API
价格免费(自托管)免费/付费套餐付费免费/付费订阅制
平台支持macOS/iOS/Android/可穿戴全平台macOSWebMS 365

可以看出,Omi的独特优势在于开源+自托管+全栈能力(屏幕+音频+硬件),这在目前市面上找不到第二个。

技术架构速览

Omi的架构设计相当精巧,值得开发者关注:

  • macOS桌面端:Swift/SwiftUI构建前端,Rust实现高性能后端(包括Firestore交互、Redis缓存、认证和LLM调用)
  • 移动端:Flutter跨平台开发,iOS和Android共用一套代码
  • 云端后端:Python + FastAPI,集成Firebase(数据存储)、Redis(缓存)、Deepgram(语音转文字)、LLM(AI能力)
  • 可穿戴固件:nRF芯片 + Zephyr RTOS(C语言),Omi Glass用ESP32-S3
  • 转录流水线:音频 -> VAD(语音活动检测) -> 说话人分离 -> Deepgram STT -> 结构化摘要
  • 数据流:可穿戴设备通过BLE传输 -> 移动端App中转 -> HTTPS/WebSocket推送到云端后端处理

整套架构从嵌入式固件到移动端到云端后端全部开源,这在AI可穿戴领域是非常少见的。

常见问题

Q:不用Omi硬件,只装桌面端能用吗? A:完全可以。桌面端自带屏幕捕获和麦克风录音功能,不需要额外的硬件设备。

Q:我的隐私安全吗? A:如果使用--yolo模式连接云端,数据会上传到Omi的服务器。如果你重视隐私,推荐自部署后端,所有数据存在你自己的服务器上,代码开源可审计。

Q:支持Windows/Linux吗? A:目前桌面端只支持macOS 14+。但你可以在任何平台使用移动端App,或者自部署后端后通过Web访问。Python SDK也可以在任何平台使用来连接Omi硬件。

Q:Omi硬件必须买吗? A:不是。硬件设计完全开源,你可以根据自己的需求购买零件DIY。当然也可以直接购买成品套装省去组装麻烦。

小结

Omi是目前少有的"全栈开源AI记忆系统"——从可穿戴硬件到桌面应用到云端后端全部开源,能看屏幕、能听对话、自动转录、智能摘要、AI聊天记忆,还支持MCP协议与主流AI工具联动。无论你是想找个AI辅助工作记忆,还是想研究可穿戴AI设备的架构设计,Omi都值得深入体验。

项目地址https://github.com/BasedHardware/omi 官网https://omi.me 文档https://docs.omi.me

写评论

读者评论

0

暂无评论,来分享你的看法吧

相关推荐

结合当前内容、你的浏览习惯和搜索偏好推荐。