Omi:能看屏幕、能听对话的开源AI第二大脑,300K+用户的选择
你有没有这样的经历? 开了一整天会,到下午三点已经记不清早上讨论了什么;浏览器开了二十多个标签页,重要信息淹没在信息海里根本找不到;跟客户聊了半小时需求,回头写文档时只想得起一半内容。我们每天看过的、听过的、聊过的信息量巨大,但真正能记住的少之又少。 笔记工具记不全,截图工具太碎片化,AI
你有没有这样的经历?
开了一整天会,到下午三点已经记不清早上讨论了什么;浏览器开了二十多个标签页,重要信息淹没在信息海里根本找不到;跟客户聊了半小时需求,回头写文档时只想得起一半内容。我们每天看过的、听过的、聊过的信息量巨大,但真正能记住的少之又少。
笔记工具记不全,截图工具太碎片化,AI聊天助手又不记得你之前看过什么。你需要的是一个真正能"读屏+听音+记忆"的AI伙伴,帮你把碎片信息变成可检索的结构化记忆。这就是今天要介绍的开源项目——Omi。
Omi 是什么?
Omi 是一个开源的"AI第二大脑",它能捕获你的屏幕内容和对话音频,实时转录,生成摘要和行动项,并提供一个记住你看过和听过所有内容的AI聊天界面。支持macOS桌面端、移动端和可穿戴硬件,已经获得300K+用户信任,GitHub星标超过10K,MIT协议完全开源。
简单说:它就是你身边那个从不走神的AI助手,帮你记下一切,随时可查。
核心功能
- 屏幕捕获与理解:实时读取你的屏幕内容,知道你在看什么文档、什么网页、什么代码
- 对话实时转录:通过麦克风或Omi可穿戴设备捕获对话,实时转成文字
- 智能摘要与行动项:自动从对话和屏幕内容中提取重点摘要和待办行动项
- AI聊天记忆:一个能记住你所有看过和听过内容的AI聊天窗口,随时提问随时回答
- 说话人分离(Diarization):多人会议时自动区分不同说话人,不混淆谁说了什么
- 多设备协同:macOS桌面端、iOS/Android移动端、Omi Glass可穿戴设备无缝衔接
- MCP协议集成:支持Model Context Protocol,可与Claude等AI工具深度集成
- 丰富SDK:提供Python、Swift、React Native SDK,方便开发者二次开发
- 插件生态(Apps):支持GitHub、Slack、OmiMentor等第三方App集成
- 完全开源:所有代码、硬件设计、固件全部开源,MIT协议可商用
安装步骤
macOS桌面端(极速体验)
这是最快的方式,克隆即用,无需配置任何环境变量:
# 一键安装运行(连接云端后端,无需本地服务)
git clone https://github.com/BasedHardware/omi.git && cd omi/desktop && ./run.sh --yolo运行前请确保你的Mac满足以下条件:
--yolo 参数会自动构建Swift应用、连接云端后端、启动应用,全程无需配置.env文件或凭证。
macOS桌面端(完整本地开发版)
如果你想在本地跑完整后端栈,需要以下步骤:
# 1. 安装必要工具
xcode-select --install
# 2. 安装Rust工具链
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
# 3. 克隆项目
git clone https://github.com/BasedHardware/omi.git
cd omi/desktop
# 4. 配置环境变量
cp Backend-Rust/.env.example Backend-Rust/.env
# 编辑 .env 文件,填入你的API密钥
# 5. 构建并运行
./run.sh后端独立部署(自托管)
如果你要部署自己的后端服务,以下是完整步骤:
# 1. 安装Google Cloud SDK
# macOS:
brew install google-cloud-sdk
# Windows:
choco install gcloudsdk
# 2. 安装必要依赖
# macOS:
brew install git ffmpeg opus python
# Windows:
choco install git.install ffmpeg python
# 3. 克隆项目并进入后端目录
git clone https://github.com/BasedHardware/omi.git
cd omi/backend
# 4. 创建虚拟环境并安装依赖
python -m venv venv
source venv/bin/activate # Windows: venv\Scripts\activate
pip install -r requirements.txt
# 5. 配置环境变量
cp .env.template .env
# 编辑 .env 文件,填入以下必要密钥:
# - OpenAI API Key(用于LLM调用)
# - Deepgram API Key(用于语音转文字)
# - Redis凭证(推荐使用Upstash免费版)
# - Pinecone配置(向量数据库)
# - ADMIN_KEY(本地开发可设为临时值如"123")
# 6. 配置Firebase(需要自己的Google Cloud项目)
# 确保启用以下API:
# - Cloud Resource Manager API
# - Firebase Management API
# - Cloud Firestore API
# 并在Firestore中创建复合索引
# 7. 启动后端服务
uvicorn main:app --reload --env-file .env移动端(iOS / Android)
cd omi/app
# iOS:
bash setup.sh ios
# Android:
bash setup.sh android注意:移动端开发需要对应平台的开发环境(iOS需要Mac + Xcode,Android需要Android Studio)。
MCP服务器(与Claude等AI工具集成)
Omi提供了MCP服务器,能让Claude等AI工具直接访问你的记忆和对话记录:
# 方式一:通过Docker运行
docker run --rm -i -e OMI_API_KEY=your_api_key_here omiai/mcp-server
# 方式二:通过pip安装
pip install mcp-server-omi在Claude Desktop配置文件 claudedesktopconfig.json 中添加:
{
"mcpServers": {
"omi": {
"command": "docker",
"args": ["run", "--rm", "-i", "-e", "OMI_API_KEY=your_api_key_here", "omiai/mcp-server"]
}
}
}API Key在Omi应用中的 Settings > Developer > MCP 页面生成。
使用方法
级别1:桌面端基础使用——装完即用
- 用
./run.sh --yolo启动macOS桌面端 - 授权屏幕录制和麦克风权限(首次运行系统会弹出授权弹窗)
- 开始你的日常工作——开会、浏览网页、写代码
- Omi会在后台自动捕获屏幕内容和对话音频
- 打开Omi窗口,查看实时转录、历史摘要、AI聊天
这是最简单的上手方式,不需要任何硬件,你的Mac就够用。
级别2:带上Omi可穿戴设备——24小时持续捕获
- 购买或自制 Omi可穿戴设备(硬件设计完全开源)
- 通过蓝牙配对到你的Omi移动端App
- 佩戴设备,它会持续捕获你身边的所有对话
- 回到电脑前,所有音频记录自动同步到云端
- 在任何设备上查看完整的对话历史和记忆
Omi Glass开发板(ESP32-S3,带摄像头+音频)更是能在可穿戴形态下实现视觉+音频双重捕捉。
级别3:开发者模式——用SDK和MCP打造自己的AI工作流
Python SDK——连接Omi设备并实时转录
import asyncio
import os
from omi import listen_to_omi, OmiOpusDecoder, transcribe
from asyncio import Queue
OMI_MAC = "YOUR_OMI_MAC_ADDRESS_HERE"
OMI_CHAR_UUID = "19B10001-E8F2-537E-4F6C-D104768A1214"
DEEPGRAM_API_KEY = os.environ.get("DEEPGRAM_API_KEY")
async def main():
audio_queue = Queue()
decoder = OmiOpusDecoder()
def handle_audio(sender, data):
pcm_data = decoder.decode_packet(data)
if pcm_data:
audio_queue.put_nowait(pcm_data)
def handle_transcript(transcript):
print(f"转录结果: {transcript}")
await asyncio.gather(
listen_to_omi(OMI_MAC, OMI_CHAR_UUID, handle_audio),
transcribe(audio_queue, DEEPGRAM_API_KEY, on_transcript=handle_transcript)
)
if __name__ == "__main__":
asyncio.run(main())扫描设备蓝牙地址:
# 安装SDK后,用命令行扫描附近的Omi设备
omi-scan通过MCP与Claude集成——让AI助手读取你的记忆
配置好MCP服务器后,在Claude中你可以直接:
- 查询你的历史记忆(
get_memories) - 创建新记忆(
create_memory) - 搜索对话记录(
get_conversations) - 删除或编辑记忆(
deletememory、editmemory)
这意味着你对Claude说的每一句话,它都能结合你过去的完整上下文来回答,而不是每次都从零开始。
自托管后端——数据完全自主掌控
按照上面的后端部署步骤搭建自己的服务后,在App中设置 BASEAPIURL 指向你的服务器地址即可。所有的对话记录、记忆、转写数据都存储在你自己的服务器上,无需担心隐私泄露。
实际场景举例
| 场景 | 怎么用Omi |
|---|---|
| 日常开会 | 佩戴Omi设备或打开桌面端,会议结束后自动生成纪要和行动项,再也不用手动记录 |
| 客户需求沟通 | 对话被实时转录,客户提到的每个细节都被记录,回头写需求文档时随时查询 |
| 代码Review | 屏幕捕获记录你看过的每段代码,AI聊天可以帮你回顾之前看过的代码逻辑 |
| 学习课程 | 看网课时Omi记录屏幕和音频,课后自动整理笔记,不用暂停做记录 |
| 多人访谈 | 说话人分离功能自动区分不同发言者,不会混淆谁说了什么 |
| 日报/周报 | 让AI根据一周的对话和屏幕记录自动生成工作汇报 |
| 跨设备协作 | 在Mac上看的内容、手机上听到的对话,全部同步到同一个记忆库 |
| 与Claude协作 | 通过MCP让Claude读取你的Omi记忆,提供真正个性化的AI助手体验 |
与同类项目对比
| 对比维度 | Omi | Otter.ai | Rewind.ai | Mem.ai | 微软Copilot |
|---|---|---|---|---|---|
| 开源 | MIT协议完全开源 | 闭源 | 闭源 | 闭源 | 闭源 |
| 屏幕捕获 | 实时读取 | 无 | 有 | 无 | 无 |
| 对话转录 | 实时+说话人分离 | 有 | 无 | 无 | 无 |
| 可穿戴硬件 | Omi设备+Omi Glass | 无 | 无 | 无 | 无 |
| AI聊天记忆 | 记住你看过听过的所有内容 | 无 | 无 | 有限 | 无 |
| 自托管 | 后端可完全自部署 | 不支持 | 不支持 | 不支持 | 不支持 |
| MCP集成 | 与Claude等AI工具深度联动 | 无 | 无 | 无 | 无 |
| SDK | Python/Swift/RN | 无 | 无 | 有限API | 有限API |
| 价格 | 免费(自托管) | 免费/付费套餐 | 付费 | 免费/付费 | 订阅制 |
| 平台支持 | macOS/iOS/Android/可穿戴 | 全平台 | macOS | Web | MS 365 |
可以看出,Omi的独特优势在于开源+自托管+全栈能力(屏幕+音频+硬件),这在目前市面上找不到第二个。
技术架构速览
Omi的架构设计相当精巧,值得开发者关注:
- macOS桌面端:Swift/SwiftUI构建前端,Rust实现高性能后端(包括Firestore交互、Redis缓存、认证和LLM调用)
- 移动端:Flutter跨平台开发,iOS和Android共用一套代码
- 云端后端:Python + FastAPI,集成Firebase(数据存储)、Redis(缓存)、Deepgram(语音转文字)、LLM(AI能力)
- 可穿戴固件:nRF芯片 + Zephyr RTOS(C语言),Omi Glass用ESP32-S3
- 转录流水线:音频 -> VAD(语音活动检测) -> 说话人分离 -> Deepgram STT -> 结构化摘要
- 数据流:可穿戴设备通过BLE传输 -> 移动端App中转 -> HTTPS/WebSocket推送到云端后端处理
整套架构从嵌入式固件到移动端到云端后端全部开源,这在AI可穿戴领域是非常少见的。
常见问题
Q:不用Omi硬件,只装桌面端能用吗? A:完全可以。桌面端自带屏幕捕获和麦克风录音功能,不需要额外的硬件设备。
Q:我的隐私安全吗? A:如果使用--yolo模式连接云端,数据会上传到Omi的服务器。如果你重视隐私,推荐自部署后端,所有数据存在你自己的服务器上,代码开源可审计。
Q:支持Windows/Linux吗? A:目前桌面端只支持macOS 14+。但你可以在任何平台使用移动端App,或者自部署后端后通过Web访问。Python SDK也可以在任何平台使用来连接Omi硬件。
Q:Omi硬件必须买吗? A:不是。硬件设计完全开源,你可以根据自己的需求购买零件DIY。当然也可以直接购买成品套装省去组装麻烦。
小结
Omi是目前少有的"全栈开源AI记忆系统"——从可穿戴硬件到桌面应用到云端后端全部开源,能看屏幕、能听对话、自动转录、智能摘要、AI聊天记忆,还支持MCP协议与主流AI工具联动。无论你是想找个AI辅助工作记忆,还是想研究可穿戴AI设备的架构设计,Omi都值得深入体验。
项目地址:https://github.com/BasedHardware/omi 官网:https://omi.me 文档:https://docs.omi.me
读者评论
0 条暂无评论,来分享你的看法吧
相关推荐
结合当前内容、你的浏览习惯和搜索偏好推荐。
OpenCode:145K星的开源AI编程Agent,Claude Code的最佳平替
你是不是也受够了? 写代码写到凌晨两点,debug一个接口返回值的问题翻了三天日志还没头绪;接手别人的项目,看着满屏的 utils.js 和 helpers.ts 完全不知道从哪看起;每次想用AI辅助写代码,不是被Claude Code的订阅价格劝退,就是怕代码上传到别人服务器不安全。如果你
Thunderbird Thunderbolt:Mozilla开源AI客户端,本地换模型
你有没有这种感觉——用ChatGPT怕数据被拿去训练,用Claude又担心隐私泄露,想跑本地模型却折腾不好环境,换一个AI工具就要重新适应一个新界面?更别提有些平台动不动就封号、限速,聊天记录还得导来导去。更烦人的是,你想用不同模型就得打开不同的App——GPT在ChatGPT里,Claude在An

