Album AI 基于生成式AI和RAG技术用自然语言直接和你的图库相册对话

Album AI 是一个试验项目，使用刚刚发布的gpt-4o-mini和 Haiku 作为廉价的视觉模型，自动识别出相册中图像文件的元信息，然后借助RAG技术，实现了与相册对话的能力。

可以当做传统的相册使用，也可以作为一个图像知识库辅助LLM生成内容。

```
自动发现相册中的图片，使用一个 PgSQL 数据库存储
使用GPT-4-o-mini，自动生成图像的元信息
使用OpenAI的Embedding API，完成元信息向量化
提供两个API：
Search: 传统的Search API，输入query，返回最相关的图像
Chat: RAG API，输入query，查询到图片并生成回复
一键部署到 Render等支持Docker容器部署的平台
宽松的开源协议，你可以随意的集成和修改
```

推荐在本地运行，如果要在服务器运行请自行部署，之后我们会完善这部分指南。

1. 克隆项目
git clone git@github.com:gcui-art/album-ai.git
cd album-ai
2. 修改配置
cp .env.prod.example .env.prod
用编辑器打开.env.prod，修改里面的配置：

HOST_NAME= # 你本地的IP地址，一般192.168.x.x:8080
PROXY_URL= # (可选) 你本地的代理IP地址，一般 192.168.x.x:7890，无法直接访问OpenAI API时需要

OPENAI_API_KEY= # 你的 openai api 秘钥
ANTHROPIC_API_KEY= # 你的 Anthropic api 秘钥 
3. Build 并启动项目
chmod a+x ./build.sh
./build.sh
4. Enjoy!
浏览器中打开 http://localhost:8080 ，访问demo。

5. 添加新照片
打开项目的images目录，将新照片添加到images目录下后台认为会自动进行元信息的识别和向量化。稍后就可以在demo中通过搜索和对话的方式来使用。

API 说明
Album AI 目前主要实现了以下 API:

get /api/v1/file/search: 搜索图片
post/api/v1/chat: 与图片对话

GitHub: https://github.com/gcui-art/album-ai

AI工具 GitHub

参考