Album AI 基于生成式AI和RAG技术用自然语言直接和你的图库相册对话
Album AI 是一个试验项目,使用刚刚发布的gpt-4o-mini和 Haiku 作为廉价的视觉模型,自动识别出相册中图像文件的元信息,然后借助RAG技术,实现了与相册对话的能力。
可以当做传统的相册使用,也可以作为一个图像知识库辅助LLM生成内容。
```
自动发现相册中的图片,使用一个 PgSQL 数据库存储
使用GPT-4-o-mini,自动生成图像的元信息
使用OpenAI的Embedding API,完成元信息向量化
提供两个API:
Search: 传统的Search API,输入query,返回最相关的图像
Chat: RAG API,输入query,查询到图片并生成回复
一键部署到 Render等支持Docker容器部署的平台
宽松的开源协议,你可以随意的集成和修改
```
推荐在本地运行,如果要在服务器运行请自行部署,之后我们会完善这部分指南。
1. 克隆项目
git clone git@github.com:gcui-art/album-ai.git
cd album-ai
2. 修改配置
cp .env.prod.example .env.prod
用编辑器打开.env.prod,修改里面的配置:
HOST_NAME= # 你本地的IP地址,一般192.168.x.x:8080
PROXY_URL= # (可选) 你本地的代理IP地址,一般 192.168.x.x:7890,无法直接访问OpenAI API时需要
OPENAI_API_KEY= # 你的 openai api 秘钥
ANTHROPIC_API_KEY= # 你的 Anthropic api 秘钥
3. Build 并启动项目
chmod a+x ./build.sh
./build.sh
4. Enjoy!
浏览器中打开 http://localhost:8080 ,访问demo。
5. 添加新照片
打开项目的images目录,将新照片添加到images目录下后台认为会自动进行元信息的识别和向量化。稍后就可以在demo中通过搜索和对话的方式来使用。
API 说明
Album AI 目前主要实现了以下 API:
get /api/v1/file/search: 搜索图片
post/api/v1/chat: 与图片对话
GitHub: https://github.com/gcui-art/album-ai
参考