ai_member_xiaoxi/memory/2026-05-22-1518.md
2026-05-23 08:00:01 +08:00

181 lines
7.0 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Session: 2026-05-22 15:18:29 GMT+8
- **Session Key**: agent:main:feishu:direct:ou_e63ce6b760ad39382852472f28fbe2a2
- **Session ID**: 3a4b1f73-c319-4473-989d-55043f21e6bb
- **Source**: feishu
## Conversation Summary
user: 跟我说一下你接入的数据库有哪些
assistant: 承龙你好!
我目前接入了 **6 个数据库**,按用途分为两类:
---
### 📦 业务数据MySQL
| 数据库 | 用途 | 访问权限 |
|--------|------|----------|
| **Online MySQL** (线上版本) | 线上发布版本的配置数据、用户订单/用户信息等 | 只读 |
| **Test MySQL** (测试环境) | 最新版本配置数据、内部开发用户数据 | 只读 |
### 📊 用户行为数据PostgreSQL `vala_bi` 库)
| 数据库 | 用途 | 访问权限 |
|--------|------|----------|
| **Online PostgreSQL** (正式环境) | 正式环境的用户行为数据、订单表、账户表、课程明细等核心 BI 数据 | 只读 |
| **Test PostgreSQL** (测试环境) | 测试环境的行为数据 | 只读 |
### 📝 服务日志Elasticsearch
| 数据库 | 用途 | 访问权限 |
|--------|------|----------|
| **Online ES** (正式环境) | 正式环境的服务日志 | 只读 |
| **Test ES** (测试环境) | 测试环境的服务日志 | 只读 |
---
> ⚠️ 所有数据库均为**只读**权限,不会进行写入或删除操作。
核心的业务分析数据(订单、用户、课程、学习行为等)主要存放在 **Online PostgreSQL `vala_bi` 库**中。需要查什么数据随时说~
user: 读取一下online es跟我说说里面都有什么
assistant: 好的,我来连接 Online ES 查看一下都有哪些索引和数据。
assistant: 认证失败,让我确认下密码变量名。
assistant: 数据拿到了我来整理一下。Online ES 里主要有以下几类索引:
---
## 📊 Online ES 索引总览
### 🎯 核心业务索引(重点关注)
| 索引名 | 文档数 | 存储大小 | 说明 |
|--------|--------|----------|------|
| `user_behavior_buried_points` | **2,707万** | **8 GB** | 🔥 用户行为埋点,最大索引 |
| `user-audio` | 403万 | 2.4 GB | 用户音频数据 |
| `llm_pron_eval` | 155万 | 1.3 GB | 发音评估 |
| `llm_api_stat` | 535万 | 968 MB | LLM API 调用统计 |
| `llm_asr_log` | 225万 | 1.4 GB | 语音识别ASR日志 |
| `llm_tts_log` | 230万 | 1.4 GB | 文字转语音TTS日志 |
| `llm_roleplayagent_round_log` | 138万 | 5.5 GB | 角色扮演对话轮次日志 |
| `llm_realtime_asr_log` | 108万 | 471 MB | 实时语音识别日志 |
### 🗣️ 口语/对话相关
| 索引名 | 文档数 | 说明 |
|--------|--------|------|
| `llm_image_speaking` | 39.7万 | 看图说话 |
| `llm_api_error_based_correction` | 5.3万 | 基于错误的纠错API |
| `llm_ai_tools_log` | 27.4万 | AI 工具调用日志 |
| `llm_core_speaking_monologue` | 374 | 核心口语独白 |
| `llm_scene_chat_log` | 55 | 场景对话日志 |
| `pronunciation_eval_logs` | 4 | 发音评估日志 |
### 📈 其他业务索引
| 索引名 | 文档数 | 说明 |
|--------|--------|------|
| `growth_activity_behavior` | 3.5万 | 增长活动行为 |
| `word_sentence_learn_data` | 439 | 单词句子学习数据 |
| `llm_api_writing` | 7,920 | API 写作日志 |
| `llm_instruction_control_log` | 3,298 | 指令控制日志 |
| `vala-user-chat-log` | 1,547 | 用户对话日志 |
| `llm_audio_denoise` | 0 | 音频降噪(空) |
### ⚙️ 系统/监控索引(内部使用)
- `.monitoring-es-7-*` / `.monitoring-kibana-7-*` — ES/Kibana 自身监控
- `.kibana_*` — Kibana 系统配置
- `.watches` / `.triggered_watches` — 告警监控
- `.security-7` — 安全配置
---
### 📌 总结
Online ES 总共有 **~58 个索引**,核心是**用户行为埋点**2,700 万条8GB和**各种 LLM/AI 交互日志**ASR 语音识别、TTS 语音合成、发音评估、角色扮演对话等),主要记录的是用户在 App 中的**学习行为**和**AI 引擎调用**的详细日志。
需要我深入查看某个具体索引的结构吗?
user: 我想看看user_behavior_buried_points的结构
assistant: 再看几条样例数据,更直观地了解内容:
assistant: 好的,以下是 `user_behavior_buried_points` 的完整结构:
---
## 📊 user_behavior_buried_points 结构
**数据量2,707 万条 / 8 GB**Online ES 最大的一条索引)
### 🏷️ 埋点标识
| 字段 | 类型 | 说明 |
|------|------|------|
| `buryingPointId` | long | 埋点大类 ID如 300=关卡内操作400=组件内操作) |
| `buryingPointName` | text | 埋点大类名称 |
| `buryingPointSubId` | long | 埋点子类 ID |
| `buryingPointSubName` | text | 埋点子类名称(如"点击下一句时"、"TimeAction触发组件时" |
### 👤 用户信息
| 字段 | 类型 | 说明 |
|------|------|------|
| `accountId` | long | 用户账号 ID关联 `bi_vala_app_account.id` |
| `accountName` | text | 账号名(手机号脱敏,如 `193****7248` |
| `characterId` | long | 角色 ID |
| `characterName` | text | 角色名(如 Sophia |
### ⏱️ 行为记录
| 字段 | 类型 | 说明 |
|------|------|------|
| `activeTime` | long | 行为时间戳(秒) |
| `action` | keyword | 行为动作 |
| `stepDuration` | long | 步骤耗时(秒) |
| `finishStatus` | text | 完成状态 |
| `versionId` | text | App 版本号 |
| `dataVersion` | keyword | 数据版本 |
### 📚 课程/关卡上下文
| 字段 | 类型 | 说明 |
|------|------|------|
| `seasonPackageId` | long | 季包 ID |
| `seasonPackageName` | text | 季包名(如"序章" |
| `unitId` | long | 单元 ID |
| `unitName` | text | 单元名(如"出发瓦拉" |
| `lessonId` | long | 课时 ID |
| `lessonName` | text | 课时名(如"空中劫持" |
### 🧩 组件/模块详情
| 字段 | 类型 | 说明 |
|------|------|------|
| `componentId` | long | 组件 ID |
| `componentName` | text | 组件名(如"告诉Otis现在的状况" |
| `cType` | text | 组件类型(如 `mid_grammar_cloze`、`mid_sentence_dialogue` |
| `cId` | text | 组件编号 |
| `learningModuleId` | long | 学习模块 ID |
| `learningModuleName` | text | 学习模块名 |
| `learningPointId` | long | 学习点 ID |
| `learningPointName` | text | 学习点名 |
| `cardId` | long | 卡片 ID |
| `cardName` | text | 卡片名(如 "Me" |
### 🔧 扩展字段
| 字段 | 类型 | 说明 |
|------|------|------|
| `ex2` ~ `ex6` | keyword | 预留扩展字段 |
| `num1` ~ `num3` | double | 预留数值扩展字段 |
| `location` | keyword | 位置信息 |
| `button` | keyword | 按钮标识 |
---
### 📌 一句话总结
这张表就是瓦拉 App 中**用户每一次操作行为的全量埋点日志**——谁accountId/characterId、在什么课程位置Season → Unit → Lesson → Component、做了什么操作buryingPointId/Sub、花了多少时间stepDuration、用的是什么版本versionId全部记录在内。
可以做用户行为路径分析、功能使用频率统计、各环节耗时分析等。需要我基于这个数据跑什么分析吗?