ai_member_only/ai_member_xiaoxi

Fork 0

小溪 beb66620a4 🤖 每日自动备份 - 2026-05-23 08:00:01

2026-05-23 08:00:01 +08:00

7.0 KiB

Raw Permalink Blame History

Session: 2026-05-22 15:18:29 GMT+8

Session Key: agent:main:feishu:direct:ou_e63ce6b760ad39382852472f28fbe2a2
Session ID: 3a4b1f73-c319-4473-989d-55043f21e6bb
Source: feishu

Conversation Summary

user: 跟我说一下你接入的数据库有哪些 assistant: 承龙你好！

我目前接入了 6 个数据库，按用途分为两类：

📦 业务数据（MySQL）

数据库	用途	访问权限
Online MySQL (线上版本)	线上发布版本的配置数据、用户订单/用户信息等	只读
Test MySQL (测试环境)	最新版本配置数据、内部开发用户数据	只读

📊 用户行为数据（PostgreSQL `vala_bi` 库）

数据库	用途	访问权限
Online PostgreSQL (正式环境)	正式环境的用户行为数据、订单表、账户表、课程明细等核心 BI 数据	只读
Test PostgreSQL (测试环境)	测试环境的行为数据	只读

📝 服务日志（Elasticsearch）

数据库	用途	访问权限
Online ES (正式环境)	正式环境的服务日志	只读
Test ES (测试环境)	测试环境的服务日志	只读

⚠️ 所有数据库均为只读权限，不会进行写入或删除操作。

核心的业务分析数据（订单、用户、课程、学习行为等）主要存放在 Online PostgreSQL vala_bi 库中。需要查什么数据随时说~ user: 读取一下online es，跟我说说里面都有什么 assistant: 好的，我来连接 Online ES 查看一下都有哪些索引和数据。 assistant: 认证失败，让我确认下密码变量名。 assistant: 数据拿到了，我来整理一下。Online ES 里主要有以下几类索引：

📊 Online ES 索引总览

🎯 核心业务索引（重点关注）

索引名	文档数	存储大小	说明
`user_behavior_buried_points`	2,707万	8 GB	🔥 用户行为埋点，最大索引
`user-audio`	403万	2.4 GB	用户音频数据
`llm_pron_eval`	155万	1.3 GB	发音评估
`llm_api_stat`	535万	968 MB	LLM API 调用统计
`llm_asr_log`	225万	1.4 GB	语音识别（ASR）日志
`llm_tts_log`	230万	1.4 GB	文字转语音（TTS）日志
`llm_roleplayagent_round_log`	138万	5.5 GB	角色扮演对话轮次日志
`llm_realtime_asr_log`	108万	471 MB	实时语音识别日志

🗣️ 口语/对话相关

索引名	文档数	说明
`llm_image_speaking`	39.7万	看图说话
`llm_api_error_based_correction`	5.3万	基于错误的纠错API
`llm_ai_tools_log`	27.4万	AI 工具调用日志
`llm_core_speaking_monologue`	374	核心口语独白
`llm_scene_chat_log`	55	场景对话日志
`pronunciation_eval_logs`	4	发音评估日志

📈 其他业务索引

索引名	文档数	说明
`growth_activity_behavior`	3.5万	增长活动行为
`word_sentence_learn_data`	439	单词句子学习数据
`llm_api_writing`	7,920	API 写作日志
`llm_instruction_control_log`	3,298	指令控制日志
`vala-user-chat-log`	1,547	用户对话日志
`llm_audio_denoise`	0	音频降噪（空）

⚙️ 系统/监控索引（内部使用）

.monitoring-es-7-* / .monitoring-kibana-7-* — ES/Kibana 自身监控
.kibana_* — Kibana 系统配置
.watches / .triggered_watches — 告警监控
.security-7 — 安全配置

📌 总结

Online ES 总共有 ~58 个索引，核心是用户行为埋点（2,700 万条，8GB）和各种 LLM/AI 交互日志（ASR 语音识别、TTS 语音合成、发音评估、角色扮演对话等），主要记录的是用户在 App 中的学习行为和AI 引擎调用的详细日志。

需要我深入查看某个具体索引的结构吗？ user: 我想看看user_behavior_buried_points的结构 assistant: 再看几条样例数据，更直观地了解内容： assistant: 好的，以下是 user_behavior_buried_points 的完整结构：

📊 user_behavior_buried_points 结构

数据量：2,707 万条 / 8 GB（Online ES 最大的一条索引）

🏷️ 埋点标识

字段	类型	说明
`buryingPointId`	long	埋点大类 ID（如 300=关卡内操作，400=组件内操作）
`buryingPointName`	text	埋点大类名称
`buryingPointSubId`	long	埋点子类 ID
`buryingPointSubName`	text	埋点子类名称（如"点击下一句时"、"TimeAction触发组件时"）

👤 用户信息

字段	类型	说明
`accountId`	long	用户账号 ID（关联 `bi_vala_app_account.id`）
`accountName`	text	账号名（手机号脱敏，如 `193****7248`）
`characterId`	long	角色 ID
`characterName`	text	角色名（如 Sophia）

⏱️ 行为记录

字段	类型	说明
`activeTime`	long	行为时间戳（秒）
`action`	keyword	行为动作
`stepDuration`	long	步骤耗时（秒）
`finishStatus`	text	完成状态
`versionId`	text	App 版本号
`dataVersion`	keyword	数据版本

📚 课程/关卡上下文

字段	类型	说明
`seasonPackageId`	long	季包 ID
`seasonPackageName`	text	季包名（如"序章"）
`unitId`	long	单元 ID
`unitName`	text	单元名（如"出发瓦拉"）
`lessonId`	long	课时 ID
`lessonName`	text	课时名（如"空中劫持"）

🧩 组件/模块详情

字段	类型	说明
`componentId`	long	组件 ID
`componentName`	text	组件名（如"告诉Otis现在的状况"）
`cType`	text	组件类型（如 `mid_grammar_cloze`、`mid_sentence_dialogue`）
`cId`	text	组件编号
`learningModuleId`	long	学习模块 ID
`learningModuleName`	text	学习模块名
`learningPointId`	long	学习点 ID
`learningPointName`	text	学习点名
`cardId`	long	卡片 ID
`cardName`	text	卡片名（如 "Me"）

🔧 扩展字段

字段	类型	说明
`ex2` ~ `ex6`	keyword	预留扩展字段
`num1` ~ `num3`	double	预留数值扩展字段
`location`	keyword	位置信息
`button`	keyword	按钮标识

📌 一句话总结

这张表就是瓦拉 App 中用户每一次操作行为的全量埋点日志——谁（accountId/characterId）、在什么课程位置（Season → Unit → Lesson → Component）、做了什么操作（buryingPointId/Sub）、花了多少时间（stepDuration）、用的是什么版本（versionId），全部记录在内。

可以做用户行为路径分析、功能使用频率统计、各环节耗时分析等。需要我基于这个数据跑什么分析吗？

7.0 KiB Raw Permalink Blame History Unescape Escape