ai_member_xiaoban/memory/2026-06-25-1810.md
2026-06-26 08:00:01 +08:00

26 KiB
Raw Blame History

Session: 2026-06-25 18:10:56 GMT+8

  • Session Key: agent:xiaoban:feishu:direct:ou_b93fcdb5b87ae37919fae9f4473026c9
  • Session ID: d67c0079-fad2-4a0b-9a74-22396fef67b1
  • Source: feishu

Conversation Summary

assistant: 好的,请发过来,我准备好了。 user: [message_id: om_x100b6cfdf3adc488c455d69bdae7ac3] 李应瑛: https://makee-interactive.feishu.cn/wiki/PzcVw5isNif2cLk38XHc4aBOnEh?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/O6OzwCURyiadaWku4prcRbmLn78?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/IXVIwMkBtiWoPlkcIgKcPAw8n2c?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/JXwmwoHpJisyQWkT3OucDH91nef?from=from_copylinkhttps://makee-interactive.feishu.cn/docx/Pn5nd9JlQoYoClx7KQmcVExEnMb?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/IstxwTF3miHpQEkyG2Jcx3winlh?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/BUj6wdHagiSlj3kSxGBcCEOfnmd?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/PqAVwwn3xi23A9k6PWFcYhKznfg?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/Sx1PwWj9liFvs0kEmJOcHypPnAg?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/VU2QwVZTsik3thk70dRc309Ennb?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/VXO2wWKHQi25vWkkrjTcUc7Cn1W?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/EZrMw8zliibtH3kCTgDcpD34n8d?from=from_copylinkhttps://makee-interactive.feishu.cn/docx/JVPIdu1OOoK285xk1p6cGpgPnXf?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/Nc18wsvvIil4YFkVvYIcRs1in6e?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/DBtZwQhbWiMrIBk6BXeciRchnVh?from=from_copylink请留意每份文件的修改时间。 assistant: 收到 15 份文档。我先批量获取节点信息,再逐一读取。注意:第 5 和第 13 份是 /docx/ 路径(个人文档),我先尝试,如果无法访问会告知你。

assistant: 现在批量读取 13 份 Wiki 文档2 份 /docx/ 路径跳过)。按修改时间排序,从最早到最新:

assistant: 15 份文档已全部读完2 份 /docx/ 个人文档路径不在我的权限范围内,已跳过)。以下是综合归纳。


学习效果:从定义到感知的完整理解

一、学习效果的定义演变

团队对"学习效果"的思考经历了三个阶段,从模糊到清晰:

阶段 时间 核心定义 代表文档
探索期 2023-2024 "无提示表达" → "自主完成对话" 学习效果与学习报告
成型期 2024-2025 "用得上" = 场景问题 × 语言知识 × 运用能力 学习效果定义 v4.0
成熟期 2025-2026 "有意义的学习行为的重复" + "提分" Vala产品逻辑思考、关于学习效果的思考

当前共识可归纳为 四层效果模型

动力层(愿不愿意学)→ 习得层(学没学会)→ 应用层(用不用得上)→ 迁移层(考不考得出)

二、团队内部的核心张力

这些文档中存在几组明显的观点碰撞,不是"谁对谁错",而是不同视角的互补:

张力 1趣味 vs 提分

  • 早期2024.01 "在喜欢但没效果 vs 有效果但不想玩之间,选前者"
  • 后期2026.06 Kingson "我们是系统课,就是提分。谁对提分没信心就来找我聊"

实质不是对立,是先后顺序。 趣味是入口,提分是出口。没有趣味孩子根本不用,提分无从谈起;没有提分家长不买单,产品无法持续。两者是"先活下来再活得好"的关系。

张力 2主线剧情是"检测"还是"学习"

  • Vala产品定义2025.06 主线剧情核心作用是"检测"——暴露学生问题,真正的掌握在回顾/总结/挑战中完成
  • 教研方法论: 主线剧情同时承担"以练代学"的可理解性输入

实质是分工问题。 主线剧情 = 情境导入 + 问题暴露 + 初步输入;关卡外 = 针对性练习 + 巩固掌握。两者不是非此即彼,是"发现问题"和"解决问题"的分工。

张力 3自由表达 vs 标准化评估

  • 核心互动希望用户自由表达("想怎么说就怎么说"
  • 但自由表达导致 Oops 率高L1 看图说话 Oops 率 30%),学习报告不好看

这是产品设计层面的真实矛盾。 文档中已有方案雏形分级提示A2 给子任务、B1 不给、分层通过规则Perfect/Good/Pass 三档对外、五档对内)。

张力 4情境课 vs 系统课

  • 产品 DNA 是"情境教学法"CBL
  • Kingson 坚持对外定位是"系统课"= 主菜,不是辅菜)

这不是矛盾,是内外有别。 情境是"怎么做"how系统课是"是什么"what。对家长说"我们是系统课"建立品类认知,用"情境学习法"解释为什么比别人好。


三、我对学习效果的归纳理解

综合所有文档Vala 的学习效果可以表述为:

让孩子在真实情境中,通过高频互动和有意义重复,从"被提示说"到"自主说"再到"自主说得好",最终转化为可验证的考试成绩提升。

拆开来看是四个递进:

  1. 学得进去(动力):剧情牵引 + 高频互动每40秒一次+ 自由+意外+难度适中+个性化反馈 → 孩子主动参与、动脑思考
  2. 学得会(习得):先输入后输出 → 支架辅助 → 提示递减 → 自主表达。中互动打基础(单词/句型),核心互动练综合应用
  3. 用得上(应用):场景问题越来越多、语言知识越来越丰富、提示次数越来越少。从生活具象问题到专业抽象问题逐步覆盖
  4. 考得出(迁移):知识体系对齐 KET + 新课标,主题覆盖主流教材,重难点反复练(一个知识点 5 遍以上),错题自动收集+专题专练

四、如何让用户/家长感知学习效果

文档中对此有大量讨论,按时间维度整理:

短期感知1天-2周让家长"看到孩子在学"

感知点 怎么说 怎么证明
高频互动 "每40秒一次互动超过一对一课" 数据对比双师大班10分钟/次小班5分钟/次
学进去了 "孩子是故事主角,每次都在动脑子" 互动不是机械点击,是听辨+理解+记忆的综合
学习闭环 "学-练-固-测-补一个知识点学5遍" 展示一个知识点从情境导入→互动练习→回顾巩固→挑战检测→错题补救的完整路径
量化数据 "今天学了X个单词、Y个句型、自主对话Z次" 学习报告互动次数、耗时、Perfect率、Oops率

核心洞察(来自 Kingson 的学而思经验): 家长看短期效果,本质是判断"孩子学进去了没有"。老师、互动、服务三个维度都是为这个判断服务的。我们没有真人老师,但我们的互动频次碾压真人课堂——这是必须打透的点。

中期感知1-2个月让家长"感受到变化"

感知点 怎么说 怎么证明
兴趣持续 "孩子用了两个月还主动要学" 连续学习天数、主动打开率
偶发惊喜 "孩子突然在家说英语了" 收集用户证言、"高光时刻"自动录制推送家长
进步轨迹 "三个月前只会X现在能Y了" 学习报告趋势图自主对话率提升、Oops率下降

关键: 中期效果靠"偶发惊喜"和"持续兴趣"双驱动。偶发惊喜需要产品机制来制造(如自动生成孩子配音小视频推给家长),而不是等家长自己发现。

长期感知3个月+):让家长"相信能提分"

感知点 怎么说 怎么证明
懂学校 "你孩子在学X教材第Y单元我们这关正好覆盖" 6个主流版本教材逐单元对照表
懂考试 "here和there的区别连续10年是丢分Top10我们设计了5遍" 具体知识点在考试中的错误率 + 我们的教学处理
内容对齐 "L1学980个单词覆盖新课标505词 + YLE Mover 700词" 词汇量对照、主题对照
改革一致 "新课标要求情境化教学,我们就是为此设计的" 新课标中"情境"出现次数语文50次、数学173次、英语46次
真实案例 "XX小朋友用了半年KET卓越" 用户证言 + 成绩单

核心洞察(来自 Kingson 长期效果是售卖/塑品重点。如果用户/达人不相信长期效果,就不会下单,无从体会短期效果。长期效果靠两句话打透:"我懂你们学校怎么教的" + "我懂考试怎么考的"


五、当前最关键的 Gap

从文档中能清晰看到,团队已经想得很深,但有几个关键缺口:

  1. 短期和长期之间的桥梁缺失。 40秒一次互动 → 提分,这个逻辑链对家长来说太长了。需要一个中间概念来连接,比如"每关掌握3个单词+1个句型一年就是1440个单词+960个句型"。

  2. "效果不可见"是退费第一原因。 课程效果维度研究文档明确指出60%+退费用户反馈"看不到效果",但实际掌握度比用户感知高 20-30%。这是产品外化的问题,不是效果本身的问题。

  3. 用户证言严重不足。 多份文档都提到需要用户证言但当前缺失。竞品(可汗、多邻国)都有 RCT 研究背书Vala 目前只有内部数据。

  4. L2 产品健康度堪忧。 快慢用户耗时差 38.5 分钟、核心互动分层正确率差 41.5%、全链路转化率仅 27.53%——这些问题不解决,长期效果交付会打折扣。


总结一句话:Vala 的学习效果在设计和理论层面已经非常扎实,当前的核心挑战不是"有没有效果",而是"如何让家长在买单前就相信有效果,在买单后持续看到效果"。 user: [message_id: om_x100b6cfe417034ecc3718d39df69255] 李应瑛: 好。接下来我们还需要解决两个问题:张力 3自由表达 vs 标准化评估 - 核心互动希望用户自由表达("想怎么说就怎么说" - 但自由表达导致 Oops 率高L1 看图说话 Oops 率 30%),学习报告不好看

这是产品设计层面的真实矛盾。 文档中已有方案雏形分级提示A2 给子任务、B1 不给、分层通过规则Perfect/Good/Pass 三档对外、五档对内)。这一点应该怎么处理? assistant: 这是一个很关键的产品设计问题。让我从根上拆解。


自由表达 vs 标准化评估:系统性处理方案

先理清矛盾的本质

核心互动的 Oops 率高,不是"用户不会",而是评估标准与互动目标错配

核心互动的设计目标:检测真实能力 → 暴露问题 → 驱动后续针对性练习
当前评估方式:       对/错二元判断 → 自由表达天然"错"多 → Oops 率高

问题出在:用"考试"的尺子量"诊断"的结果。诊断发现问题是好事,但报告里显示一堆 Oops 就像在说"你孩子不行"。


处理方案:三层解耦

第一层:输入端 — 分级提示,降低"不必要的 Oops"

不是所有 Oops 都有价值。用户因为"不知道要说什么"而卡住,和"知道要说什么但英语表达不准确"而卡住,是两种完全不同的问题。前者是任务设计问题,后者才是学习诊断价值。

分级方案:

级别 任务描述 子任务提示 适用场景
A2 给(如"介绍外观→介绍功能" 降低理解门槛,聚焦语言输出
B1 不给 检测思路组织+语言输出
B2+ 不给 不给 完全自主,检测综合能力

关键原则: 同一任务可以有多级配置。U0-L1 的"记者采访自我介绍"对初学者给子任务("说名字→说去向→说准备好了"),对进阶用户不给。

这样A2 用户的 Oops 更多来自"语言能力不足"(有价值的诊断),而非"不知道要干啥"(无价值的噪音)。


第二层:评估端 — 从二元判断到多维评估

核心互动不应该只有一个"对/错"。自由表达的价值恰恰在于:用户说的可能不标准,但能完成任务。

改为四维评估:

任务完成度用户是否完成了场景目标0-5分
语言准确度语法、用词是否正确0-5分
语言丰富度:是否用了目标词汇/句型0-5分
自主程度:  用了多少提示0-5分

综合判定规则:

对外等级 对内等级 判定条件
Perfect 无提示首通 四维均≥4无提示
Perfect 有提示首通 四维均≥4有提示但自主程度≥3
Good 无提示通过 任务完成度≥3其他有短板
Good 有提示通过 任务完成度≥3用了提示
Pass 降级通过 多次尝试后完成,或用了直接答案
失败再试 未完成但愿意再试
失败跳过 连续失败后跳过

对外只展示三档Perfect / Good / Pass对内保留五档用于数据分析。

这样,用户说 "I go Vala" 而不是 "I am going to Vala"——任务完成度 4 分(对方听懂了),语言准确度 2 分(语法错误),语言丰富度 2 分(没用目标句型),自主程度 5 分(完全自主)。综合判定:Good

不会因为语法不完美就被判 Oops但系统内部记录了"语法需要加强",后续回顾会针对性练习 "I am going to"。


第三层:展示端 — 把"问题"转化为"进步空间"

这是最关键的一层。学习报告不能展示原始 Oops 率,需要语义转化。

当前(有问题):

核心互动 Oops 率30% → 家长理解:我孩子 30% 的内容没学会

改为(转化后):

本次自主表达 5 次,其中 3 次完美达成2 次发现了提升空间 已为你生成了 2 个针对性练习语法I am going to、词汇clothes 用法) → 家长理解:产品发现了我孩子的薄弱点,并且已经在补了

学习报告的核心叙事逻辑应该是:

"孩子今天在X个真实场景中用英语完成了任务
  → 其中Y个完成得很棒
  → Z个发现了提升空间
  → 我们已经针对性安排了练习"

而不是:

"孩子今天错了X次"

核心互动的定位需要重新明确

文档中 Vala 产品逻辑已经说得很清楚:

主线剧情核心作用是「检测」——发现并判断学生的卡点/问题 真正的「掌握和运用」在回顾/总结/挑战中完成

但这个定位目前没有体现在评估和展示上。核心互动用了"考试"的评估方式(对/错),但承担的是"诊断"的功能。

需要对齐的认知:

核心互动(主线) 单元挑战
功能 诊断:暴露问题 考试:验证掌握
评估方式 多维度(完成度+准确度+丰富度+自主度) 标准化(对/错,模仿 KET
对外展示 进步空间 + 已安排练习 得分 + 等级
高错误率意味着 检测有效,发现了很多可提升的点 掌握不足

这样家长看到的是完整闭环:

  1. 核心互动发现了问题 →
  2. 回顾/总结针对性练习 →
  3. 挑战验证掌握程度 →
  4. 错题本持续巩固

每一步都有明确的"效果证据",而不是孤立的 Oops 数字。


总结:三个关键决策

  1. 核心互动不再用"对/错"评估,改为四维打分 + 三档对外展示Perfect/Good/Pass。让"不完美但能完成任务"的表达得到合理评价。

  2. 学习报告不再展示 Oops 率,改为"发现 X 个提升空间 → 已安排 Y 个针对性练习"的叙事。把"问题"转化为"产品的主动服务"。

  3. 核心互动明确定位为"诊断"而非"考试",高错误率不是产品问题而是诊断有效的证明。真正的"考试"在单元挑战,那里才是家长应该关注的分数。

这三件事如果落地,自由表达和标准化评估的矛盾就从"非此即彼"变成了"各司其职"——核心互动负责发现问题(自由表达),挑战负责验证结果(标准化评估),中间的回顾/总结负责解决问题。 user: [message_id: om_x100b6cfec6c704b8c23bf277e1462ec] 李应瑛: 类比演出是探索推进奖励中互动是小怪战小练一下、核心互动是BOSS战考验孩子的能力 现在的关键是“孩子通过了核心互动,是不是真的全靠自己的能力”,这点和传统游戏不同。这个理解你觉得对吗?学习过程和游戏过程有什么不同呢 assistant: 这个类比非常精准,而且你点出的那个矛盾正是问题的核心。让我展开分析。


游戏 BOSS 战 vs 学习核心互动:本质差异

你的类比是对的,但需要补一个关键差异

游戏:小怪战(练操作)→ BOSS战验证操作→ 打不过 = 回去再练
学习:中互动(练单词/句型)→ 核心互动(综合应用)→ 卡住了 = 给提示帮过,记下来回头再练

游戏 BOSS 战的逻辑是"验证" 你之前练了就是练了没练就是没练。BOSS 是一道闸门,打不过就过不去。通过了就是真通过了。

学习核心互动的逻辑是"诊断" 你卡住了不意味着你永远不行,只是意味着这个知识点需要更多练习。核心互动不是闸门,是体检。

这就是你说的"孩子通过了核心互动,是不是真的全靠自己的能力"——在游戏里,答案是"是";在学习里,答案应该是"不一定,而且不一定需要是"。


学习过程和游戏过程的三层本质不同

不同 1失败的价值完全相反

游戏 学习
失败的含义 你不够强,回去练 你还没掌握,换个方式再学
失败的情绪 挫败感(但可接受,因为能重来) 挫败感(且不可接受,因为意味着"我笨"
失败后的行为 玩家主动回去刷怪 需要系统引导,否则容易放弃
设计目标 适度的失败让胜利更甜 失败是数据,不是体验目标

关键推论: 游戏可以设计"你必须死三次才能找到 BOSS 的弱点",学习不能设计"你必须错三次才能学会这个单词"。因为学习的失败承载了"我是不是不行"的自我评价,而游戏的失败承载的是"这关好难,但我能过"的挑战感。

不同 2通过 ≠ 掌握

这是你问题的核心。

游戏 BOSS 战通过 = 你在这次战斗中确实做到了
学习核心互动通过 = 你完成了任务,但不一定掌握了目标知识

为什么?因为学习中有太多"非知识因素"可以帮助通过:

  • 情境线索: 用户不是真的听懂了英语,而是看画面猜到了要做什么
  • 提示辅助: 用了中文提示、子任务拆解、NPC 引导
  • 排除法: 选择题可以猜,对话可以蒙
  • 短期记忆: 刚在中互动里练过5 分钟后还能记住,但明天就忘了

这恰恰是 Vala 产品设计已经意识到的—— 文档中明确说:"主线剧情核心作用是检测,真正的掌握在回顾/总结/挑战中完成。"

但当前的问题是:产品体验上,核心互动通过的那一刻,给用户的感受是"我赢了 BOSS",而不是"我完成了一次体检"。

不同 3重复的意义不同

游戏 学习
重复的内容 同一场 BOSS 战反复打 同一个知识点在不同情境中反复出现
重复的体验 越来越熟练,直到碾压 间隔重复,对抗遗忘曲线
重复的驱动力 我想赢 我需要被安排

关键推论: 游戏里玩家会主动反复刷 BOSS学习里用户不会主动反复练同一个知识点。所以学习的重复必须被"包装"——不能是"请再练一遍 clothes",而是"在新的故事里,你又遇到了 clothes"。


回到核心问题:怎么判断"真的靠自己"

你的直觉是对的——不能简单用"通过了"来等同于"掌握了"。需要一个更细粒度的判断框架:

核心互动通过 ≠ 掌握
核心互动通过 + 无提示 + 无重试 + 使用了目标语言 = 大概率掌握
核心互动通过 + 有提示 + 重试了 + 回避了目标语言 = 需要观察

具体判断维度:

信号 说明
是否使用了目标词汇/句型 用了 "I am going to Vala" 还是只说 "I go Vala"?后者虽然能完成任务,但说明目标句型未掌握
是否需要提示 无提示自主完成 vs 看了中文提示才说出来
是否重试 一次过 vs 试了两次才过
回应是否匹配任务 任务要求"自我介绍",用户确实做了自我介绍,还是偏离了?

然后,真正的"验证"不在核心互动,在后续环节:

  • 回顾中的同一知识点:如果用户在中互动里 Perfect在核心互动里也用了目标句型但在回顾里又错了 → 说明核心互动的"通过"有情境线索依赖,不是真掌握
  • 挑战中的间隔测试Unit 挑战是 5 个 Lesson 之后的综合测试,中间隔了时间。如果挑战中正确 → 真掌握
  • 跨 Unit 复用Unit 2 的句型在 Unit 5 的情境中再次出现,用户能否自主使用?

所以,怎么处理这个矛盾?

核心原则:把"通过"和"掌握"解耦,在产品和数据两个层面分别处理。

产品体验层:让用户感受到"我在成长",而不是"我通过了"

当前:核心互动结束 → "Perfect!" → 用户觉得"我赢了"
改为:核心互动结束 → "你完成了自我介绍!发现了 1 个可以更强的地方" → 用户觉得"我知道下一步练什么"

具体做法:

  • 核心互动通过后,不展示"对/错",展示"你做到了什么 + 发现了什么"
  • 把"诊断结果"转化为"成长建议""你用了 I am ready很棒下次试试用 I am going to 说出你的目的地"
  • BOSS 战的"胜利感"保留(剧情推进、奖励),但增加"体检报告"的认知

数据层:用"掌握度"替代"通过率"

不看的指标:核心互动通过率(容易造假,因为有提示和情境线索)
要看的指标:
  - 目标词汇/句型在核心互动中的实际使用率
  - 核心互动自主完成率(无提示 + 使用了目标语言)
  - 回顾中同一知识点的正确率(去情境化验证)
  - 挑战中间隔测试的正确率(去短期记忆验证)

叙事层:对家长讲清楚"诊断 → 练习 → 验证"的闭环

"核心互动不是考试,是实战演练。
 孩子在真实场景中用英语完成任务,
 我们发现他哪里还不够熟练,
 然后在回顾和挑战中针对性地帮他练到真正掌握。"

一句话总结

游戏 BOSS 战是终点(打过了就过了),学习核心互动是中转站(完成了任务,但真正的掌握验证在后面)。 产品设计上需要让这个逻辑对用户可见——不是隐藏"你没掌握",而是展示"我们发现了一个你可以变得更强的地方,并且已经在帮你练了"。 user: [message_id: om_x100b6cf8018f3490c3651c3a70d791a] 李应瑛: 0213041的所有用户Ooops率excel发给我 assistant: Now let me compute the Oops rates and generate the Excel file.

assistant: Excel 已生成,现在发送给你。

assistant: Excel 已发送。快速汇总:

组件 mid_sentence_material-0213041 Oops 率数据:

指标 数值
总用户数 230
总尝试次数 255
Perfect 93 次36.47%
Pass 145 次56.86%
Failed 16 次6.27%
None 1 次0.39%
整体 Oops 率 6.27%

这是一个中互动组件(mid_sentence_materialOops 率 6.27%,远低于核心互动的 7.68%L1属于健康范围。Excel 里有两个 sheet——"用户明细"列出了每个用户的详细数据,"汇总统计"是整体指标。 user: [message_id: om_x100b6cfb9af340acc4354e570949b5c] 李应瑛: 统计互动库,按照中互动总数排列,给出排名前十的中互动 assistant: 数据出来了。按中互动总尝试次数排列,前十名:


中互动排名 Top 10按总尝试次数

排名 组件 ID 类型 总次数 Perfect Pass Failed+Oops Oops率
1 mid_dialog_repeat-1000102 对话朗读 19,505 14,723 1,206 3,576 18.33%
2 mid_dialog_repeat-1000103 对话朗读 16,930 13,771 1,047 2,112 12.47%
3 mid_vocab_item-0000001 词汇物品 15,832 13,786 1,687 359 2.27%
4 mid_dialog_fillin-1000104 对话挖空 15,209 14,079 341 789 5.19%
5 mid_sentence_dialogue-0000091 句型对话 14,440 8,895 2,318 3,227 22.35%
6 mid_dialog_repeat-1000106 对话朗读 13,618 10,678 1,550 1,390 10.21%
7 mid_sentence_dialogue-0000002 句型对话 13,200 8,673 2,547 1,980 15.00%
8 mid_dialog_repeat-1000107 对话朗读 12,913 10,727 1,557 629 4.87%
9 mid_sentence_dialogue-0000003 句型对话 12,459 5,840 4,580 2,039 16.37%
10 mid_vocab_image-0000025 图片词汇 12,459 11,562 364 533 4.28%

几个值得关注的点:

  1. 句型对话sentence_dialogue是 Oops 重灾区。 第 5 名 22.35%、第 9 名 16.37%、第 7 名 15.00%,全部超过 15% 阈值。这类组件要求用户在情境中组织完整句子,难度天然高于单词类。

  2. 对话朗读dialog_repeat分化明显。 第 1 名 18.33% 偏高,但第 8 名仅 4.87%。差异可能来自语音识别准确度或句子复杂度——需要具体看 1000102 和 1000107 分别对应什么内容。

  3. 词汇类vocab_item / vocab_image最稳。 Oops 率 2.27% 和 4.28%,说明单词层面的互动设计成熟。

  4. 对话挖空dialog_fillin表现好。 5.19%,有支架辅助的填空比完全自由组织句子容易得多。

需要我把这份数据也导出 Excel 吗?或者针对某几个高 Oops 率的组件深入分析?