12月10日消息,麻省理工学院携手Empirical Health的研究人员共同开展了一项新研究,他们借助300万“人-天”的Apple Watch数据构建出一种基础模型,该模型可以极高的准确性对多种健康状况进行预测。
背景介绍
在Yann LeCun担任Meta首席人工智能科学家期间,他提出了“联合嵌入预测架构”(Joint-Embedding Predictive Architecture,简称JEPA)。这一架构的核心思路是:促使人工智能系统去推断缺失数据所蕴含的意义,而不是直接对缺失数据本身进行重建。
换言之,当面对数据中的空缺时,模型学习的是如何从上下文推断缺失部分的语义表征,而不是试图猜测其精确数值。
例如,在处理图像时,若某些区域被遮蔽而其他区域可见,JEPA 会将可见区域与被遮蔽区域共同映射到一个共享的嵌入空间(即“联合嵌入”),并基于可见部分推断被遮蔽区域的表征,而非还原其原始像素内容。
2023 年,Meta 发布名为 I-JEPA 的模型时曾这样描述这一理念:
去年,Meta 首席 AI 科学家 Yann LeCun 提出了一种全新架构,旨在克服当前最先进 AI 系统的关键局限。他的愿景是构建能够学习‘世界内部模型’的机器,使其能更快地学习、规划复杂任务,并迅速适应陌生情境。
据IT之家了解,自从LeCun最初提出JEPA之后,这一架构就成了“世界模型”研究领域的基础。这意味着AI研究的范式正在从大型语言模型(LLM)和GPT类系统所依托的“词元预测”,朝着更强调对环境动态进行建模的方向转变。
事实上,LeCun 近期已离开 Meta,创立了一家专注于“世界模型”的公司。他认为,这才是通往通用人工智能(AGI)的真正路径。
回归本项研究:300 万人-天的 Apple Watch 数据
回到当前这项研究。几个月前发表的论文《JETS:面向医疗健康行为数据的自监督联合嵌入时间序列基础模型》(JETS: A Self-Supervised Joint Embedding Time Series Foundation Model for Behavioral Data in Healthcare),近日已被NeurIPS会议的一个研讨会接收。
该研究将 JEPA 的联合嵌入方法适配于不规则的多变量时间序列数据,例如来自可穿戴设备的长期健康数据,其中心率、睡眠、活动量等指标在时间上呈现不连续性或存在大量缺失。
研究团队所采用的纵向数据集,收录了16522名参与者通过可穿戴设备生成的记录,整体数据规模达到约300万人-天。对于每一位参与者,研究人员以每日(或是更低的频率)为单位,记录下63项不同的时间序列指标,这些指标覆盖了心血管健康、呼吸健康、睡眠状况、身体活动情况以及一般统计信息这五大生理与行为领域。
值得注意的是,仅有15%的参与者具备可供评估的标注医疗史,这表明在传统监督学习体系中,多达85%的数据会被认定为无效。而JETS模型的做法是,先在完整数据集上借助自监督预训练展开学习,之后仅针对带标签的子集进行微调。
为实现这一目标,研究人员将每条观测数据构造成“三元组”(日期、数值、指标类型),从而将每个观测值转化为一个“token”。这些 token 随后经过掩码处理、编码,并输入预测器,用以预测被掩码片段的嵌入表示。
完成训练后,研究人员把JETS和多个基线模型(其中包含基于Transformer架构的早期JETS版本)开展对比,并运用AUROC(受试者工作特征曲线下面积)与AUPRC(精确率-召回率曲线下面积)这两项标准指标,来评价模型在辨别阳性和阴性病例时的表现。
结果表明,JETS 在多种疾病的预测方面表现出色:高血压预测的 AUROC 为 86.8%,房扑(atrial flutter)为 70.5%,慢性疲劳综合征为 81%,病态窦房结综合征(sick sinus syndrome)同样达到 86.8%。虽然它并非在所有任务里都能领先,但优势是很明显的。
需要强调的是,AUROC 和 AUPRC 并非严格意义上的“准确率”指标,而是衡量模型对潜在病例进行排序或优先级判断能力的指标。
总结
总体来说,这项研究构建了一套颇具潜力的方案,可从常被认为“不完整”或“不规则”的健康数据里挖掘出最大价值,即便在部分指标仅在0.4%的时段有记录、其他指标却出现在99%日常读数的极度不均衡场景中,该方案依旧能够发挥作用。
此外,该研究进一步印证了一个重要观点:即使 Apple Watch 等日常可穿戴设备并非全天候佩戴,其已收集的海量数据仍蕴含巨大潜力,通过新型模型架构与训练策略,有望释放其在疾病早期预警和健康管理中的生命拯救价值。
【:IT之家】
生存的区域
类型:动作射击
查看