AI时代还用德尔菲法?其实“少数人”远比“多数人”更有价值 |谷歌最新

AITNT
正文
资源拓展
AI时代还用德尔菲法?其实“少数人”远比“多数人”更有价值 |谷歌最新
2025-08-19 10:47

每当需要处理复杂领域中高度不确定性或缺乏历史数据的问题时,纯粹的科学证据不足、存在矛盾或过于复杂,通常我们就需要依赖专家们的集体智慧来形成共识,指导实践。德尔菲法(Delphi method)是半个多世纪以来最常用的一种专家共识方法。它的特点是匿名输入、多轮反馈和统计汇总,旨在减少权威偏见,让观点得以修正和趋同,最早由兰德公司在1950年代为美国空军开发,用于预测苏联若发生核打击的可能情景,后来广泛应用于技术评估、医疗、企业战略等需要处理高度不确定性或缺乏历史数据的复杂领域。


AI时代还用德尔菲法?其实“少数人”远比“多数人”更有价值 |谷歌最新


传统专家共识的困境


但尽管德尔菲法非常经典,但它也存在一些问题


  • 高负担和高流失率:组织和管理大型专家小组(有时超过100人)非常耗时耗力 。专家们通常很忙,多轮调查的参与度难以维持,有些研究的专家流失率甚至超过90% 。


  • 简化和“平均化”倾向:为了追求数字上的一致(比如70%的人同意),最终的共识往往会抹去很多重要的细节、条件和情境差异,变成一种“最小公分母”式的通用陈述,牺牲了专家判断中最宝贵的细微差别 。


  • 缺乏透明度和可重复性:协调人如何综合大量的定性意见,这个过程可能引入偏见,并且由于标准不一,不同研究之间的结果也难以比较 。


HAH-Delphi登场


面对这种困境,研究者们设计了一套全新的玩法,叫“Human-AI Hybrid Delphi Model”(人机混合德尔菲模型, 简称HAH-Delphi),它的核心就是“人机协同”。这个框架由三个关键部分组成,分工明确,就像一个高效的作战小队。


AI时代还用德尔菲法?其实“少数人”远比“多数人”更有价值 |谷歌最新


  • 生成式AI(论文中使用Gemini 2.5 Pro):扮演“信息分析师”的角色,负责快速消化海量文献,为讨论提供客观的、基于证据的起点。


  • 小型资深专家组(Small Senior Panels):人数不多(研究中仅6人),但都是领域内的顶尖高手,他们是真正的“智慧核心”,负责深度解读和情境判断。


  • 专业的协调人(Structured Facilitation):他是一位懂行的人类专家,是整个流程的“指挥官”,负责引导讨论、澄清模糊观点,并确保AI和人类的互动顺畅。


AI的双重身份:是“工具人”还是“专家”?


那么,AI在这里到底算什么角色?这一点特别有意思,AI的身份是双重的。一方面,它是协调人的强大工具,在研究前期帮助协调人梳理文献、设计问卷,干的是“体力活”;另一方面,在正式讨论中,它又是一名特殊的、独立的“专家”,会像人类专家一样对问题给出自己的评分和理由,但它的特殊之处在于,它的所有观点都严格来自文献数据,不带任何个人经验和偏见。


AI时代还用德尔菲法?其实“少数人”远比“多数人”更有价值 |谷歌最新


论文明确强调,AI的角色是 “增强而非替代” 人类专家。AI擅长提供基于证据的推理,但它无法复制人类专家独有的、基于真实世界经验的“经验性”和“实用性”判断。例如,AI可能知道一种疗法有效,但人类专家会知道在特定病人身上、考虑到其生活环境和经济状况时,这种疗法是否可行。因此,AI是一个没有偏见但也没有实践智慧的“博学同事”


三阶段验证和具体应用流程


为了验证这个创新模型的有效性,并确保它不只是一个理论框架,研究者们设计了一个包含三个环环相扣阶段的严谨流程,从回顾性验证、前瞻性比较到最终的实际应用,系统性地测试了其可行性与价值 。


  • 第一阶段:回顾性验证:研究人员让AI去“回答”几项已经发表的专家共识研究的题目,并限制AI只能使用那些研究发表之前的文献。结果发现AI的结论与人类专家的结论高度一致(95%),证明了AI作为证据基准的可行性 。


AI时代还用德尔菲法?其实“少数人”远比“多数人”更有价值 |谷歌最新


  • 第二阶段:前瞻性比较:研究人员让AI和一个新的人类专家组同时回答关于“慢性失眠”的问题。这个阶段旨在直接比较AI和人类专家在结论和推理逻辑结构上的异同。


AI时代还用德尔菲法?其实“少数人”远比“多数人”更有价值 |谷歌最新


  • 第三阶段:应用部署:将完整的HAH-Delphi模型应用于 “耐力训练”和“力量训练”这两个真实、复杂的领域,小型专家组达成了超过90%的共识,并成功输出了指导原则


HAH-Delphi模型的具体应用流程(以第三阶段为例)


  • 1.问卷设计:由领域专家主持人,在AI的辅助下,综合现有证据设计出一套结构化、深入的问卷。


  • 2.单轮深度回答:一个由少数(例如6名)资深专家组成的小组与AI,各自独立完成问卷。除了给出评分(如1-5分),每个人类专家和AI都必须为每一项回答提供详细的文字理由


  • 3.数据分析与共识分类:主持人收集所有回答,并使用创新的框架进行分析:


  • 共识分类:根据评分的一致性和背后理由的趋同或互补性,将每一项的共识归入强共识、条件共识、操作共识分歧四个类别之一。


  • 推理分析:使用包含七个主题(如基于证据、基于经验等)的框架,对所有文字理由进行编码,以分析推理的深度和广度。


  • 4.饱和度评估:主持人通过分析推理主题的覆盖情况,判断是否达到了“主题饱和”,即新的专家是否已不再提供新的见解。研究发现,通常在第5或第6位专家之前就能达到饱和。


  • 5.产出指导原则:最终,基于上述分析,形成一套丰富、细致、包含大量情境条件的指导原则。


两大“杀手锏”:HAH-Delphi提炼真知灼见


这套模型之所以厉害,主要靠的是两个方法论上的创新,它们像两把锋利的手术刀,精准地剖析并保留了专家智慧的精髓。


创新一:超越“同意/反对”的四级共识分类


这个模型之所以能用6个人的小组做出判断,关键就在于它不追求统计上的代表性,而是追求“认知上的完备性”。它的重点从“有多少人同意”转向了“专家们为什么同意,以及在何种条件下同意”。


AI时代还用德尔菲法?其实“少数人”远比“多数人”更有价值 |谷歌最新


  • 1.强共识 (Strong Consensus)


  • 标准:≥75%的专家评分高度一致(例如,都选择了4分“同意”或5分“强烈同意”),并且他们给出的文字理由清晰地指向同一个核心逻辑,表明该原则具有普遍适用性。


  • 例子:所有专家都强烈同意“耐力训练需要长期坚持”,并且理由都是“这是生理适应的基础”,那么这就构成了强共识。


  • 2.条件共识 (Conditional Consensus)


  • 标准:这是最能体现该模型优势的一类。专家们的评分可能是分散的,但他们的理由揭示了这些不同评分背后的共同逻辑,即该原则是否成立取决于特定的条件或情境。主持人在发现理由可以互相调和后,就可以将其归为此类


  • 例子:关于“训练是否应该达到力竭”,A专家(面向初学者)评了2分(不同意),理由是“风险高,易受伤”;B专家(面向高水平运动员)评了4分(同意),理由是“在特定阶段、特定动作上,这是打破平台期的有效手段”。他们的评分虽然相反,但理由合在一起就形成了一个更高层次的共识:“是否采用力竭训练,取决于训练者的水平和训练目标”。这就是一个典型的条件共识。


  • 3.操作共识 (Operational Consensus)


  • 标准:有67-74%的专家评分方向一致,而其余的专家只是表达了轻微的保留意见或微弱的分歧,并不影响该原则在实际操作中的采纳。


  • 例子:大部分专家都同意某个训练安排,只有一位专家说“虽然可行,但我个人更偏好另一种方式,不过影响不大”。这就可以被视为操作共识。


  • 4.无共识 / 分歧 (No Consensus / Divergent)


  • 标准:专家们的评分和背后的逻辑都没有形成一致或互补的模式。他们的理由存在无法调和的、根本性的概念冲突。


  • 例子:关于“错过一次训练后应该怎么办”,专家们的意见完全分散,有的说“跳过”,有的说“补上”,有的说“减量完成”,且理由各不相同,无法统一。


传统的德尔菲法依赖于量化的百分比来决定共识,而HAH-Delphi则采用了一种量化与质化相结合的、更加注重深层逻辑的标准。最终的共识是建立在对专家们深层逻辑的理解和整合之上的而不是对评分进行简单的算术平均或统计。这使得结论更加细致、实用,并且能够保留传统方法中经常被“平均掉”的宝贵情境智慧。


创新二:用“主题饱和度”告别“人海战术”


为了解决传统方法需要大量专家的问题,研究者引入了“主题饱和度评估”这个概念。他们预先定义了专家在思考问题时可能用到的七种推理模式,这个设计真的非常巧妙。


  • 条件性(通用):观点适用于一些广泛的、非普遍的条件。


  • 条件性(基于人群):观点和特定的用户群体或特征绑定。


  • 条件性(基于时间/阶段):观点与时间、适应阶段或训练周期有关。


  • 基于证据:理由直接引用科学文献或研究。


  • 基于经验:理由来自个人长期的实践观察和真实世界经验。


  • 基于实用性:理由考虑的是可行性、后勤保障或执行中的现实限制。


  • 基于原则:理由建立在某个理论模型或生理学定律之上。


在讨论过程中,协调人会持续追踪这些推理类型是否都已出现,在对资深专家的访谈中,通常在第5或第6个人之后,就几乎不会再出现全新的观点或推理类型了,即达到了“主题饱和”。这个信号说明:虽然专家人不多,但观点已经足够全面了,没必要再增加人手了。证明小组虽小,但在认知层面已经足够完备。


人与AI的“对齐”:如何确保AI不“跑偏”?


让AI参与讨论,一个关键问题就是如何确保它和人类专家在“一个频道”上对话。HAH-Delphi模型通过一套清晰的评估流程来管理人机“对齐”,这里的“对齐(Alignment)”不是强求观点一致,而是评估AI的回答与人类共识的契合度,这个过程由人类协调人来裁决。


  • 完全对齐 (Fully Aligned):AI得出了和人类专家组相同的结论,并且给出的理由也高度相似。


  • 部分对齐 (Partially Aligned):AI的结论大方向没错,但它给出的理由要么不够细致,要么逻辑路径和专家们不一样。


  • 分歧 (Divergent):AI给出的结论或理由,与人类专家组的共识存在本质上的不同。


对齐的评估过程:


  • 主持人中心制:评估和分类工作由经验丰富的人类主持人独立审查和裁定,以保证严谨性。


  • 双重标准:结论+理由:对齐的判断是双重标准的。仅仅评分一致并不算“完全对齐”。主持人必须深入分析AI的推理过程,看它是否抓住了问题的关键,是否像人类专家那样考虑到了重要的条件和背景。


  • 分歧的价值:当出现分歧时,并不一定意味着AI“错了”。分歧往往非常有启发性,它通常发生在那些需要大量实践经验或需要权衡取舍的领域。例如,AI可能会基于文献给出一个“理论最优”的答案,而人类专家则会因为考虑到现实中的执行难度或风险而给出更保守的建议。这种“有信息量的分歧”恰恰凸显了人类专家的不可替代性。


这个评估之所以能实现,得益于前期严格的设定:AI只能在协调人预先圈定的、可信的公开知识库里学习和回答,这从源头上保证了AI不会“自由发挥”,也为后续的对齐评估提供了坚实的基础。


最终共识


最后一步是将上述所有分析结果,综合提炼成一份结构化的、丰富的“指导原则”(Guiding Principles)。以附录中的力量与混合有氧/力量训练指导原则为例


AI时代还用德尔菲法?其实“少数人”远比“多数人”更有价值 |谷歌最新


  • 强共识的条目构成了指导原则的核心与基础


  • 条件共识的条目则被提炼成带有明确前提和适用范围的、个性化的细微指导 。例如,“对于A人群,建议X;对于B人群,建议Y”。


  • 操作共识的条目会被表述为普遍接受的实践建议,可能也会附带说明其存在的少数保留意见 。


  • 分歧的条目也至关重要,它们会在指导原则中被明确指出,以警示实践者该领域尚存争议,不存在统一标准,需要根据具体情况谨慎决策 。


  • 人与AI对齐的分析结果,则可以作为补充信息,用来说明某些原则的文献支持强度(AI通常代表文献观点),或强调人类专家经验的不可替代性(在AI与专家分歧之处)。


HAH-Delphi模型的最终产出是一套结构化、情境化、诚实反映不确定性、并极具实践指导价值的原则框架,而非简单地罗列出所有“强共识”的结论或一份简单的“是/否”清单


战略洞见


顶尖专家的核心价值不在于他们作为一个群体能达成多少百分比的共识,而在于他们每个人头脑中那套无法被文献复刻的、基于经验的、带条件的推理模型


未来,真正的专家优势将是“情境智慧”(Contextual Intelligence)。AI可以掌握所有公开的“知识”(Knowledge),但无法拥有人类专家通过长期实践内化而成的“智慧”(Wisdom)。这篇论文的模式,通过系统性地提取和构建这种智慧,实际上是在为专家价值进行“资产化”。对于任何依赖高端人才的组织而言,这意味着需要建立新的机制来识别、萃取和放大这种顶尖的、隐性的个人智慧,而不是仅仅将他们作为决策流程中的一个投票环节。论文最后甚至指出,这些人类专家是“下一代AI推理的必要架构师”。


这篇论文对我们的意义


知识生产的范式转移


传统共识方法致力于产出一个统一、普适的“最佳实践”或“标准答案”。HAH-Delphi模型则承认,在复杂世界中,“唯一答案”往往是一种有害的过度简化。


未来的知识产品(无论是临床指南、企业战略)将不再是一本指令手册,而更像是一幅详尽的“决策地形图”。这篇论文的“四级共识框架”就是这张地图的图例。它清晰地标出了哪些是平坦大道(强共识)、哪些是需要特定装备才能通过的山路(条件共识),以及哪些是充满争议的未知领域(分歧)。这种范式转移对于任何决策者都至关重要:他们需要的不是一个僵化的指令,而是一个能帮助他们根据自身具体情况(情境)做出最优判断的、充满智慧的导航系统。


敏捷治理与高效决策的可能性


HAH-Delphi模型提供了一个 “敏捷治理”(Agile Governance) 的实现蓝图。通过小规模专家组、AI辅助和高效的单轮流程,它能够在极短的时间内,针对一个复杂问题形成深入、可靠的指导原则。想象一下,一个企业可以在一个季度内,利用这个模型为一项新兴技术(如AIGC应用)快速制定出兼具原则性和灵活性的内部使用指南,而不是花费一年时间开无数次大会。这种将顶级智慧快速转化为组织行动力的能力,将是未来一种核心的战略优势。


写在最后


在许多关于AI的讨论中,人们担心的是中低技能岗位被取代。而这篇论文则有力地证明,在高端人机协作中,一个拥有极高专业素养和综合能力的“人类协调人”(Human Facilitator)是不可或缺的、价值倍增的关键角色


这个协调人绝非简单的会议主持 。他/她必须是领域专家、方法论专家和“翻译家”,能够理解AI的输出、解读专家字里行间的深意、弥合评分与理由的偏差,并最终将所有碎片化的信息综合成一个连贯的智慧框架 。在未来的人机团队中,这种能够驾驭AI、赋能专家、整合智慧的“枢纽型人才”将变得极其宝贵。对于个人职业发展和组织人才战略而言,这意味着需要大力培养这种跨领域的、具备极强综合与思辨能力的“人机协作指挥官”


文章来自于微信公众号“AI修猫Prompt”。


1
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

添加客服微信openai178,进AITNT官方交流群
IOS下载
安卓下载
微信群