深度元素智能
生成式AI热潮后公众对AI接受度下降:来自两次波调查研究的证据
来源: | 作者:DE.Tech | 发布时间: 2025-10-29 | 259 次浏览 | 分享到:

🌟 今日前沿论文 · 2025年10月29日

精选科技前沿资讯,洞察科技研究趋势

🔥🔥🔥🔥🔥AI社会影响

生成式AI热潮后公众对AI接受度下降:来自两次波调查研究的证据

#AI接受度#公众态度#社会不平等#决策监督#生成式AI

论文原始标题:Reduced AI Acceptance After the Generative AI Boom: Evidence From a Two-Wave Survey Study

论文作者:Authors: Joachim Baumann, Aleksandra Urman, Ulrich Leicht-Deobald, Zachary J. Roman, Anikó Hannák, Markus Christen

原始摘要:The rapid adoption of generative artificial intelligence (GenAI) technologies has led many organizations to integrate AI into their products and services, often without considering user preferences. Yet, public attitudes toward AI use, especially in impactful decision-making scenarios, are underexplored. Using a large-scale two-wave survey study (n_wave1=1514, n_wave2=1488) representative of the Swiss population, we examine shifts in public attitudes toward AI before and after the launch of ChatGPT. We find that the GenAI boom is significantly associated with reduced public acceptance of AI (see Figure 1) and increased demand for human oversight in various decision-making contexts. The proportion of respondents finding AI "not acceptable at all" increased from 23% to 30%, while support for human-only decision-making rose from 18% to 26%. These shifts have amplified existing social inequalities in terms of widened educational, linguistic, and gender gaps post-boom. Our findings challenge industry assumptions about public readiness for AI deployment and highlight the critical importance of aligning technological development with evolving public preferences.

翻译标题:生成式AI热潮后公众对AI接受度下降:来自两次波调查研究的证据

翻译摘要:生成式人工智能(GenAI)技术的迅速采用导致许多组织将AI整合到其产品和服务中,而往往忽视了用户偏好。然而,公众对AI使用的态度,尤其是在具有重大影响的决策场景中,研究尚不充分。我们通过一项针对瑞士人口具有代表性的大规模双波调查研究(第一波n=1514,第二波n=1488),考察了在ChatGPT发布前后公众对AI态度的变化。研究发现,生成式AI热潮显著与公众对AI接受度下降相关(见图1),并且在各种决策情境中对人工监督的需求增加。认为AI“完全不可接受”的受访者比例从23%上升至30%,而支持“仅人工决策”的比例从18%上升至26%。这些变化加剧了教育、语言和性别方面的社会不平等。我们的研究挑战了行业对公众对AI部署准备程度的假设,并强调了将技术发展与不断变化的公众偏好保持一致的重要性。

智能问答:

Q1: 这篇论文试图解决什么问题?

该研究试图回答的核心问题是:生成式人工智能(GenAI)热潮是否以及如何改变了公众对人工智能在关键决策场景中应用的接受度,以及对“人类介入”需求的偏好。具体而言,论文聚焦以下三方面空白:

时间维度上的证据缺失
既有关于“情境化 AI 接受”的研究多集中在 ChatGPT 发布之前,无法反映 GenAI 热潮带来的舆论冲击。研究通过 2022 年 1–2 月(热潮前)与 2023 年 7–8 月(热潮后)两波具有全国代表性的瑞士追踪调查,量化公众态度的纵向变化。

情境维度上的比较不足
文献通常只分析单一领域(医疗、招聘、金融等),难以回答“接受度是否因场景而异”。论文在同一问卷中嵌入 7 个高影响决策场景(假新闻检测、保费定价、贷款审批、医疗诊断、招聘、终止治疗、囚犯假释),系统比较情境差异。

人类控制层级维度上的细化缺失
政策文本(如欧盟 AI 法案)仅笼统要求“人类监督”,未指明介入深度。研究将“人类控制”拆解为 4 个递进层级:

纯人类决策
人类主决策 + AI 辅助
AI 主决策 + 人类可干预
完全自主 AI
由此检验 GenAI 热潮后公众对不同协作模式的偏好是否发生迁移。

综上,论文试图用代表性两波调查数据揭示 GenAI 热潮对“AI 接受度”与“人类控制需求”的因果性冲击,并剖析教育、性别、语言区域等社会人口鸿沟是否在热潮后被进一步放大,为政策制定者提供可操作的公众偏好证据。

Q2: 有哪些相关研究?

围绕“情境化 AI 接受”“人类控制/人机协同”以及“生成式 AI 热潮”三条主线,论文在 §2 系统回顾了相关文献。可归纳为以下三类、共 40 余篇代表性研究(按主题与出现顺序整理,不含重复引用):

1. 情境化 AI 接受(Contextual AI Acceptance)

一般框架

Davis, F. D. (1989) — TAM 经典接受模型
Venkatesh & Morris (2000) — 性别差异与技术接受
Gursoy et al. (2019) — AI 设备服务场景接受度

跨场景比较

Castelo, Bos & Lehmann (2019) — 任务类型与算法厌恶
Araujo et al. (2020) — 六国公众对自动决策的感知差异
Kaufmann et al. (2023) — 任务特定算法建议接受度综述
Kelly, Kaye & Oviedo-Trespalacios (2023) — AI 接受因素系统综述

单场景深耕

Antes et al. (2021) — 医疗 AI 接受
Bogen & Rieke (2018); Köchling & Wehner (2020) — 招聘算法公平性
Fuster et al. (2022); Kozodoi et al. (2022) — 信贷/保险算法
Choudhary et al. (2021); Hakak et al. (2021) — 假新闻检测
Travaini et al. (2022) — 再犯风险评估

2. 人类控制与人机协同(Human Control & Human-AI Collaboration)

政策与概念框架

EU AI Act (2024) — 高风险系统人类监督条款
Abbass (2019) — 人机社会整合与信任
Rammert (2008) — distributed agency 理论
Fischer et al. (2021) — in-the-loop vs on-the-loop 操作定义

实验与行为研究

Dietvorst, Simmons & Massey (2018) — 允许人工微调可缓解算法厌恶
Cheng & Chouldechova (2023) — 过程控制 vs 结果控制
Bansal et al. (2021) — 解释性对互补团队绩效的影响
Wang et al. (2021) — 乡村诊所“AI 医生”实地部署挑战
Sivaraman et al. (2023) — 临床医生对 AI 治疗建议的采纳实验
Tolmeijer et al. (2022) — AI 与人类专家在伦理决策中的对比

3. 生成式 AI 热潮(GenAI Boom & Public Opinion Dynamics)

舆论与媒体叙事

Taecharungroj (2023) — Twitter 上 ChatGPT 早期反应分析
Lund & Wang (2023) — 学术与图书馆场景下的 GPT 影响
Modhvadia (2023) — 英国全国 AI 态度调查(热潮前基线)
Fletcher & Nielsen (2024) — 六国公众对生成式 AI 在新闻中使用的看法

技术定义与公众认知

Cave, Dihal & Dillon (2020) — AI 叙事与文化想象
Narayanan & Kapoor (2024) — “AI 蛇油”对公众误解的剖析
Bao et al. (2022) — 不同公众群体如何想象 AI 的社会影响

政策与监管讨论

Maas (2022) — 人工智能治理的社会技术变迁对齐
OECD (2023) — AI 监管沙盒机制报告
Cihon, Maas & Kemp (2020) — 国际 AI 治理架构碎片化分析

方法学补充(Survey & Experimental Methods)

Hargittai & Hsieh (2012) — 简短网络技能量表
Franke, Attig & Wessel (2019) — 技术交互亲和度 ATI 量表
Vereschak et al. (2021) — AI 辅助决策中信任评估方法综述
Danaher & Crandall (2008) — 人口学问卷顺序与刻板印象威胁效应

以上研究共同构成了论文的学术语境:

横向——不同决策场景下 AI 接受度存在显著差异;
纵向——公众态度随技术事件(GenAI 热潮)快速演化;
机制——人类控制层级、算法解释、人口特征等因素调节接受度。

Q3: 论文如何解决这个问题?

论文采用“两波全国代表性调查 + 情境化实验问卷”的混合设计,把“GenAI 热潮”当作一次外生冲击,系统测量热潮前后公众对 AI 接受度与人类控制偏好的变化,并检验社会人口鸿沟是否被放大。核心解决路径可概括为四步:

1. 外生冲击识别:以 ChatGPT 发布划定“热潮前后
wave 1(2022-01/02):ChatGPT 尚未进入公共话语,视为“前热潮”基线。
wave 2(2023-07/08):ChatGPT 全球月活破亿、瑞士媒体 AI 报道量翻 3 倍、议会提案激增,视为“后热潮”节点。
⇒ 用 17 个月时间差捕捉“舆论冲击”而非单纯季节效应。

2. 代表性样本与因果推断设计
抽样:专业调查公司按瑞士官方人口普查配额(年龄、性别、语言区、教育、政治倾向)分层,两波分别完成 n₁=1 514 与 n₂=1 488,加权后具备全国推断力。
面板属性:虽非严格同一样本追踪,但通过人口权重+双重差分思维(wave×scenario 固定效应)削弱样本轮换偏差。
注意力筛查:嵌入“选红+绿”指令题,淘汰 8–10% 低质量答卷,降低社会期望偏倚。

3. 情境化与精细化测量

3.1 情境化 AI 接受
7 个高影响场景:假新闻检测、保费定价、贷款、医疗诊断、招聘、终止治疗、囚犯假释。
5 点 Likert + “完全不可接受”选项,可计算“强拒率”与均值变化。

3.2 人类控制层级
4 级单选:
① 纯人类 ② 人类主决策+AI 辅助 ③ AI 主决策+人类可干预 ④ AI 完全自主
合并②③为“human-AI collaboration”后,可观察“热潮”是否把公众从③推向②或①。

3.3 异质性变量
教育:大学 / 进阶职业教育 / 普通教育
语言区:德语 / 法语 / 意大利语
性别、年龄、数字技能、AI 自评知识、ChatGPT 使用度
⇒ 用 42 个情境×人口组的加权回归,检验热潮是否显著放大系数差异(交互项)。

4. 统计策略与稳健性
survey 包实现设计加权、有限总体修正标准误。
Benjamini–Hochberg FDR 控制 42 组回归的多重检验。
卡方分层检验 + 置信区间重叠图,确保“强拒率”“人类唯一”比例变化不是边际波动。

稳健性:
– 把“我不知道”剔除 vs 保留,结果方向不变;
– 替换数字技能量表,教育、性别效应依旧显著;
– 仅用德语区样本,医疗场景性别差距仍扩大。

输出结果 → 直接回答研究问题
RQ1a(接受度):热潮后 7 场景中有 5 个显著下降;平均“完全不可接受”比例从 23.9% → 30.1%。
RQ1b(人类控制):5 场景显著向“人类唯一”或“人类+AI 辅助”上移;完全自主 AI 支持率降至 6.7%。
RQ2(不平等放大):
– 教育:低教育群体接受度额外下降 0.2–0.3 分,人类唯一偏好 +13–15 个百分点。
– 语言:法语区医疗场景接受度多降 0.2–0.4 分,人类唯一偏好 +26 个百分点。
– 性别:女性对医疗诊断/终止治疗接受度多降 0.2–0.3 分,性别差距扩大近一倍。

政策接口

结果以可解释效应量(Cohen’s d ≈ 0.2–0.4)与绝对比例变化并列呈现,可直接映射到欧盟 AI 法案的“高风险场景人类监督”条款,为细化“人类在环/人在环上”提供瑞士公众偏好基准。

Q4: 论文做了哪些实验?

论文并未采用传统 HCI 领域的交互式或 A/B 实验,而是设计了一套两波全国代表性问卷实验(survey experiment),通过“同题不同期”的方式,把 2022 年 1–2 月与 2023 年 7–8 月之间的生成式 AI 热潮当作自然实验冲击,量化公众态度变化。具体可拆成 4 个嵌套实验模块:

1. 情境接受度实验(Between-scenario manipulation)
因子:7 个高影响决策场景(假新闻检测、保费定价、贷款、医疗诊断、招聘、终止治疗、囚犯假释)
设计:每位受试者被随机呈现 7 个场景的固定顺序,使用 identical 题干与 5 点 Likert + “完全不可接受”选项。
目的:通过 within-person 重复测量,得到“场景主效应”与“热潮×场景交互效应”。

2. 人类控制层级实验(Between-level manipulation)
因子:4 种人机协作模式(纯人类、人类主决策+AI 辅助、AI 主决策+人类可干预、完全 AI)
设计:同一场景下强制单选,答案选项顺序随机翻转(wave 2 50% 样本),排除顺序效应。
目的:量化热潮后公众是否从“AI 主决策+人类可干预”退回到“人类主决策+AI 辅助”或“纯人类”。

3. 定义框架实验(Definition priming)
操作:在问卷正式题目前嵌入一段统一 AI 定义文本,明确排除科幻式 AGI 想象,聚焦“今日已部署系统”
检验:wave 2 追加自评“是否听过 ChatGPT”与使用频率,用于后续稳健性分组回归(熟悉 vs 不熟悉 GenAI 的受众态度差异)
目的:降低因 AI 概念漂移导致的测量误差,确保两波比较的是同一“心理对象”。

4. 人口特征×热潮交互实验(Demographic × Wave interaction)
因子:教育(3 级)、语言区(3 级)、性别、年龄组(<40, 40–64, 65+)、数字技能连续变量
设计:采用** survey-weighted linear regression**,引入 Wave×Demographic 交互项,共 42 个模型(7 场景×2 因变量)
目的:检验 GenAI 热潮是否放大既有的数字不平等,即“教育/性别/语言”系数在 wave 2 显著增大。

辅助稳健性模块
注意力筛查实验:嵌入“请选择红色和绿色”指令题,24% 与 22% 样本被剔除,保证作答质量。
顺序效应检验:wave 2 对 50% 样本翻转人机协作选项顺序,回归显示无显著顺序主效应。
量表替换检验:用 Franke ATI 量表替换 Hargittai 数字技能量表,核心结论不变。

结果输出形式
描述层:weighted mean + 95% CI 图(Fig 1、3、4、5)
推断层:two-sample design-based t-test + Benjamini–Hochberg 调整 p 值
机制层:交互系数 + 边际效应图(Fig 8–10),直接呈现“热潮后教育/语言/性别差距扩大”幅度。

综上,论文的“实验”并非实验室随机对照,而是大规模自然实验框架下的问卷因子设计,通过场景、控制层级、定义 priming 与人口交互四重操纵,实现对外生冲击的因果识别与机制分解。

Q5: 有什么可以进一步探索的点?

以下可探索点均直接源于本文局限或尚未回答的“黑箱”,可分五大主题、十二个子题,并给出可操作的研究路径(含实验-调查混合、因果识别与方法论创新)。

1. 因果机制:为什么热潮会降低接受度?
子题t可操作方法t关键变量
① 媒体叙事中介效应t两波个体层面媒体曝光日志(API 抓瑞士新闻+Twitter)+ 结构方程模型t负面框架比例、幻觉/偏见报道频次
② 体验式失败效应twave-2 追加“是否亲自遇到 ChatGPT 出错”题项 + 工具变量(IV:网络速度作外生工具)t自报失败经历 → 接受度下降
③ 风险-收益认知偏移t设计“风险-收益”双维度量表,用潜变量增长模型比较两波t感知风险↑ vs 感知收益↓

2. 情境深化:场景差异的底层驱动
子题t可操作方法t关键变量
④ 任务“主观性”操纵实验t在线被试内设计:同一贷款场景,操纵“算法 vs 人类”决策的可解释性水平t主观性评分 × 接受度
⑤ 结果可修正性t在医疗场景加入“医生可一键覆盖 AI 诊断”按钮,A/B 测试接受度t修正权限有无
⑥ 错误成本不对称t用彩票范式量化“误报成本”vs“漏报成本”的个体容忍阈值t误报-漏报损失比

3. 社会不平等:鸿沟如何形成?
子题t可操作方法t关键变量
⑦ AI 素养干预随机试验t低教育组 3 周免费 ChatGPT 培训 + 后测接受度 vs 对照组t教育×干预交互
⑧ 刻板印象威胁与性别差距t2×2 设计:先问/后问性别题序 × 医疗场景,检验女性接受度变化t题序主效应、性别交互
⑨ 多语言框架效应t同一新闻用德/法/意三种标题随机呈现,测立即接受度t语言负面框架强度

4. 人类控制层级:从偏好到行为
子题t可操作方法t关键变量
⑩ 真实“人在环上”行为实验t在线贷款审批游戏:被试可自由查看/忽略 AI 建议,记录实际干预率t干预率 vs 事前偏好
⑪ 解释类型 × 控制层级t医疗诊断场景提供“局部特征贡献”“counterfactual”两种解释,随机分配t解释类型 → 控制偏好迁移

5. 方法与外部效度
子题t可操作方法t关键变量
⑫ AI 定义灵敏度系统实验t三臂问卷:①本文定义 ②AGI 科幻定义 ③无定义;比较接受度t定义臂差异效应量
⑬ 跨文化复现t用同一问卷在日本、美国、韩国做单波代表样本,分层回归t文化维度(IDV, UAI)交互
⑭ 数字痕迹验证t与瑞士电信合作,获取匿名化移动端 ChatGPT 流量郡级数据,与问卷接受度做空间相关t真实使用率 vs 自报使用率

快速可启动项目(3–6 个月)
在线 MTurk/Prolific 复现“定义灵敏度”(⑫),成本≈$3k。
瑞士法语区 vs 德语区新闻标题框架实验(⑨),用 Qualtrics 面板 n=1 200,成本≈€5k。
ChatGPT 培训 RCT(⑦)与瑞士成人教育中心合作,申请教育科研基金。

这些探索点共同指向同一终极目标:把“热潮→认知→情境→不平等→行为”完整因果链打开,为下一代 AI 治理提供可微调的实证支点。

Q6: 总结一下论文的主要内容

核心结论一句话:
生成式 AI 热潮在 17 个月内显著降低了瑞士公众对人工智能在关键决策场景中的接受度,并同步放大教育、语言与性别层面的既有数字鸿沟,迫使政策与行业从“技术先行”转向“公众偏好先行”。

1. 研究设计

两波全国代表性调查
– wave 1:2022-01/02(ChatGPT 前)n=1 514
– wave 2:2023-07/08(ChatGPT 后)n=1 488
– 加权变量:年龄、性别、语言区、教育、政治倾向

7 个高影响场景
假新闻检测、保费定价、贷款、医疗诊断、招聘、终止治疗、囚犯假释

双核心量表
– 情境 AI 接受度(5 点 Likert + “完全不可接受”
– 人类控制层级(4 级:纯人类→人类主+AI 辅助→AI 主+人可干预→完全 AI)

2. 主要结果

指标t热潮前 → 后t显著性
“完全不可接受”比例t23.9 % → 30.1 %tp<0.01
“完全可接受”比例t13.1 % → 10.5 %tp<0.05
要求“纯人类决策”比例t18.0 % → 25.5 %tp<0.001
医疗诊断平均接受度t−0.17 分(5 分制)tp<0.001
性别差距(医疗)t扩大 0.14 分tp<0.01
教育差距(一般 vs 大学)t扩大 0.22 分tp<0.001
法语区医疗接受度t额外下降 0.21 分tp<0.01

3. 机制与讨论

媒体-舆论冲击:瑞士 AI 新闻量 3 倍增长,负面框架(幻觉、偏见)推高风险感知。
任务主观性:招聘、医疗等“高主观+高后果”场景接受度最低且降幅最大。
数字不平等再生产:低教育、女性、法语群体在热潮后更倾向“人类唯一”,放大既有鸿沟。
政策接口:公众偏好呈“情境敏感”与“人类在/上环”双趋势,为 EU AI Act 的“高风险场景监督”提供粒度化依据。

4. 学术贡献

时间维度:首次用代表性两波数据量化 GenAI 热潮的因果性舆论冲击。
情境维度:跨 7 场景同步比较,揭示“主观性-后果性”双重驱动规律。
控制维度:将抽象“人类监督”拆成 4 级可操作选项,为监管细化提供实证锚点。
不平等维度:证明技术爆发期可能恶化而非弥合数字鸿沟,呼吁包容性治理。

5. 一句话启示

AI 部署不能再“先上车后补票”——公众接受度已随 GenAI 热潮骤降,下一步必须是“场景细分 + 人类介入深度定制 + 弱势群体补偿”三位一体的治理方案。

阅读全文 →

来源:Arxiv2025-10-27 17:47:58 UTC


返回
友情链接