这一句有客人可容易_觉醒失败后我回山里种田-神笔小说网

首页
最近阅读

觉醒失败后我回山里种田

分类: 都市娱乐

最新章节: 柳仙章篇二继续阅读

火影之朝佚千名

分类: 都市娱乐

最新章节: 第六百三十四章大结局（有彩蛋）继续阅读

查看全部
快速导航

首页

男生
奇幻玄幻武侠仙侠历史军事都市娱乐科幻末日悬疑灵异游戏竞技

女生
古装言情都市言情浪漫青春幻想言情科幻空间灵异悬疑同人衍生耽美百合

小说库

排行榜

推荐网址

首页  男生  都市娱乐  觉醒失败后我回山里种田

这一句有客人可容易

 觉醒失败后我回山里种田  唐伯虎点李逵 3399字 2024-10-21 08:37

　　2.4 结构因果模型（Scm）

　　 2.4.1 基本定义[5][11]

　　这是一种基于因果图（casual graph），构建各类因子间因果关系的方法。该方法可以将因果图转为结构化等式（structural equations），并通过do算子干预因果图，打破混淆因子干扰，完成因果发现。

　　那什么是因果图呢，这是一个有向无环图（dAG），节点表示因子，有向边表示因果关系和大小。如下图(a)是Scm的一个示例。其中t为treatment（即要分析的“因”），y是目标，x是混淆因子。显然，x的存在干扰了分析t对y的影响，作者提出通过do算子去除混淆因子x对treatment的影响，这也是Scm做因果分析的关键。

　　那具体是怎么实现的呢？我们需要先了解因果图里的经典结构

　　 2.4.2 网络结构与前后门准则[11][12]

　　三种经典的图结构

　　当我们分析x和Y的因果关系时，如果存在其他变量Z，则它们的关系不外乎以下三种图结构。

　　链式（a）：x -＞ Z -＞ Y。有且

　　叉式（b）：x ＜- Z -＞ Y。同链式有且

　　 V式（c）：x -＞ Z ＜- Y。有且

　　那么针对这三种图结构，如何输出x变化对Y的影响呢？我们的重点是如何“过滤”变量Z对分析的干扰（这也是因果识别的目标）

　　 2. 后门准则：该准则对应叉式的图结构

　　后门标准（后门准则）：如果变量集Z满足：1 不包含x的子孙节点；2 阻断了x到Y的所有后门路径。则称Z满足(x, Y)的后门准则

　　后门调整：基于后门路径，通过干预do算子消除混淆因子的影响，仅使用已知的数据分布，估计变量之间的因果效应

　　 3. 前门准则：该准则对应链式结构

　　前门标准（前门准则）：如果变量集Z满足：1 阻断了x到Y的所有路径；2 x到Z之间没有未阻断的路径（x到Z不存在后门路径）；3 Z到Y之间的所有后门路径都被x阻断。则称Z满足(x, Y)的前门准则

　　前门调整：和后门调整类似，通过do算子去除前门路径（链式）的影响

　　 2.4.3 示例说明[13]

　　这两个准则应该如何使用呢？这里提供一个case

　　背景：有一种药物，对于男士群体而言，使用该药物后发病率降低。对于女士群体而言，使用该药物后发病率也会降低。但是，对男女人群一起统计，则结论相反

　　假设t=1表示服药，t=0表示未服药，Y=1表示发病的概率，Y=0表示未发病的概率。显然p ( Y = 1 i t = 1 ) = 0.78 ＜ p ( Y = 1 i t = 0 ) = 0.83，这是因为没有考虑混淆变量“性别”的影响，出现了辛普森悖论。

　　如下图，通过后门调整，去除掉性别对服药的干扰。则最终 p(Y=1ido(x=1))=0.832 ＞ p(Y=1ido(x=0))=0.781，说明服用此药物确实可以降低发病率。

　　后面调整的计算逻辑如下：

　　 2.4.4 因果识别

　　当前Scm模型更多用于因果识别，这是因果推断伴生的研究课题。其目标是从一系列的因子里，找出各因子间的因果相关性并输出因果图，则后续可根据casual graph分析两两因子间的相互影响，揭示因子对结果的多层传递性影响。举个例子[14]，我们研究影响产品销量的因素时，可能存在产品价格、产品属性、门店信息、市场竞争情况等因子需要考虑。我们可以构建多个类似下图的因果图模型，然后通过do算法实现干预，判断各因子间存在的因果关系，最终输出概率最大的因果图作为识别的结果[15][16]。本文主要关注因果推断，因果识别不做展开讨论，更多示例可参考相关文章[17]

　　 2.5 潜在结果模型（Rcm）[11]

　　 Rcm关注的是干预前后的期望变化，即2.2所述的treatment effect。该模型不考虑分析所有因子的因果性，只关注treatment和output之间的因果强弱，因此也不需要构建完整了因果图，而是假设treatment和output外的其他因子均为混淆因子，构建粗略的因果图，通过预测反事实的结果，并于观测对比来完成因果推断。

　　该模型的期望输出分为四种（AtE\/Att\/cAtE\/ItE），可根据业务需求选择。对于for单个研究对象的反事实推断，模型的目标是计算每一个样本i的因果效应，即 = (t=1)? (t=0)。以3.3服药和康复的case为例，t = 是否服药，Y = 是否康复。我们知道，一个人是无法同时观测到吃药和不吃药对康复的影响，Scm也无法推测服药对某个用户的价值。而Rcm则会根据数据形态（即用户属性、历史表现以及混淆因子“年龄”等）预测实际未发生的行为将产生的结果，从而推断出ItE。同理可得出AtE、Att、cAtE。

　　因为业界很多时候关注的是单个treatment因子的价值，所以Rcm往往是业界的首选。

　　 2.5.1 基本假设

　　 Rcm存在如下3个基本假设[18]：

　　稳定单元干预值假设（Stable Unit treatment Value Assumption, SUtVA）：任意单元的潜在结果都不会因为其他单元的干预发生改变而改变，且对于每个单元，其所接受的每种干预不存在不同的形式或版本，也不会导致不同的潜在结果。以吃药康复的例子解释这里的两层含义，其一是你吃不吃药不影响我是否康复；其二是每种干预是唯一的，吃药不存在吃很多、吃很少的情况，统一药量，要考虑药量就要设置不同的干预值（即此时干预变量不能只是0和1）

这一句有客人可容易

手机阅读

手机扫码阅读

设置