肺癌病因

注册

 

发新话题 回复该主题

周玉驰因果分析在贝壳的探索实践 [复制链接]

1#
北京最好白癜风医院治疗费用 http://www.csjkc.com/m/

分享嘉宾:周玉驰贝壳资深算法工程师

编辑整理:吴祺尧

出品平台:DataFunTalk

导读:因果推断的应用范围十分广泛,例如气候变暖、新药研发、物理研究、经济学等。AI领域,特别是互联网产业,如何科学的进行因果分析,是一个重要的议题。本次分享的主题是因果分析在贝壳的探索和实践。

今天的介绍会围绕下面三点展开:

因果分析在研究什么

如何科学地做因果分析

因果分析在贝壳的探索与实践

01

因果分析在研究什么

首先,因果分析在研究什么。

年诺贝尔经济学奖授予了从事因果推断研究相关的经济学家DavidCard、JoshuaD.Angrist和GuidoW.Imbens。因果的研究范围非常广泛,例如:气候变暖、新药研发、牛顿定律、劳动经济学等。在AI领域,特别是产业互联网,例如社区团购的团长管理,房产领域的经纪人管理与赋能等,作为AI工程师,我们经常会面对下面这样的问题:我们项目的价值是什么?怎么样来证明价值是项目产生的?

通过因果分析来论证价值,是一个必要但很难的过程。马克吐温曾经说过:“世界上有三种谎言:谎言、该死的谎言和统计数据。”数据可以帮我们更好地分析问题,但也可以成为愚弄他人的帮凶。如果没有使用正确的方法,那么可能导致因果推断出现偏差,甚至悖论。

为什么因果分析很难?在因果分析过程中面临很多挑战,其中常见的三个挑战是:

相关性与因果性:相关性是进行因果分析的重要方法,但是相关性不代表因果性;

混杂因素:干扰因素或外来因素;

选择偏差:样本选择偏差或实验分组偏差等。

挑战一:相关性与因果性

例如诺贝尔奖和巧克力的例子,上图左侧的关系图可以发现一个国家巧克力销量越多,这个国家的诺贝尔奖获奖数量越多,那是否可以得到这样的结论:增加巧克力销量会导致诺贝尔奖数量变多吗?显然这是错误的。我们可以通过上图右侧的因果图来进行分析。如果一个国家的经济发达或者国民素质高,那么这个国家的人吃巧克力会多,同时这个国家能获得诺贝尔奖的数量也会很多,但是巧克力和诺贝尔奖之间是没有相关性的。通过这个例子,我们可以看出:存在其他变量可以对两个变量同时造成影响。

挑战二:混杂因素

什么是混杂因素?是当我们在研究自变量和因变量之间的关系的时候,出现其他干扰因素,这些其他干扰因素就是混杂因素。在刚才的例子里,巧克力是自变量,诺贝尔奖是因变量,国家的经济和国民素质等是混杂因素。

混杂因素有个经典的场景:辛普森悖论。当我们探究两种变量相关性时,在某种条件下会产生悖论:某个条件下的两组数据,分开讨论会满足某种趋势,但是合并考虑就会得到一个相反的结论。比如,针对伯克利大学新生录取率做过一个统计,发现女生录取率比男生录取率低,看起来好像是存在性别歧视。但是如果我们分院系进行统计,就会发现有4个系女生录取率高,而只有2个系女生录取率低于男生录取率。两个结论是相反的,存在悖论。这因为录取率较高的两个系男生申请人数非常多,而女生申请人数非常少;而C系和E系录取率相对偏低,但女生申请人数较多。

挑战三:选择偏差

选择偏差可能出现在很多场景,比如在样本选择中,可能只选择了某类特征的群体,他们不能代表整体;再比如AB实验中,实验组与对照组存在偏差。举个幸存者偏差的例子,在二战的时候对返航战斗机的弹痕分析,发现弹痕集中在机翼,而驾驶舱和油箱很少中弹,那他们就得到需要加固机翼的结论。可是通过进一步分析,如果飞机的机翼中弹,那么它还是有一定几率可以返航的,但是如果驾驶舱和油箱中弹了,那么飞机大概率就坠毁了。所以结论应该是加固驾驶舱和油箱。这两个结论是相悖的。

所以,因果分析的过程挑战多困难大,那应该如何科学地做因果分析?

02

如何科学地做因果分析

首先,基本思路是什么?贝叶斯之父JudeaPearl在《为什么》中提到了一种科学的因果分析方法,它通过三个层级揭示因果关系的本质:

关联:变量之间的关联是怎么样的?

干预:如果实施X行动,那么Y会怎么样?

反事实:是X引起Y吗?假如X没发生会如何?

下面通过一个关于吸烟致癌的争论的例子来解释三个层级。

第一步关联。多尔和希尔在年做过一个调研,发现名肺癌患者中只有2人不吸烟,肺癌患者基本都吸烟。结论:吸烟导致肺癌。

第二步干预,常用的方法是实验。多尔和希尔对六万名医生发放了问卷,发现重度吸烟者死于肺癌的概率是不吸烟的人的24倍。同时,美国的癌症协会进行了更大规模的研究,发现重度吸烟的人与不吸烟的人死于肺癌的概率相差了90倍,而吸烟的人死于肺癌的几率是不吸烟的人的29倍。这些结果都表明吸烟死于肺癌的概率远高于不吸烟的,那么结论是吸烟确实导致肺癌。

第三步反事实,吸烟导致肺癌吗?是否可能存在一种未知基因,它会导致一个人容易对尼古丁上瘾,又会导致肺癌的产生,但是吸烟不一定能导致肺癌。未知基因是实验中潜在的混杂因素,刚才的实验中也存在选择偏差。当然,最终通过化学实验证明了烟草确实是诱导肺癌的重要致病因素。

03

因果分析在贝壳的探索与实践

回到贝壳,我们是如何做因果分析的?贝壳是提供新居住服务的平台,核心要素是人、房、客。人就是经纪人,房就是商品,客就是客户。对于经纪人,重要的事情是维护房源和客源。今天的重点是介绍在智能客源维护方向,如何进行科学的因果分析。

首先,如何维护客户?在过去,经纪人主要通过

分享 转发
TOP
发新话题 回复该主题