cpa广告联盟云

CPA广告联盟云的优势

CPA广告联盟云是一家专业的网络广告合作平台,主要为广告主和网站主提供一站式的广告投放和推广服务。与传统的CPC广告模式不同,CPA广告联盟云采用CPA(按行动付费)广告模式,即广告主只需要按照实际效果支付费用,如注册、下单、付款等。

CPA广告联盟云的优势主要有以下几点:

云计算

首先,CPA广告联盟云提供了丰富多样的广告形式,包括文字链、悬浮广告、弹窗广告、视频广告等多种形式,同时还提供了全网的广告覆盖,让广告主的品牌和产品得到更广泛的曝光和推广。

在线服务

其次,CPA广告联盟云拥有专业的技术和团队,提供了全面有效的广告投放和优化服务,帮助广告主和网站主实现最大化的投资回报和效益。同时,CPA广告联盟云还提供了实时数据分析和监测,让广告主和网站主能够及时了解广告效果和用户行为,从而调整广告策略和提高转化率。

最后,CPA广告联盟云还致力于保障广告主和网站主的合法权益和利益,严格遵守中国的广告法规和道德准则,杜绝虚假宣传和欺诈行为,保持透明公正的合作关系。

CPA广告联盟云的应用场景

CPA广告联盟云适用于各种类型的广告主和网站主,包括电商平台、金融服务、游戏、社交媒体、移动应用等多个行业。以下是CPA广告联盟云的几种典型应用场景:

电商平台

1. 电商平台:对于电商平台来说,CPA广告联盟云可以帮助其提高销售转化率和用户购买意向,实现更高效的广告投放和推广效果。

金融服务

2. 金融服务:对于金融服务行业来说,CPA广告联盟云可以帮助其吸引更多的用户注册和开户,提高用户的忠诚度和活跃度。

游戏

3. 游戏:对于游戏行业来说,CPA广告联盟云可以帮助其扩大用户规模和提高用户留存率,增强用户体验和品牌美誉度。

总结

综上所述,CPA广告联盟云是一个值得信赖和合作的网络广告合作平台,它以CPA广告模式为基础,提供了丰富多样的广告形式和覆盖,拥有专业的技术团队和数据分析监测,致力于保障广告主和网站主的合法权益和利益。其应用场景广泛,适用于各种类型的广告主和网站主,为其实现更高效的广告投放和推广效果,增强品牌和产品的竞争力和市场份额。

cpa广告联盟云特色

1、宝宝可以知道下雪天可以干什么,了解每种天气作用;

2、全方位学习学、练、说、测、评、赛全方位教学

3、炫酷画质,动作大师亲自设计武打动作,招式丰富,玩家可随意衔接,会有意想不到的效果。

4、刷新自己的操作记录去尽快的探索大量的未知场景,每一个关卡设定的地图都是新颖无比的。

5、接单灵活——兼职骑士自由接单,入职专职合理派单

cpa广告联盟云亮点

1、(2)全部配有拼音标注、点读发音,宝宝不仅可以学认汉字,还可以一笔一划地学写汉字。

2、能够让图片更具有氛围感,设置美图滤镜后就能保存图片,更有丰富的拼图模板可设置。

3、看房单管理功能,使管家可以更加方便快捷地使用

4、有件很有趣的事等着你。让我们快点试试

5、重大新闻权威发布,突发事件及时播报。

baobaokeyizhidaoxiaxuetiankeyiganshenme,lejiemeizhongtianqizuoyong;quanfangweixuexixue、lian、shuo、ce、ping、saiquanfangweijiaoxuexuankuhuazhi,dongzuodashiqinzishejiwudadongzuo,zhaoshifengfu,wanjiakesuiyixianjie,huiyouyixiangbudaodexiaoguo。shuaxinzijidecaozuojiluqujinkuaidetansuodaliangdeweizhichangjing,meiyigeguankashedingdeditudoushixinyingwubide。jiedanlinghuo——jianzhiqishiziyoujiedan,ruzhizhuanzhihelipaidan復(fu)旦(dan)發(fa)布(bu)「新(xin)聞(wen)推(tui)薦(jian)生(sheng)態(tai)系(xi)統(tong)模(mo)擬(ni)器(qi)」SimuLine:單(dan)機(ji)支(zhi)持(chi)萬(wan)名(ming)讀(du)者(zhe)、千(qian)名創(chuang)作(zuo)者、100+輪(lun)次(ci)推荐

新智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji):好(hao)困(kun)

【新智元導(dao)读】最(zui)近(jin),复旦大(da)學(xue)的(de)研(yan)究(jiu)人(ren)員(yuan)提(ti)出(chu)了(le)壹(yi)種(zhong)新闻推荐生态系统演(yan)化(hua)模拟平(ping)臺(tai)SimuLine,可(ke)以(yi)從(cong)真(zhen)實(shi)數(shu)據(ju)中(zhong)構(gou)建(jian)一個(ge)反(fan)映(ying)人類(lei)行(xing)為(wei)的潛(qian)在(zai)空(kong)間(jian),然(ran)後(hou)通(tong)過(guo)基(ji)於(yu)代(dai)理(li)模型(xing)的仿(fang)真模拟出新闻推荐生态系统的演化動(dong)态。

理解(jie)在線(xian)新闻社(she)區(qu)的演變(bian)對(dui)于設(she)計(ji)更(geng)有(you)效(xiao)的新闻推荐系统至(zhi)關(guan)重(zhong)要(yao),但(dan)由(you)于缺(que)乏(fa)適(shi)當(dang)的数据集(ji)和(he)平台,現(xian)有研究在理解推荐系统如(ru)何(he)影(ying)響(xiang)社区演化方(fang)面(mian)存(cun)在局(ju)限(xian),导致(zhi)了可能(neng)影响長(chang)期(qi)效用(yong)的次優(you)系统设计。

針(zhen)对這(zhe)一問(wen)題(ti),复旦大学计算(suan)机学院(yuan)CISL研究團(tuan)隊(dui)研发了新闻推荐生态系统演化模拟平台SimuLine。

SimuLine基于預(yu)訓(xun)練(lian)語(yu)言(yan)模型(Pretrained Language Models)和逆(ni)傾(qing)向(xiang)得(de)分(fen)(Inverse Propensity Score)从真实数据中构建了一个反映人类行为的潜在空间,然后通过基于代理模型的仿真(Agent-based Modeling)模拟出新闻推荐生态系统的演化动态。

SimuLine支持在单服(fu)務(wu)器(256G內(nei)存,消(xiao)費(fei)級(ji)顯(xian)卡(ka))上(shang)对10000+名读者和1000+名创作者進(jin)行100+轮次的创作-推荐-交(jiao)互(hu)模拟,同(tong)時(shi)提供(gong)包(bao)括(kuo)定(ding)量(liang)指(zhi)標(biao)、可視(shi)化和文(wen)本(ben)解釋(shi)在内的綜(zong)合(he)分析(xi)框(kuang)架(jia)。

廣(guang)泛(fan)的仿真实驗(yan)表(biao)明(ming)SimuLine在理解社区演化过程(cheng)、測(ce)試(shi)推荐算法(fa)等(deng)方面具(ju)有巨(ju)大潜力(li)。

作者:張(zhang)光(guang)平,李(li)東(dong)勝(sheng),顧(gu)寒(han)蘇(su),盧(lu)暾(tun),尚(shang)笠(li),顾寧(ning)

論(lun)文地(di)址(zhi):https://arxiv.org/abs/2305.14103

新闻推荐生态系统演化模拟平台

隨(sui)著(zhu)(zhe)社交媒(mei)體(ti)(Social Media)的普(pu)及(ji),人們(men)越(yue)來(lai)越依(yi)賴(lai)在线新闻社区来发布和獲(huo)取(qu)新闻,每(mei)天(tian)都(dou)會(hui)有数以百(bai)万计的新闻被(bei)内容(rong)创作者发布到(dao)各(ge)种类型的在线新闻社区,並(bing)在推荐系统的分发下(xia)被海(hai)量用戶(hu)閱(yue)读。

随着新闻内容的生產(chan)和消费,在线新闻社区處(chu)于一种不(bu)间斷(duan)的动态演化过程中。

與(yu)其(qi)他(ta)类型的在线社区相(xiang)同,在线新闻社区的发展(zhan)也(ye)符(fu)合著名的生命(ming)周(zhou)期理论,也即(ji)依次經(jing)歷(li)「啟(qi)动」-「成(cheng)长」-「成熟(shu)」-「衰(shuai)退(tui)」的階(jie)段(duan)。

透(tou)过生命周期理论的视角(jiao),大量的研究工(gong)作探(tan)討(tao)了在线社区的演化模式(shi),并对生命周期中每个阶段的運(yun)作提出了建議(yi)。

然而(er),作为在线新闻社区最重要的技(ji)術(shu)基礎(chu)设施(shi)之(zhi)一的推荐系统对在线新闻社区的演化有何影响仍(reng)迷(mi)霧(wu)重重。

为了解開(kai)这一謎(mi)团,来自(zi)复旦大学计算机学院的CISL研究团队重點(dian)关註(zhu)了以下三(san)个研究问题,并试圖(tu)通过模拟实验来找(zhao)到它(ta)们的答(da)案(an):

1)新闻推荐生态系统(News Recommendation Ecosystems, NREs)生命周期的每个阶段有什(shen)麽(me)特(te)点?

2)驅(qu)动NREs演化的关鍵(jian)因(yin)素(su)有哪(na)些(xie),这些因素是(shi)如何彼(bi)此(ci)作用进而影响进化过程的?

3)如何通过推荐系统的设计策(ce)略(lve),实现更好的长期多(duo)方效用,从而避(bi)免(mian)社区陷(xian)入(ru)「衰落(luo)」?

为了回(hui)答这三个研究问题,CISL研究团队研发了新闻推荐生态系统演化模拟平台SimuLine。

SimuLine首(shou)先(xian)根(gen)据真实世(shi)界(jie)的数据集进行合成数据的生成。为了解決(jue)原(yuan)始(shi)数据集固(gu)有的暴(bao)露(lu)偏(pian)差(cha)问题(Exposure Bias), SimuLine引(yin)入了逆倾向得分(Inverse Propensity Score)来消除(chu)偏差。

为了建立(li)一个貼(tie)近人类决策过程的潜在空间,SimuLine引入了基于大規(gui)模语料(liao)庫(ku)的预训练语言模型(Pretrained Language Models)来进行隱(yin)空间的构建,最后,SimuLine通过基于代理模型的仿真(Agent-based Modeling)模拟了用户、内容创作者和推荐系统在新闻推荐生态系统中的行为和交互。

合成数据生成

当试图动手(shou)构建一个代表用户的模拟器时,撲(pu)面而来的第(di)一个问题就(jiu)是「用户的各种行为應(ying)当如何刻(ke)畫(hua)?」

这个问题其实有一个十(shi)分直(zhi)接(jie)而且(qie)被推荐系统領(ling)域(yu)广泛采(cai)用的解决思(si)路(lu),那(na)便(bian)是构建一个隐空间(Latent Space),然后把(ba)用户的興(xing)趣(qu)和新闻的内容通通映射(she)到这个空间裏(li)去(qu)。

如此一来,便可以十分方便地通过隐空间中向量的相似(si)度(du),来衡(heng)量用户对新闻的喜(xi)愛(ai)程度,进而定義(yi)出一系列(lie)行为的邏(luo)辑和规則(ze)。

构建

那么該(gai)如何构建这个隐空间呢(ne)?

有的同学便說(shuo)了:「这有何難(nan)!?推荐算法不就是用来幹(gan)这个活(huo)的嘛(ma)!直接用推荐算法学一个出来不就好了?」

这的確(que)不失(shi)为一种方法,但也有一些明显的问题。

其中最令(ling)CISC研究团队百思不得其解的是一个叫(jiao)做(zuo)「Algorithm Confounding」的逻辑漏(lou)洞(dong),也就是说假(jia)如使(shi)用推荐算法A来构建隐空间并映射用户和新闻作为它们真实的行为决策依据,那么在后面模拟过程中使用的算法B豈(qi)不成了在拟合算法A(了解一些蒸(zheng)餾(liu)学習(xi)的同学是不是很(hen)眼(yan)熟)?

此外(wai),目(mu)前(qian)大多数的推荐算法仍是黑(hei)盒(he)模型,就算睜(zheng)一只(zhi)眼閉(bi)一只眼放(fang)过了Algorithm Confounding,在对模拟数据进行分析的时候(hou)也会是一頭(tou)雾水(shui)(这个維(wei)度在变大,可是这个维度代表啥(sha)啊(a)???)。

正(zheng)当 研究团队一籌(chou)莫(mo)展之際(ji),一道白(bai)色(se)的閃(shan)光劃(hua)过:好像(xiang)之前看(kan)到过一篇(pian)文章(zhang)说,基于大规模语料库训练出来的语言模型(当时還(hai)是Bert的天下,ChatGPT尚未(wei)呱(gua)呱墜(zhui)地)可以表现出一些基本的人类認(ren)知(zhi)(也就是著名的King – male + Female = Queen)。

那这个东西(xi)用来构建隐空间岂不是非(fei)常(chang)合适:

1. 它可以编碼(ma)用户和新闻;

2. 通过从大规模语料库中学习全(quan)局的文本表征(zheng),它所(suo)体现的人类认知应该是基础而普遍(bian)的,从而规避了Algorithm Confounding的问题;

3. 雖(sui)然不太(tai)清(qing)楚(chu)它的隐空间里每一个维度代表了什么,但这并不影响这个空间的可理解性(xing),完(wan)全可以通过相似向量檢(jian)索(suo)来为空间中每一个点提供文本的大致解释。

这簡(jian)直太美(mei)妙(miao)了!就决定是妳(ni)了!

映射

解决了隐空间的构造(zao)问题,下一步(bu)就是將(jiang)用户和新闻映射到这个空间了。

新闻好说,本来新闻就一定会有豐(feng)富(fu)的文本信(xin)息(xi),直接编码就可以了,但是用户该怎(zen)么去处理呢?利(li)用用户历史(shi)記(ji)錄(lu)里喜歡(huan)的新闻求(qiu)个均(jun)值(zhi)行不行?

不可以!

可惡(e)的Algorithm Confounding換(huan)了个名字(zi)又(you)来了,这次它叫做Exposure Bias,也就是用户的点贊(zan)记录并不一定能夠(gou)完全体现出用户的兴趣,因为用户点赞的新闻一定是用户看到过的新闻,而用户看到的新闻本身(shen)就是经过推荐系统的一次篩(shai)選(xuan)的,完全存在一种可能性那就是用户沒(mei)点赞是因为没看到。

还好经过这么多年(nian)的高(gao)歌(ge)猛(meng)进,推荐系统领域的軍(jun)火(huo)库彈(dan)藥(yao)充(chong)足(zu), 研究团队从Unbiased Recommendation这个倉(cang)库中找到了解决这个问题的趁(chen)手兵(bing)刃(ren): Inverse Propensity Score (IPS)。

简单来講(jiang),那便是通过估(gu)计推荐樣(yang)本的曝(pu)光密(mi)度对其进行加(jia)權(quan),从而抵(di)消掉(diao)它在模型学习过程中帶(dai)来的Bias,如此一来用户的编码问题也就解决了。

至于最后的内容创作者,他们发布内容的行为没有受(shou)到Exposure Bias的干擾(rao),直接对其历史记录进行加权就行了。其实经过上面的一通操(cao)作,数据準(zhun)備(bei)工作已(yi)经基本完成了,但是仍有兩(liang)点美中不足:

· 首先是数据规模尚未調(tiao)整(zheng),可能会和计算資(zi)源(yuan)不适配(pei)(小(xiao)驢(lv)拉(la)大磨(mo)/大驴磨洋(yang)工);

· 其次是用户的隐私(si)没有得到尊(zun)重。因此 研究团队在原始数据集用户编码的基础上又套(tao)接了一層(ceng)生成模型。

考(kao)慮(lv)到新闻平台總(zong)是设计有分区导航(hang)(財(cai)经、体育(yu)、科(ke)技等等),而用户在各个分区的聚(ju)集现象(xiang)也比(bi)較(jiao)明显, 研究团队便提拔(ba)了高斯(si)混(hun)合模型(GMM)来負(fu)責(ze)这个任(ren)务。

代理建模

完成了前期的数据准备工作之后,便可以开始建模用户的行为了。

研究团队这里采用了Agent-based Modelling的方式,也就是建模个体的行为以及个体之间的交互,然后通过部(bu)署(shu)大量Agents模拟出群(qun)体的动态。

简单回憶(yi)一下用户的在线新闻阅读流(liu)程(比如大家(jia)刷(shua)今(jin)日(ri)头條(tiao)的时候),用户首先会在某(mou)一个頁(ye)面看到推荐系统推荐的一系列新闻,然后用户简单瀏(liu)覽(lan)一下各个新闻的标题、配图和摘(zhai)要,如果(guo)某条新闻激(ji)起(qi)了用户的兴趣,便会点进去看看具体讲了些什么,读完这条新闻之后,如果用户覺(jiao)得这条新闻不錯(cuo)、值得大家一读或(huo)是符合自己(ji)的觀(guan)点,用户便会通过点赞等方式表達(da)自己对这条新闻的认同。

定义

在这个过程中,用户和新闻之间的交互可以被划分为三个层级(曝光、点擊(ji)和点赞),其中点击和点赞是用户的主(zhu)动行为,需(xu)要在User Agent中定义一番(fan)。

在这里 研究团队将用户的点击行为歸(gui)納(na)为一种概(gai)率(lv)选擇(ze)行为,也就是依据用户和新闻之间的匹(pi)配度(可以用两者隐空间内的相似度衡量),用户有一定概率从列表中选择一些自己感(gan)兴趣的新闻点开阅读。

这个定义相比于直接点击最匹配的新闻具有更好的弹性,也就是说并不一定匹配度高就会被阅读,更符合真实情(qing)況(kuang)一些。

至于点赞行为,就不能简单的只考虑新闻的匹配度了,畢(bi)竟(jing)眾(zhong)所周知,标题黨(dang)的现象在新闻中还是屢(lv)見(jian)不鮮(xian)的。

因此 研究团队引入了一个抽(chou)象的「新闻質(zhi)量」的概念(nian)来总体上代表一篇新闻报道的價(jia)值,如此一来,用户的点赞行为便可以通过主观的兴趣和客(ke)观的质量共(gong)同刻画。

研究团队采用了期望(wang)模型来进行Agent点赞行为的控(kong)制(zhi),具体来讲,首先基于兴趣匹配程度和新闻质量计算出一个用户阅读某条新闻的效用(Utility),如果这个效用超(chao)过了用户的期待(dai)( 研究团队用一个超參(can)数Threshold来代表这个期待的具体值),那便觸(chu)发点赞行为。

这个设计的直观解释就是,如果一条新闻有讓(rang)我(wo)爽(shuang)到,不管(guan)是因为它迎(ying)合了我还是它本身的报道十分客观全面,我便会毫(hao)不吝(lin)嗇(se)的为他点赞。

此外在新闻阅读过程中,用户的兴趣或者说观点显然也不会是一成不变的。

比如说用户看到了一篇很喜欢的新闻报道,就有可能激发用户对相关新闻的深(shen)入挖(wa)掘(jue)欲(yu)望,与之相反的,如果一篇报道令用户感觉完全是滿(man)紙(zhi)荒(huang)唐(tang)言,用户以后再(zai)看到类似的报道就不太会再点进去看它的报道細(xi)節(jie)了。

这个现象被 研究团队建模为了一个用户偏好漂(piao)移(yi)模型(User-drift Model)。

创作行为建模

接下来建模新闻创作者的创作行为。

真实世界中的新闻创作会受各种因素的影响, 研究团队这里将其简化为一个貪(tan)心(xin)过程,也就是作者总是希(xi)望自己创作的新闻能够得到更多读者的认同 。

具体的Agent行为控制 研究团队采用了类似于用户点击的方案,创作者根据自己创作的新闻在上一轮的点赞情况进行概率抽样,选出新一轮创作的主题,然后圍(wei)繞(rao)主题进行新闻创作。新闻创作的过程类似的也被建模为隐空间中从以主题为中心的高斯分布中抽样的过程。

除了新闻的内容(隐空间表征),还需要对新闻的质量进行建模。这里基于两条符合现实规律(lv)的基本假设:

1. 作者的获赞数与收(shou)入存在一个邊(bian)际遞(di)減(jian)的正相关关系,也就是作者收到的赞越多收入阅读,但是随着赞数量的提升(sheng),单个赞带来的收益(yi)会逐(zhu)漸(jian)减少(shao);

2. 收入高的创作者由于预算更充足,会创作出质量更高的新闻。基于此可以构建一个从上一轮获赞数到下一轮新闻质量的映射函(han)数,用于控制新闻创作的质量。

推荐系统建模

最后对推荐系统的行为进行建模。

算法推荐和冷(leng)启动推荐是新闻推荐系统的两个基本組(zu)件(jian)。为了提供个性化的算法推荐,推荐系统首先利用推荐算法,如BPR等,从历史交互数据中学习用户和新闻在嵌(qian)入空间中的表示(shi)( 研究团队用隐空间Latent Space指代大规模语言模型编码的真实用户兴趣空间,用嵌入空间Embedding Space指代推荐算法学习得到的用于生成推荐列表的空间)。

但是由于用户点赞行为的不确定性和新闻有效性窗(chuang)口(kou)的限制,算法推荐不能保(bao)證(zheng)覆(fu)蓋(gai)所有用户,对于这部分缺口,可以通过简单的随机推荐予(yu)以補(bu)全。

由于缺乏历史交互记录,新创作的新闻同样無(wu)法参与到算法推荐中,SimuLine应用随机推荐和启发式推荐算法(如历史上喜欢的创作者的新报道)等策略来推荐冷启动新闻。

此外,SimuLine还支持了其他启发式新闻推荐策略,如突(tu)发新闻,基于内容创作者的推广,以及基于主题的推广等。

所有的推荐策略均擁(yong)有獨(du)立的推送(song)額(e)度,推荐系统将来自所有渠(qu)道的新闻推荐合并形(xing)成最終(zhong)的推荐列表。

模拟实验

数据已就位(wei)!模型已搭(da)建!接下来进行一番緊(jin)张刺(ci)激的实验!

研究团队选用了新闻推荐领域广泛使用的Adressa数据集,这个数据集提供了挪(nuo)威(wei)新闻網(wang)站(zhan)www.adressa.no在2017 年二(er)月(yue)某一周的完整网絡(luo)日誌(zhi),与其他优秀(xiu)的新闻推荐数据集(例(li)如微(wei)軟(ruan)的MIND)相比,它原生提供了十分关键的新闻作者信息。相对应的,语言模型选用了原生支持挪威语的BPEmb。更多的部署细节諸(zhu)位可以参考论文中的第四(si)章第一小节。

那么该如何去分析SimuLine的模拟結(jie)果呢?SimuLine提供了一套多个视角的全面分析框架供君(jun)参考。

首先是最常用的量化指标評(ping)估体系。

为了全面反映新闻推荐生态系统的演化过程, 研究团队总结了已有文獻(xian)中出现过的量化指标,从以下五(wu)个方面构建了一套较为完整的评估体系:

1)互动性,包括点赞获赞的数量及其基尼(ni)指数,较低(di)的基尼指数代表更好的公(gong)平性;

2)覆盖率,包括算法推荐所覆盖的用户和新闻的数量;

3) 质量,包括时效期新闻的平均质量、获赞量加权的时效期新闻平均质量以及新闻质量与获赞量之间的皮(pi)爾(er)遜(xun)相关系数;

4)同质化,包括用户间的Jaccard指数,数值越高代表用户之间的新闻阅读重合程度越高;

5)匹配度,包括用户和他们喜欢的新闻之间的隐空间表征余(yu)弦(xian)相似度。

1. 生命周期

下面三张图分別(bie)展示了在不同Agent超参数条件下,用户、创作者、推荐系统的量化评估结果。

可以看到,模拟的过程和结果在各种超参数下都是比较穩(wen)定的,并且大約(yue)以第十轮和第二十轮为分界线(不同指标存在一定的前后浮(fu)动),系统的演化呈(cheng)现出了明显的阶段性(在图中用藍(lan)色的豎(shu)线画出了发生阶段轉(zhuan)换的轮次),这与著名的生命周期理论相一致。

由此得到第一个发现: 推荐系统驱动的在线新闻社区在不同的用户群体下均自然呈现出「启动」-「成长」-「成熟&衰退」的生命周期。

2. 用户分化

除了量化指标,可视化也是輔(fu)助(zhu)理解社区演化过程的重要工具。

研究团队通过PCA降(jiang)维可视化得到了下面这一组系统演化过程的快(kuai)照(zhao)(新闻用蓝色标示,有点赞记录的用户用綠(lv)色标示,没有点赞记录的用户用紅(hong)色标示。 节点大小代表点赞/获赞的数量)。

可以看到,虽然量化指标表现出了多阶段的模式,但隐空间表征的演化趨(qu)勢(shi)卻(que)是始终如一的,即用户逐渐分化为圈(quan)内用户(in-the-loop users)和圈外用户(out-the-loop users)。

圈内用户形成了一个兴趣趋同的稳定社区,而圈外用户则呈现出零(ling)散(san)的兴趣。

在第10轮和第20轮之间的演化过程中,用户基本完成了分化,这表明成长阶段对用户参与有至关重要的决定作用。

由此得到第二个发现:推荐系统驱动的在线新闻社区将不可避免地产生社区話(hua)题的趋同,并导致用户的分化,其中决定用户参与的关键时期是成长阶段。

3. 兴趣同化

如前文所说,由于SimuLine通过大规模预训练语言模型来构建隐空间,空间中的每个向量都可以通过相似詞(ci)检索来进行文本解释,这有助于通过案例研究了解单个用户的演变。

研究团队分别从圈内用户和圈外用户中随机抽取了3名用户,下面的表格(ge)展示了他们的兴趣演化过程。

对于圈内用户来说,他们的兴趣愈(yu)发抽象、广泛和概括,例如从「演员」到「工作」,从「奧(ao)斯陸(lu)」到「挪威」到「歐(ou)洲(zhou)」。不同用户的演化速(su)度各不相同,但都在第50轮时趋于一致。这一现象反映了作为不断与推荐系统互动的结果,用户的偏好从个性化的小众话题逐渐遷(qian)移到平台上广泛讨论的趋势性话题。

而对于圈外用户来说,他们的兴趣略有变化,但总是集中在特定的和个性化的话题上。例如4號(hao)和6号用户在整个模拟过程中分别对「运动员」、「茶(cha)」和「賬(zhang)单」保持兴趣。

由此得到第三个发现: 在推荐系统驱动的在线新闻社区中,用户的个性化兴趣在与推荐系统的持續(xu)互动过程中被同化了。

4. 启动阶段

借(jie)助上述(shu)量化指标、可视化、文本翻(fan)譯(yi)三大利器,SimuLine可以对系统的演化过程进行一次全面体检。

既(ji)然推荐系统驱动的在线新闻社区的演化过程符合生命周期理论,那就从生命周期的视角分析一下,在各个生命阶段,社区到底(di)是怎么演化的。

首先分析一下大致对应前10轮的启动阶段。

由于系统是白手起家从零做起,所以在最开始的阶段推荐系统是缺乏数据训练推荐算法的。相对应的,在这一阶段利用随机推荐和启发式推荐解决用户的冷启动问题便是首要任务。

由于无法使用更为准确的算法推荐,该阶段的推荐结果往(wang)往在兴趣匹配上不盡(jin)人意(yi),因此该阶段的点赞行为主要由新闻质量驱动,反映在量化指标上那便是质量和熱(re)度的较強(qiang)的正相关关系。

更进一步,便可以定位出启动阶段社区演化的两个主要驱动力量:

1)质量反饋(kui)回路(Quality feedback loops),即质量与热度在正相关关系基础上的相互促(cu)进,也就是东西越好点赞的人越多,点赞的人越多作者收益越高,作者收益越高越有动力产出质量更好的新闻报道;

2)兴趣-质量混淆(xiao),也就是在積(ji)累(lei)到足够准确估计用户兴趣的数据量之前,推荐算法会将质量驱动的点赞行为混淆为因为用户感兴趣而触发的行为。这两个驱动力量相互促进,使得受欢迎的内容创作者获得逐渐增(zeng)强的超量曝光(体现为创作者和新闻基尼指数的上升),并近一步擠(ji)壓(ya)用户个性化兴趣的满足(体现为用户与其点赞新闻之间隐空间相似度的下降)。但是大多数用户仍可以从增强的新闻质量中受益(体现为不断降低的用户点赞行为的基尼指数)。

总结一下,可以得到第四个发现: 在启动阶段,系统从随机推荐和高质量新闻中积累用于估计用户兴趣的数据,进而解决冷启动用户问题。质量反馈循(xun)環(huan)和兴趣-质量混淆通过过度曝光促成了極(ji)受欢迎的内容创作者的出现。

5. 成长阶段

随着数据的积累,推荐算法对用户兴趣的估计越来越准确,点赞行为从质量驱动逐渐转向兴趣驱动,质量和热門(men)程度之间的相关性逐渐减弱(ruo)。随着模拟轮次的增长,启动期创作的新闻逐渐过期并退出推荐候选,兴趣-质量混淆率先开始消散,并逐渐导致质量反馈循环的最终结束(shu)。

在成长阶段,每个圈内用户臨(lin)域内的新闻密度是不均勻(yun)的,朝(chao)向主流新闻主题的方向密度较高,而其他方向的密度相对较低。

其结果便是用户喜欢的新闻在统计上更多的会向主流新闻主题靠(kao)攏(long),这一点赞行为上的细微偏差不断出现,用户兴趣在持续的强化作用下也逐渐向主流新闻主题逼(bi)近。

与之相反的是,圈外用户陷入了「不点赞-算法推荐无法覆盖-推荐准确度低-更不会点赞」的僵(jiang)局。他们偶(ou)尔也会因为新闻质量而点赞,但推荐算法无法在数据时效内积累到足够的数据估计他们的兴趣。更頻(pin)繁(fan)和均衡的点赞行为刺激了新闻质量的增长,但由于高质量新闻的受欢迎程度下降,按(an)获赞数量加权的新闻质量总体上保持了稳定。

随着质量反馈循环的终止(zhi),内容创作者无法再获得超量关注,从而导致新闻质量的下降。对质量敏(min)感的用户可能会因此而不再点赞,进而导致用户覆盖率的下滑(hua)。

总结起来,可以得到第五个发现:在成长阶段,圈内用户在分布偏差的作用下向共同话题演化,而圈外用户则陷入僵局,导致了用户分化。越来越准确的算法推荐导致质量反馈循环的结束,社区因此而喪(sang)失了部分质量敏感的用户。

6. 成熟和衰退阶段

在第20轮左(zuo)右(you),社区进入了成熟和衰退阶段,此时大多数关键指标趋于稳定。

在此阶段,圈内用户动态地保持在共同话题的氣(qi)泡(pao)中,虽然他们的兴趣可能会因为点击一些不同的新闻而转移到气泡的边緣(yuan),但他们很快就会因为密度差而回到中心。

新闻获赞的基尼指数较高,而内容创作者的获赞基尼指数较低,说明即使是同一创作者创作的新闻,其受欢迎程度也存在很大差異(yi)。

除了贪婪(lan)的创作机制,新闻创作的过程本身具有高度随机性,因此气泡也呈现出自然的擴(kuo)张趋势。

扩张的气泡带来了更多样化的新闻候选,也导致了部分对话题敏感的用户逐渐退出。

由此可以得到第六(liu)个发现: 在成熟和衰退阶段,圈内用户共享(xiang)共同的话题,内容创作者围绕这些话题发布各种新闻。社区保持了稳定且緩(huan)慢(man)的扩张,但同时也流失了部分对兴趣敏感的用户。

7. 演化是如何发生的?

发现一到发现六回答了 研究团队关注的第一个研究问题:新闻推荐生态系统(News Recommendation Ecosystems, NREs)生命周期的每个阶段有什么特点?

接下来把所有的知識(shi)拢起来,嘗(chang)试回答一下第二个研究问题:驱动NREs演化的关键因素有哪些,这些因素是如何彼此作用进而影响进化过程的?

下面这张图总结了在线新闻社区演化的关键因素和影响机制,从中可以发现,重新出现的曝光偏差和死(si)鎖(suo)是导致圈内用户和圈外用户不同演化趋势的直接原因,并进一步导致了用户的分化和话题的趋同。

重新出现的曝光偏差是由多种因素共同造成的。

首先,从信息论的角度来看,推荐算法可以解释为一个信息压縮(suo)的过程,不可避免地导致流行度偏差,其中在数据集中高频出现的新闻(也就是点赞多的新闻)被更有效地编码以提高推荐性能。反映到社区的演化过程上,便体现为广泛讨论的共同话题会在算法推荐渠道上搶(qiang)占(zhan)个性化话题的曝光资源。

其次,由于内容创作者的逐利性,他们更有动力围绕公众感兴趣的话题创作新闻,这自然而然的会导致新闻发布密度从大众话题向个性化话题的降低。从这个意义上来看,即使全程采用随机推荐,社区也可能由于分布的偏差而朝着主题收斂(lian)的方向发展。

最后,过濾(lv)气泡和曝光偏差相互促进,共同导致了用户潜移默(mo)化的兴趣转移。算法推荐根据用户历史上点赞过的新闻推荐类似的报道,受限的新闻曝光使得曝光偏差更加难以被用户感知。

此外,推荐系统对流行新闻的偏向在不同的演化阶段表现出了不同的影响。

在启动阶段,存在兴趣-质量混淆,新闻质量与流行度之间存在较强的相关性,流行偏向具体表现为高质量新闻曝光度的增强。

随着数据的积累和算法推荐性能的提升,与质量驱动相比,点赞行为越来越受兴趣驱动,进而削(xue)弱了兴趣-质量混淆和质量-流行度相关性。流行偏向也从推荐优质新闻逐渐演变为单純(chun)的推荐高热度新闻。

在这个新舊(jiu)动能转换的过程中,培(pei)育出一些高人气同时高质量的新闻话题,对促进用户参与具有重要作用。

总结下来,便可以得到第七(qi)个发现: 流行偏向、新闻分布偏差和过滤气泡共同导致了曝光偏差这一影响用户差异化和话题收敛的关键因素。高人气的优质新闻对于打(da)破(po)圈外用户的僵局至关重要。

8. 如何避免社区衰落?

最后,借助SimuLine强大的模拟能力和分析能力,再探索一番第三个研究问题:如何通过推荐系统的设计策略,实现更好的长期多方效用,从而避免社区陷入「衰落」?

研究团队测试了四种最基础最常见的启发式推荐方法:基于訂(ding)阅制的新闻冷启动、热搜(sou)榜(bang)、话题推广和创作者推广。 下面三张图呈现了在基础推荐系统之上应用上述四种方法的社区演化结果。

(1)基于订阅制的新闻冷启动试图在用户和内容创作者之间形成稳定的跨(kua)轮曝光关系,从而增强启动阶段出现的质量反馈循环。

但是这种做法导致了嚴(yan)重的壟(long)断,没有取得先发优势的内容创作者反而会被质量反馈回路压制,破壞(huai)了算法覆盖率和新闻的平均质量,进而使整个社区生态的多样性受到严重挑(tiao)戰(zhan)。

(2)热搜榜是最常见的在线社区组件,依靠新闻质量和流行度之间的正相关关系,这种方式可以为用户提供更高质量的新闻推荐。同时从利用和探索(Exploit&Explore)的角度来看,阅读突发新闻也可以看作是一种突破用户现有兴趣局限的用户探索,有助于减輕(qing)过滤气泡的负面影响。

然而,这种方法无法阻(zu)止前文中讨论的流行度和质量之间相关性的崩(beng)潰(kui),这会导致推荐突发新闻的有效性下降。

(3)最后是平台推广,通过給(gei)特定话题或者特定作者提供额外的曝光额度,平台也可以主动地调控推荐的内容。针对内容创作者的推广可以建立起稳定的曝光关系,进而利用质量反馈回路培養(yang)高人气的优质新闻。

但与基于订阅制的新闻冷启动策略不同的是,可以在当前质量反馈循环培育出有害(hai)的垄断之前主动终止推广,从而保障(zhang)了用户的体验和创作者的创造力。作为一个独立于兴趣匹配的新闻傳(chuan)播(bo)渠道,它同样可以减轻过滤泡沫(mo)的负面影响。此外,通过重建质量反馈回路,它还将推荐系统对流行新闻的偏向导向对高质量新闻的有益推荐。

SimuLine在针对特定话题推广的实验中随机选择话题,也就是说热门话题与个性化话题有同等的机会被推广,因此对于曝光度相对较低的个性化话题,推广的影响相对较大。

这个方法理论上可以用于提升圈外用户的参与度,但由于推广新闻的质量无法得到保证,曝光量难以转化为获赞数,导致了该方法效果有限。

总结起来,便可以得到第八(ba)个发现: 在常见的推荐系统设计策略中,针对内容创作者的周期性推广是最有效的。通过积极构建质量反馈回路,它可以在整个社区中營(ying)造一波(bo)接一波的高人气高质量的新闻话题,同时平台可以通过定期的重置(zhi)来控制垄断。

小结

在这篇文章中,CISL 研究团队设计并开发了用于剖(pou)析新闻推荐生态系统演化过程的仿真平台SimuLine,并基于SimuLine对在线新闻社区的演化过程进行了詳(xiang)细分析。

SimuLine 构建了一个很好地反映人类行为的可理解的隐空间,并在此基础上通过基于代理的建模对新闻推荐生态系统进行了细致的模拟。

研究团队剖析了在线新闻社区演化的整个生命周期,包括启动、成长、成熟和衰退阶段,并分析了每个阶段的特征,同时提出了一个关系图来说明演化过程中的关键因素和影响机制。

最后, 研究团队探讨了推荐系统设计策略对社区演化的影响,包括对订阅制新闻冷启动、热点新闻和平台推广的利用。

未来,CISL 研究团队会考虑新闻的文本内容生成和社交网络活动的行为建模,以进行更强大更真实的模拟。

研究团队认为SimuLine也可以作为推荐系统评估的一大利器,提供在线用户实验和基于数据集的離(li)线实验之外的第三种选择(这也是给它起名为SimuLine的主要原因)。

研究团队也注意到最近推荐系统研究社区也提出了一系列的糾(jiu)偏推荐算法,旨(zhi)在处理推荐中的曝光偏差问题,这也是用户分化和主题收敛的直接原因。

由于本文側(ce)重于讨论推荐系统的系统设计而不是具体的推荐算法, 研究团队将这个问题留(liu)作一个开放的主题,并希望 SimuLine 能够促进未来在这个方向的研究。

参考资料:

https://arxiv.org/abs/2305.14103返(fan)回搜狐(hu),查(zha)看更多

责任编辑:

发布于:安徽巢湖无为县