文登疫情

文登疫情——记2021年夏季疫情

2021年夏季,全国多地陆续爆发新冠病毒疫情,山东省文登市也不幸成为疫情的重灾区之一。本文将从疫情初期的爆发情况、防控措施的落实、社区居民的配合以及抗疫期间的奉献精神等方面,全面回顾文登疫情。

疫情初期的爆发情况

2021年7月中旬,文登市连续发现多个本土确诊病例,随后迅速扩散。据官方统计,截至8月底,文登市累计报告本土确诊病例100余例,其中重症病例10余例。病例数量的急剧上升,使得文登市成为山东省疫情重点地区,也吸引了全国各地的关注。

防控措施的落实

面对疫情的迅速蔓延,文登市迅速启动了应急响应机制,实施了严格的防控措施。市政府、卫生健康部门、公安局等多个部门紧密配合,全力以赴打响疫情防控战。同时,加大了扩大核酸检测的力度,对密接者、疑似病例等人员进行迅速排查和隔离,以最大程度遏制疫情的传播。

社区居民的配合

在防控措施的推行过程中,社区居民也积极配合,做出了积极的贡献。在居民小区内,一些志愿者们自发组织起来,为小区内的老人送菜送药,为需要隔离的人员提供生活物资。同时,大部分居民都自觉戴上口罩,勤洗手,避免聚集。这些基层力量的付出,为疫情防控提供了有力的支持。

抗疫期间的奉献精神

在疫情防控期间,文登市不少医护人员、公安干警、志愿者等,奋战在一线,用自己的实际行动,展现出了担当精神。他们日以继夜地守护着每一个患者的生命,为疫情的消退,做出了无私的奉献。

总结归纳

文登疫情的爆发,引起了全国的广泛关注。但是,在疫情期间,文登市政府、卫生健康部门、公安局和社区居民等各方力量密切合作,全力以赴打响疫情防控战。更为难能可贵的是,抗疫期间的奉献精神,为文登市这座城市增添了无限的光彩。相信在全国各地的努力下,疫情最终会被打败,人民的生活会更加美好。

文登疫情随机日志

锁屏皮肤:各种炫彩风格的主题锁屏模式供您选择;

1、章节练习:学员自主选择感兴趣的知识点进行练习。

2、显示获取,表示这个应用没购买或者首次下载,显示下载则相反

3、内置00多种主播语音包,支持中文与英文;

4、口袋参谋单品分析功能,包含销量监控、评论分析、问大家分析、sku分析

5、拼写错误者可以快速找到关键词的最高级拼写错误,因此你可以从发现错误中获得更多的收益。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>谷(gu)歌(ge)開(kai)源(yuan)首(shou)個(ge)「方(fang)言(yan)」數(shu)據(ju)集(ji):讓(rang)機(ji)器(qi)翻(fan)譯(yi)更(geng)地(di)道(dao)

新(xin)智(zhi)元(yuan)報(bao)道

編(bian)輯(ji):LRS

【新智元導(dao)讀(du)】数据集包(bao)含(han)葡(pu)萄(tao)牙(ya)語(yu)和(he)漢(han)语普(pu)通(tong)話(hua)。

雖(sui)然(ran)全(quan)中(zhong)國(guo)的(de)人(ren)都(dou)在(zai)說(shuo)汉语,但(dan)具(ju)體(ti)到(dao)各(ge)地的方言卻(que)略(lve)有(you)不(bu)同(tong),比(bi)如(ru)同樣(yang)是(shi) 小(xiao)巷(xiang)的意(yi)思(si),「胡(hu)同」壹(yi)开口(kou)就(jiu)知(zhi)道是老(lao)北(bei)京(jing)了(le),而(er)到了南(nan)方則(ze)叫(jiao)「弄(nong)」。

這(zhe)種(zhong)細(xi)微(wei)的 地域(yu)性(xing)差(cha)異(yi)反(fan)應(ying)在「机器翻译」任(ren)務(wu)上(shang),就會(hui)顯(xian)得(de)翻译結(jie)果(guo)不夠(gou)「地道」,而目(mu)前(qian)幾(ji)乎(hu)所(suo)有的机器翻译系(xi)統(tong)都沒(mei)有考(kao)慮(lv)地區(qu)性语言(即(ji)方言)的影(ying)響(xiang)。

而在世(shi)界(jie)範(fan)圍(wei)內(nei)也(ye)存(cun)在这种現(xian)象(xiang),比如巴(ba)西(xi)的官(guan)方语言是葡萄牙语,跟(gen)歐(ou)洲(zhou)的葡萄牙语之(zhi)間(jian)也有一些(xie)地域性差异。

最(zui)近(jin)谷歌發(fa)布(bu)了一个全新的,可(ke)用(yong)於(yu)Few-shot Region-aware机器翻译的数据集和評(ping)估(gu)基(ji)準(zhun)FRMT,主(zhu)要(yao)解(jie)決(jue)方言翻译問(wen)題(ti),論(lun)文(wen)发表(biao)在TACL(Transactions of the Association for Computational Linguistics)上。

论文鏈(lian)接(jie):https://arxiv.org/pdf/2210.00193.pdf

开源链接:https://github.com/google-research/google-research/tree/master/frmt

該(gai)数据集包括(kuo)從(cong)英(ying)语到葡萄牙语和中文普通话的兩(liang)个地区變(bian)体的專(zhuan)業(ye)翻译,源文檔(dang)是為(wei)了能(neng)够詳(xiang)细分(fen)析(xi)感(gan)興(xing)趣(qu)的现象,包括詞(ci)匯(hui)上不同的術(shu)语和幹(gan)擾(rao)术语。

研(yan)究(jiu)人員(yuan)探(tan)索(suo)了 FRMT 的自(zi)動(dong)评估指(zhi)標(biao),並(bing)在区域匹(pi)配(pei)和不匹配评分情(qing)景(jing)下(xia)驗(yan)證(zheng)了其(qi)與(yu)专家(jia)人工(gong)评估的相(xiang)關(guan)性。

最後(hou),为这項(xiang)任务提(ti)出(chu)了一些基線(xian)模(mo)型(xing),并为研究人员如何(he)訓(xun)練(lian)、评估和比較(jiao)自己(ji)的模型提供(gong)指导建(jian)議(yi),数据集和评估代(dai)碼(ma)已(yi)开源。

Few-Shot泛(fan)化(hua)

大(da)多(duo)数现代机器翻译系统都經(jing)過(guo)数百(bai)萬(wan)或(huo)数十(shi)億(yi)翻译样本(ben)的训练,輸(shu)入(ru)数据包括英语输入句(ju)及(ji)其相应的葡萄牙语翻译。

然而,絕(jue)大多数可用的训练数据并没有说明(ming)翻译的地区差异。

比如输入句子(zi):The bus arrived,再(zai)給(gei)定(ding)几个巴西葡萄牙语的例(li)子,模型应该能翻译出「O ?nibus chegou」;如果给的样例是欧洲葡萄牙语,模型的翻译结果应该变为「O autocarro chegou」。

机器翻译的few-shot方法(fa)是很(hen)有研究價(jia)值(zhi)的,能够以(yi)一种非(fei)常(chang)簡(jian)單(dan)的方式(shi)來(lai)對(dui)现有系统中增(zeng)加(jia)对額(e)外(wai)区域语言的支(zhi)持(chi)能力(li)。

虽然谷歌目前发表的工作(zuo)是針(zhen)对两种语言的区域变体,但研究人员預(yu)測(ce),一个好(hao)的方法將(jiang)很容(rong)易(yi)適(shi)用于其他(ta)语言和区域的变体。

从原(yuan)理(li)上来说,这些方法也适用于其他语言差异现象,例如禮(li)節(jie)和風(feng)格(ge)等(deng)。

数据收(shou)集

FRMT 数据集包括部(bu)分英文維(wei)基百科(ke)文章(zhang),来源于 Wiki40b 数据集,这些文章已经由(you)付(fu)費(fei)的专业翻译人员翻译成(cheng)不同的地区性的葡萄牙语和汉语。

为了突(tu)出关鍵(jian)区域感知的翻译難(nan)题,研究人员使(shi)用了三(san)个内容桶(tong)(content buckets)来設(she)計(ji)数据集:

1. 词汇 Lixical

研究人员根(gen)据博(bo)客(ke)和教(jiao)育(yu)網(wang)站(zhan)手(shou)动收集了20-30个具有地区特(te)色(se)的翻译术语,并根据来自每(mei)个地区的母(mu)语誌(zhi)願(yuan)者(zhe)的反饋(kui)对翻译進(jin)行(xing)过濾(lv)和審(shen)核(he)。

根据得到的英语术语列(lie)表,从相关的英语维基百科文章(例如,bus)中提取(qu)出100个句子。再对普通话,重(zhong)復(fu)上述(shu)相同的的收集过程(cheng)。

2. 實(shi)体 Entity

实体桶以類(lei)似(si)的方式填(tian)充(chong),涉(she)及的人、位(wei)置(zhi)或其他实体与某(mou)一特定语言所涉两个区域之一有著(zhu)(zhe)密(mi)切(qie)聯(lian)系。

比如给定一个说明性的句子,如「In Lisbon, I often took the bus.」(在裏(li)斯(si)本,我(wo)经常坐(zuo)公(gong)共(gong)汽(qi)車(che)。),为了正(zheng)確(que)地将其翻译成巴西葡萄牙语,模式必(bi)須(xu)能够識(shi)別(bie)出两个潛(qian)在的陷(xian)阱(jing):

1)里斯本和葡萄牙之间更密切的地理关联可能会影响模型翻译的選(xuan)擇(ze),从而幫(bang)助(zhu)模型判(pan)斷(duan)出应该翻译成欧洲葡萄牙语而非巴西葡萄牙语,即选择「autocarro」而不是「?nibus」。

2)用「巴西利(li)亞(ya)」代替(ti)「里斯本」可能是一个比较简单的方式,对于同一个模式,对巴西葡萄牙语本地化其输出,即便(bian)翻译结果仍(reng)然很流(liu)暢(chang),但也可能会导致(zhi)不准确的语義(yi)。

3. 隨(sui)机 Random

随机桶用于檢(jian)查(zha)一个模型是否(fou)正确處(chu)理了其他不同的现象,包含从维基百科的featured和good)集合(he)中随机抽(chou)取的100篇(pian)文章。

系统性能

为了验证为 FRMT 数据集收集的翻译能够捕(bu)獲(huo)特定区域的现象,研究人员对数据質(zhi)量(liang)进行了人工评估。

对于每个地区,研究人员要求(qiu) MQM 评分者对来自他們(men)所在地区的翻译和来自他们语言的其他地区的翻译进行评分。

例如,巴西的葡萄牙语评分员同時(shi)对巴西和欧洲的葡萄牙语译本都进行了评分,两个分数之间的差异表明语言现象的普遍(bian)性,即该语言变体是否可接受(shou),而并非是另(ling)一种语言。

实验结果发现,在葡萄牙语和汉语中,评分者平(ping)均(jun)比匹配的译文中每个句子多发现大約(yue)两个主要錯(cuo)誤(wu),表明FRMT数据集确实能够捕获特定区域的语言现象。

虽然人工评估是确保(bao)模型质量的最佳(jia)方法,但其往(wang)往是緩(huan)慢(man)且(qie)昂(ang)貴(gui)的。

因(yin)此(ci),研究人员希(xi)望(wang)找(zhao)到一个现成的自动度(du)量指标,可以用来评估模型在基准中的性能,研究人员考虑选择使用 chrF,BLEU 和 BLEURT.

根据 MQM 评估者对几个基线模型翻译结果的评分,可以发现 BLEURT 与人类判断具有最好的相关性,并且该相关性的強(qiang)度(0.65 Pearson 相关系数,ρ)与标註(zhu)者间一致性(0.70組(zu)内相关性)相當(dang)。

系统性能

文中评估了一些最近发布的、具有few-shot控(kong)制(zhi)能力的模型。

基于 MQM 的人类评估,基线方法都表现出一定的localize葡萄牙语输出的能力,但是对于中文普通话,大多没有利用目标地区的知识来生(sheng)成優(you)秀(xiu)的当地翻译结果。

在评估的基准中,谷歌的语言模型 PaLM 模型的性能最佳,为了使用 PaLM 生成针对区域的翻译,首先(xian)将一个有指导意义的提示(shi)输入模型,然后从中生成文本以填充空(kong)白(bai)。

PaLM 僅(jin)通过一个例子就获得了很好的结果,在葡萄牙语方面(mian),当增加到10个例子时,质量略有提高(gao),考虑到 PaLM 是在無(wu)監(jian)督(du)的情況(kuang)下进行训练的,这种表现已经非常好了。

研究结果還(hai)表明,像(xiang) PaLM 这样的语言模型可能特别擅(shan)長(chang)記(ji)憶(yi)流畅翻译所需(xu)的特定区域的词汇选择。

然而,在 PaLM 和人类之间仍然存在显著的性能差距(ju)。

參(can)考資(zi)料(liao):

https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html返(fan)回(hui)搜(sou)狐(hu),查看(kan)更多

責(ze)任编辑:

发布于:河北省唐山乐亭县