餐饮夏日广告语

伊朗国家通讯社

餐饮夏日广告语在炎炎夏日里，最让人期待的莫过于一顿美食盛宴。如果你正在寻找可口美味的餐饮场所，那么你来对地方了。在这里，我们为您提供一系列丰富多彩的菜肴，无论您是喜欢中餐还是西餐，都能在这里找到适合自己的口味。

美味佳肴，品味夏日

夏日是美食的季节，新鲜的蔬果与食材，让我们有了更多创意的菜品。烤鸡、烤鱼、烤肉等烧烤美食更是深受大众喜爱。在这里，我们有各式各样的烧烤菜品，清爽的沙拉和凉拌菜肴，还有各种口味的饮品，为您提供完美的味蕾体验。

除了烧烤美食，我们还有各种汉堡、披萨、面条和盖饭等美味佳肴。您可以选择搭配自己喜欢的饮品或鸡尾酒，无论您是在室内就餐还是在露天用餐区，都能感受到舒适自由的氛围。

优质服务，尽享惬意

我们的服务团队由一群经验丰富、热情友好的人员组成，无论您需要什么样的服务，我们都会全力满足您的需求。从点菜到结账，我们都会提供高效、贴心的服务，让您尽情享受美食的同时，感受到我们对您的关怀。

我们还提供独特的美食体验，比如主题派对、私人聚会、生日宴会等各种活动。无论是小型团体还是大型活动，我们都能为您提供最佳的方案，让您和您的朋友们度过一个难忘的夏日之夜。

结论

在这个夏天，来享受美食的盛宴吧。我们为您提供优质的服务、美味佳肴和独特的美食体验，让您度过一个愉快难忘的夏日时光。咨询我们的客服，了解更多详情。

餐饮夏日广告语随机日志

学习讲义：不定时更新考试技巧和知识点汇总，以供参考。

1、【品牌选车】选车有疑问，平台和摩友给你来支招，跑车街车踏板多种车型，平台评分解读不同车型的详细配置，车型、功能、价格对比，让你及时了解车辆情况。

2、优化内部数据导入和导入，可将储存在内部的数据(安卓0以上)导出到外部文件夹中用于备份和查看。

3、很多小伙伴的吃鸡游戏是低配版的，也就是LITE版。但是使用的还是绝地求生的加速来进行加速，这是不通用的，因为两个是完全不同游戏客户端。所以加速选择的客户端也不同，想要加速绝地求生低配版，在加速中选择PUGBLITE即可，同时这几个游戏还自带分区，请根据你想要玩的游戏区服来选择。

4、北京银行“京彩生活”手机银行版本全新升级，为您带来更加简单、更加便捷、更加安全、更加智慧的手机银行使用体验。

5、还支持一些其他功能，各位可以对照翻译软件研究一下。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>比(bi)HuggingFace快(kuai)24倍(bei)！伯(bo)克(ke)利(li)神(shen)級(ji)LLM推(tui)理(li)系(xi)統(tong)開(kai)源(yuan)，碾(nian)壓(ya)SOTA，讓(rang)GPU砍(kan)半(ban)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：桃(tao)子(zi) 好(hao)困(kun)

【新智元導(dao)讀(du)】打(da)「排(pai)位(wei)賽(sai)」的(de)大(da)模(mo)型(xing)們(men)背(bei)後(hou)秘(mi)密(mi)武(wu)器(qi)曝(pu)光(guang)！UC伯克利重(zhong)磅(bang)开源神级LLM推理系统——vLLM，利用(yong)PagedAttention，比HuggingFace/Transformers快24倍，GPU數(shu)量(liang)減(jian)半。

過(guo)去(qu)2個(ge)月(yue)，來(lai)自(zi)UC伯克利的研(yan)究(jiu)人(ren)員(yuan)給(gei)大語(yu)言(yan)模型们安(an)排了(le)壹(yi)个擂(lei)臺(tai)——Chatbot Arena。

GPT-4等(deng)大语言模型玩(wan)家(jia)打起(qi)了「排位赛」，通(tong)过隨(sui)機(ji)battle，根(gen)據(ju)Elo得(de)分(fen)来排名(ming)。

這(zhe)一过程(cheng)中(zhong)，每(mei)當(dang)一个用戶(hu)訪(fang)問(wen)並(bing)使(shi)用網(wang)站(zhan)，就(jiu)需(xu)要(yao)同(tong)時(shi)让兩(liang)个不(bu)同的模型跑(pao)起来。

他(ta)们是(shi)如(ru)何(he)做(zuo)到(dao)的？

这不，就在(zai)今(jin)天(tian)，UC伯克利重磅开源了世(shi)界(jie)最(zui)快LLM推理和(he)服(fu)務(wu)系统vLLM。

簡(jian)之(zhi)，vLLM是一个开源的LLM推理和服务引(yin)擎(qing)。它(ta)利用了全(quan)新的註(zhu)意(yi)力(li)算(suan)法(fa)「PagedAttention」，有(you)效(xiao)地(di)管(guan)理注意力鍵(jian)和值(zhi)。

配(pei)備(bei)全新算法的vLLM，重新定(ding)義(yi)了LLM服务的最新技(ji)術(shu)水(shui)平(ping)：

與(yu)HuggingFace Transformers相(xiang)比，它提(ti)供(gong)高(gao)達(da)24倍的吞(tun)吐(tu)量，而(er)無(wu)需進(jin)行(xing)任(ren)何模型架(jia)構(gou)更(geng)改(gai)。

值得一提的是，「小(xiao)羊(yang)駝(tuo)」Vicuna在demo中用到的就是FastChat和vLLM的一个集(ji)成(cheng)。

正(zheng)如研究者(zhe)所(suo)稱(cheng)，vLLM最大的優(you)勢(shi)在於(yu)——提供易(yi)用、快速(su)、便(bian)宜(yi)的LLM服务。

这意味(wei)著(zhu)(zhe)，未(wei)来，即(ji)使對(dui)于像(xiang)LMSYS这樣(yang)計(ji)算資(zi)源有限(xian)的小型研究團(tuan)隊(dui)也(ye)能(neng)輕(qing)松(song)部(bu)署(shu)自己(ji)的LLM服务。

項(xiang)目(mu)地址(zhi)：https://github.com/vllm-project/vllm

現(xian)在，所有人可(ke)以(yi)在GitHub倉(cang)庫(ku)中使用一个命(ming)令(ling)嘗(chang)試(shi)vLLM了。論(lun)文(wen)随后也會(hui)發(fa)布(bu)。

性(xing)能全面(mian)碾压SOTA

今天，这个由(you)UC伯克利創(chuang)立(li)的开放(fang)研究組(zu)織(zhi)LMSYS介(jie)紹(shao)道：

「一起来見(jian)證(zheng)vLLM：Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU数量减少(shao)了一半，同时每天平均(jun)提供3萬(wan)次(ci)請(qing)求(qiu)。」

vLLM的性能具(ju)體(ti)如何？

UC伯克利团队將(jiang)vLLM的吞吐量与最受(shou)歡(huan)迎(ying)的LLM库HuggingFace Transformers（HF），以及(ji)HuggingFace文本(ben)生(sheng)成推理（TGI），先(xian)前(qian)的最新技术水平进行了比較(jiao)。

团队在两个設(she)置(zhi)中进行評(ping)估(gu)：在NVIDIA A10G GPU上(shang)運(yun)行LLaMA-7B模型，在NVIDIA A100 GPU（40GB）上运行LLaMA-13B模型。

然(ran)后，研究人员從(cong)ShareGPT数据集中抽(chou)样请求的輸(shu)入(ru)/输出(chu)長(chang)度(du)。

在實(shi)驗(yan)中，vLLM的吞吐量比HF高达24倍，并且(qie)比TGI高达3.5倍。

在每个请求只(zhi)需要一个输出完(wan)成时的服务吞吐量。vLLM比HF的吞吐量高出14倍-24倍，比TGI的吞吐量高出2.2倍-2.5倍

在每个请求需要3个并行输出完成时的服务吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍，比TGI的吞吐量高出3.3倍-3.5倍

秘密武器：PagedAttention

在vLLM中，团队发现LLM服务的性能受到內(nei)存(cun)的限制(zhi)。

在自回(hui)歸(gui)解(jie)碼(ma)过程中，LLM的所有输入token都(dou)会生成注意力键（key）和值（value）張(zhang)量，并且这些(xie)张量被(bei)保(bao)留(liu)在GPU内存中以生成下(xia)一个token。

这些緩(huan)存的键和值张量通常(chang)被称為(wei)KV缓存。KV缓存具有以下特(te)點(dian)：

1. 内存占(zhan)用大：在LLaMA-13B中，單(dan)个序(xu)列(lie)的KV缓存占用高达1.7GB的内存。

2. 動(dong)態(tai)化(hua)：其(qi)大小取(qu)決(jue)于序列长度，而序列长度高度易變(bian)，且不可預(yu)測(ce)。

因(yin)此(ci)，有效管理KV缓存是一个重大挑(tiao)戰(zhan)。对此，研究团队发现现有系统由于碎(sui)片(pian)化和过度保留而浪(lang)費(fei)了60%至(zhi)80%的内存。

用团队的导師(shi)Joey Gonzalez的一句(ju)話(hua)来講(jiang)：GPU内存碎片化=慢(man)。

为了解决这个问題(ti)，团队引入了PagedAttention，一種(zhong)受到操(cao)作(zuo)系统中虛(xu)擬(ni)内存和分頁(ye)經(jing)典(dian)概(gai)念(nian)啟(qi)发的注意力算法。

与傳(chuan)统的注意力算法不同，PagedAttention允(yun)許(xu)在非(fei)連(lian)續(xu)的内存空(kong)間(jian)中存儲(chu)连续的键和值。

PagedAttention：KV缓存被分割(ge)成塊(kuai)，这些块在内存中不需要连续

由于这些块在内存中不需要连续，因此也就可以像操作系统的虚拟内存一样，以更靈(ling)活(huo)的方(fang)式(shi)管理键和值——将块看(kan)作页，token看作字(zi)節(jie)，序列看作进程。

序列的连续邏(luo)辑块通过块表(biao)映(ying)射(she)到非连续的物(wu)理块。随着生成新的token，物理块会按(an)需进行分配。

使用PagedAttention的请求生成过程示(shi)例(li)

PagedAttention将内存浪费控(kong)制在了序列的最后一个块中。

在实踐(jian)中，这帶(dai)来了接(jie)近(jin)最优的内存使用——僅(jin)有不到4%的浪费。

而这种内存效率(lv)的提升(sheng)，能让系统将更多(duo)的序列进行批(pi)處(chu)理，提高GPU利用率，从而顯(xian)著提高吞吐量。

此外(wai)，PagedAttention還(hai)具有另(ling)一个關(guan)键优势：高效的内存共(gong)享(xiang)。

比如在并行采(cai)样中，就能从相同的提示生成多个输出序列。在这种情(qing)況(kuang)下，提示的计算和内存可以在输出序列之间共享。

并行采样的示例

PagedAttention通过块表自然地实现了内存共享。

類(lei)似(si)于进程共享物理页的方式，PagedAttention中的不同序列可以通过将它们的逻辑块映射到相同的物理块来共享块。

为了確(que)保安全，PagedAttention会跟(gen)蹤(zong)物理块的引用计数，并实现了寫(xie)时復(fu)制机制。

采样多个输出的请求示例生成过程

PagedAttention的内存共享極(ji)大减少了复雜(za)采样算法（如并行采样和束(shu)搜(sou)索(suo)）的内存开銷(xiao)，将它们的内存使用量减少了高达55%。这可以将吞吐量提高多达2.2倍。

總(zong)結(jie)而言，PagedAttention是vLLM的核(he)心(xin)技术，它是LLM推斷(duan)和服务的引擎，支(zhi)持(chi)各(ge)种模型，具有高性能和易于使用的界面。

GitHub上，团队也介绍了vLLM能夠(gou)无縫(feng)支持的HuggingFace模型，包(bao)括(kuo)以下架构：

- GPT-2（gpt2、gpt2-xl等）

- GPTNeoX（EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等）

- LLaMA（lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等）

- OPT（facebook/opt-66b、facebook/opt-iml-max-30b等）

小羊驼和排位赛的「幕(mu)后英(ying)雄(xiong)」

4月初(chu)，UC伯克利學(xue)者聯(lian)手(shou)UCSD、CMU等，最先推出了一个开源全新模型—— 130億(yi)參(can)数的Vicuna，俗(su)称「小羊驼」。

从那(na)时起，Vicuna已(yi)在Chatbot Arena为数百(bai)万用户提供服务。

最初，LMSYS的FastChat采用基(ji)于HF Transformers的服务后端(duan)来提供聊(liao)天demo。

但(dan)随着demo变得越(yue)来越受欢迎，峰(feng)值流(liu)量猛(meng)增(zeng)了好幾(ji)倍，而HF后端也因此成了一个重大的瓶(ping)頸(jing)。

为了解决这一挑战，LMSYS与vLLM团队緊(jin)密合(he)作，全力开发出了全新的FastChat-vLLM集成——通过将vLLM作为新的后端，来滿(man)足(zu)不断增长的需求（最多增加(jia)5倍的流量）。

根据LMSYS内部微(wei)基準(zhun)测试的结果(guo)，vLLM服务后端可以实现比初始(shi)HF后端高出30倍的吞吐量。

4月-5月期(qi)间，Chatbot Arena的后端已经部落(luo)了FastChat-vLLM的集成。实際(ji)上，有超(chao)过一半的Chatbot Arena请求都使用FastChat-vLLM集成服务的

自4月中旬(xun)以来，最受欢迎的语言模型，如Vicuna、Koala和LLaMA，都已成功(gong)使用FastChat-vLLM集成提供服务。

FastChat作为多模型聊天服务前端，vLLM作为推理后端，LMSYS能够利用有限数量的GPU（学校(xiao)贊(zan)助(zhu)的），以高吞吐量和低(di)延(yan)遲(chi)为数百万用户提供Vicuna服务。

现在，LMSYS正在将vLLM的使用擴(kuo)展(zhan)到更多的模型，包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。

vLLM使用教(jiao)程

使用以下命令安裝(zhuang)vLLM（另可查(zha)看安装指(zhi)南(nan)了解更多信(xin)息(xi)）：

$ pip install vllm

vLLM可用于離(li)線(xian)推理和在线服务。要使用vLLM进行离线推理，妳(ni)可以导入vLLM并在Python腳(jiao)本中使用LLM类：

from vllm import LLMprompts = ["Hello, my name is","The capital of France is"] # Sample prompts. llm = LLM(model="lmsys/vicuna-7b-v1.3") # Create an LLM. outputs = llm.generate(prompts) # Generate texts from the prompts.

要使用vLLM进行在线服务，你可以通过以下方式启动与OpenAI API兼(jian)容(rong)的服务器：

$ python -m vllm.entrypoints.openai.api_server --model lmsys/vicuna-7b-v1.3

你可以使用与OpenAI API相同的格(ge)式查詢(xun)服务器：

$ curl http://localhost:8000/v1/completions \-H"Content-Type: application/json" \-d '{"model":"lmsys/vicuna-7b-v1.3","prompt":"San Francisco is a","max_tokens": 7,"temperature": 0 }'

有关使用vLLM的更多方法，请查看快速入門(men)指南：

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html

团队介绍

李(li)卓(zhuo)翰(han)

Zhuohan Li（李卓翰）是加州(zhou)大学伯克利分校计算机科(ke)学專(zhuan)業(ye)的博(bo)士(shi)生，研究興(xing)趣(qu)是机器学習(xi)和分布式系统的交(jiao)叉(cha)領(ling)域(yu)。

在此之前，他在北(bei)京(jing)大学獲(huo)得了计算机科学学士学位，指导老(lao)师是王(wang)立威(wei)和賀(he)笛(di)。

Woosuk Kwon

Woosuk Kwon是加州大学伯克利分校的博士生，研究兴趣是为大语言模型等新兴應(ying)用建(jian)立实用、灵活和高性能的軟(ruan)件(jian)系统。

团队其他成员包括莊(zhuang)思(si)源、盛(sheng)穎(ying)、鄭(zheng)憐(lian)憫(min)、Cody Yu。团队导师包括Joey Gonzalez，Ion Stoica和张昊(hao)。

其中，团队的大部分成员同时也是LMSYS成员。

参考(kao)资料(liao)：

https://vllm.ai返(fan)回搜狐(hu)，查看更多

責(ze)任编辑：