感谢IT之家网友 航空先生 的线索投递!
,商汤科技于今日发布了多模态多任务通用大模型“书生2.5”,拥有 30 亿参数,号称是目前全球开源模型中 ImageNet 准确度最高、规模最大,同时也是物体检测标杆数据集 COCO 中唯一超过 65.0 mAP 的模型。
据介绍,“书生 2.5”的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于 2021 年 11 月首次共同发布,并持续联合研发。
改进方面,“书生 2.5”实现了通过文本来定义任务,从而可以灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。
在自动驾驶和居家机器人等通用场景下,“书生 2.5”可辅助处理各种复杂任务。
例如,在自动驾驶场景中,可以大幅提升场景感知理解能力,准确辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆决策规划提供有效信息输入。
除解决自动驾驶和居家机器人这类复杂问题的能力,“书生 2.5”通用大模型也可解决纷繁复杂的日常生活中的常见任务,满足各种需求。
除全图级别的以图生文,“书生 2.5”通用大模型同样可根据物体边框更精细化定位任务需求。
“书生 2.5”同时具备 AIGC“以文生图”的能力。可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。
例如,借助“书生 2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤车道、马路上奔跑的狗等,生成写实的 Corner Case 训练数据,进而训练自动驾驶系统对 Corner Case 场景的感知能力上限。
“书生 2.5”还可根据文本快速检索出视觉内容。
例如,可在相册中返回文本所指定的相关图像,或是在视频中检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,实现开放世界视频或图像中物体检测及视觉定位。
即日起,“书生 2.5”多模态通用大模型已在商汤参与的通用视觉开源平台 OpenGVLab 开源,IT之家附 GitHub 仓库访问链接。
日前,智联招聘《2022中国年度最佳雇主评选报告》评选出了2022年中国最佳雇主TOP30,A.O.史密斯连续8年榜上有名,与宝马中国、招商
国家统计局新闻发言人、国民经济综合统计司司长付凌晖今日出席发布会,介绍2023年1-2月份国民经济运行情况。 付凌晖表示,总的来看今年以来
一年一度的“3·15”国际消费者权益日已经到来,为全力保障金融消费者权益,围绕“共筑诚信消费环境提振金融消费信心”主题,君康人寿在3·15期
感谢IT之家网友华南吴彦祖的线索投递! ,LG今天推出了一款全新的超宽游戏显示器,隶属于旗下游戏品牌LGUltraGear。 这款型号为
251公里四叶草款车型长宽高为3650×1670×1540mm,轴距2390mm,整备质量1080kg,轮胎规格为165/65R14。它配备
财政部30日公布了2022年财政收支“成绩单”。数据显示,2022年,全国一般公共预算收入203703亿元,比上年增长0.6%,扣除留抵退税
中国人民银行发布的最新数据显示,据初步统计,2022年三季度末,我国金融业机构总资产为413.46万亿元,同比增长10.1%。其中,银行业机
3月12日,石药集团“评价CM310重组人源化单克隆抗体注射液在中-重度哮喘受试者中的有效性和安全性的随机、双盲、安慰剂对照Ⅱ/Ⅲ期临床研究
《人民日报》 中国人民银行发布的2022年金融统计数据显示,去年全年,我国人民币贷款增加21.31万亿元,同比多增1.36万亿元。其中12
记者29日从中国人民银行获悉,为引导金融机构加大对绿色发展等领域的支持力度,人民银行近日印发通知,延续实施碳减排支持工具等三项货币政策工具。
先驱网--综合性的生活资讯平台
邮箱:hchchc0324@163.com