您现在的位置是：时尚 >>正文

清晰指向，说出坐标，Shikra开启多模态大模子参考对于话新维度

时尚364人已围观

简介在人类的同样艰深交流中，每一每一会关注场景中差距的地域或者物体，人们可能经由语言并指向这些地域来妨碍高效的信息交流。这种交互方式被称为参考对于话Referential Dialogue）。假如 MLL ...

在人类的清晰同样艰深交流中，每一每一会关注场景中差距的指向坐标地域或者物体，人们可能经由语言并指向这些地域来妨碍高效的说出信息交流。这种交互方式被称为参考对于话（Referential Dialogue）。开启考对

假如 MLLM 长于这项本领，多模度它将带来良多使人欢喜的模参运用。好比，于话将其运用到 Apple Vision Pro 等混合事实 (XR) 眼镜中，清晰用户可能运用视线凝望调拨任何内容与 AI 对于话。指向坐标同时 AI 也可能经由高亮等方式来指向某些地域，说出实现与用户的开启考对高效交流。

本文提出的多模度 Shikra 模子，就给予了 MLLM 这样的模参参考对于话能耐，既可能清晰位置输入，于话也可能发生位置输入。清晰

论文地址：http://arxiv.org/abs/2306.15195
代码地址：https://github.com/shikras/shikra

中间走光

Shikra 可能清晰用户输入的 point/bounding box ，并反对于 point/bounding box 的输入，可能以及人类无缝地妨碍参考对于话。

Shikra 妄想重大直接，接管非拼接式妄想，不需要格外的位置编码器、前 / 后目的检测器或者外部插件模块，致使不需要格外的辞汇表。

如上图所示，Shikra 可能精确清晰用户输入的定位地域，并能在输入中援用与输入时差距的地域妨碍交流，像人类同样经由对于话以及定位妨碍高效交流。

如上图所示，Shikra 不光具备 LLM 所有的根基知识，还可能基于位信托息做出推理。

如上图所示，Shikra 可能对于图片中正在爆发的使命发生详细的形貌，并为参考的物体天生精确的定位。

尽管 Shikra 不在 OCR 数据集上特意磨炼，但也具备根基的 OCR 能耐。

更多例子

其余传统使命

措施

模子架构接管 CLIP ViT-L/14 作为视觉主干，Vicuna-7/13B 作为基语言模子，运用一层线性映射衔接 CLIP 以及 Vicuna 的特色空间。

Shikra 直接运用做作语言中的数字来展现物体位置，运用 [xmin, ymin, xmax, ymax] 展现领土框，运用 [xcenter, ycenter] 展现地域中间点，地域的 xy 坐标凭证图像巨细妨碍归一化。每一个数字默认保存 3 位小数。这些坐标可能出如今模子的输入以及输入序列中的任何位置。记实坐标的方括号也做作地出如今句子中。

试验服从

Shikra 在传统 REC、VQA、Caption 使命上都能取患上优异展现。同时在 PointQA-Twice、Point-V7W 等需要清晰位置输入的 VQA 使命上取患了 SOTA 服从。

本文运用 POPE benchmark 评估了 Shikra 发生幻觉的水平。Shikra 患上到了以及 InstrcutBLIP 至关的服从，并远超近期其余 MLLM 。

脑子链（CoT），旨在经由在最终谜底前削减推理历程以辅助 LLM 回回重大的 QA 下场。这一技术已经被普遍运用到做作语言处置的种种使掷中。可是若何在多模态场景下运用 CoT 则尚待钻研。特意由于当初的 MLLM 还存在严正的幻视下场，CoT 每一每一会发生幻觉，影响最终谜底的精确性。经由在分解数据集 CLEVR 上的试验，钻研发现，运用带有位信托息的 CoT 时，可能实用削减模子幻觉后退模子功能。

论断

本文介绍了一种名为 Shikra 的重大且不同的模子，以做作语言的方式清晰并输入空间坐标，为 MLLM 削减了相似于人类的参考对于话能耐，且无需引入格外的辞汇表、位置编码器或者外部插件。

Tags：

上一篇：威海481家企业加速向海“掘金”9岁女孩放学路上失踪，10年后在邻居家发现，父母哭到崩溃

下一篇：东北冰雪旅游升温南方旅行社北上“掘金”当年中国派出10万军民搜救，为啥一直找不到王伟？22年后才知真相

持续补强！美媒：火箭进行5换3交易，季后赛有戏，公牛重建
时尚
在最近的一次交易中，休斯顿火箭队进行了一场大规模的球员交易，他们以五名球员作为筹码，成功换回了三名实力派球员。这次交易不仅增强了火箭队的竞争力，也给球迷们带来了对季后赛的期待。同时，芝加哥公牛队也通过 ...

2025-02-27 20:47【时尚】
阅读更多
情侣住旅馆1年后收到5段隐衷视频重返房间摄像头仍在：腿都软了
时尚
【#情侣住旅馆一年后收到5段亲远视频#，重返房间摄像头仍在：腿都软了】#情侣收到亲远视频重返旅馆摄像头还在#克日，据广西往事频道报道，广西南宁的胡学生去年与未婚妻在当地某旅馆包了一间客房。2023年7 ...

2025-02-27 20:35【时尚】
阅读更多
德甲综合 | “狼堡”大胜弗赖堡法兰克福升至第二70年代农村吃饭照片，满满的都是回忆，可惜再也回不去了
时尚
　　新华社柏林1月21日电魏颀）2022-2023赛季德国足球甲级联赛第16轮21日进行6场较量，沃尔夫斯堡主场6:0大胜弗赖堡，取得五连胜；法兰克福3:0击败到访的沙尔克04，排名升至第二位。　　沃 ...

2025-02-27 19:02【时尚】
阅读更多

您现在的位置是：时尚 >>正文

清晰指向，说出坐标，Shikra开启多模态大模子参考对于话新维度

相关文章

持续补强！美媒：火箭进行5换3交易，季后赛有戏，公牛重建

情侣住旅馆1年后收到5段隐衷视频重返房间摄像头仍在：腿都软了

德甲综合 | “狼堡”大胜弗赖堡法兰克福升至第二70年代农村吃饭照片，满满的都是回忆，可惜再也回不去了

热门文章

最新文章

友情链接

您现在的位置是：时尚 >>正文

清晰指向，说出坐标，Shikra开启多模态大模子参考对于话新维度

相关文章

持续补强！美媒：火箭进行5换3交易，季后赛有戏，公牛重建

情侣住旅馆1年后收到5段隐衷视频 重返房间摄像头仍在：腿都软了

德甲综合 | “狼堡”大胜弗赖堡 法兰克福升至第二70年代农村吃饭照片，满满的都是回忆，可惜再也回不去了

热门文章

最新文章

友情链接

情侣住旅馆1年后收到5段隐衷视频重返房间摄像头仍在：腿都软了

德甲综合 | “狼堡”大胜弗赖堡法兰克福升至第二70年代农村吃饭照片，满满的都是回忆，可惜再也回不去了