CVPR2024论文解读大盘点
1.CVPR2024 | 多边形全能战士Monkey:华科大提出的高分辨率多模态视觉-语言大模型,刷新多个SOTA
2.CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
3.CVPR 2024|多模态大模型解决无源域适应问题!DIFO:新颖的蒸馏多模态基础模型(DIFO)方法
4.CVPR 2024|多视角深度估计新SOTA!AFNet:自动驾驶单视图和多视图深度的自适应融合
5.CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解
6.CVPR’24 | 无需微调,超越SPAE!V2L-Tokenizer:图像描述/重建/去噪多项SOTA!
7.CVPR 2024|进一步加速落地:压缩自动驾驶端到端运动规划模型
8.CVPR2024: MIGC + GLIGEN-GUI效果展示
9.CVPR 2024|RetNet与ViT完美结合!超越SWin Transformer 5个点的RMT来啦
10.CVPR2024|UniMODE:首篇统一户外+室内3D检测框架
11.CVPR 2024|谷歌提出图像生成新工作!加入多模态指令,效果惊艳!
12.CVPR 2024|远超LoFTR和DKM!特征匹配新范式!MESA:匹配一切!
13.CVPR 2024|腾讯优图20篇论文入选!多模态大模型、医学影像、人脸和OCR等方向
14.CVPR2024|你的DragGAN并不需要点跟踪!FreeDrag:无需点跟踪即可稳定拖动语义内容
15.CVPR 2024|字节&南开提出CAMixerSR:2K/8K/轻量级/全景图像超分
16.CVPR’24 | 开环端到端自动驾驶中自车状态是你所需要的一切吗?
17.CVPR 2024|无损加速扩散模型!DeepCache:无训练、无成本的AI神器开源
18.CVPR 2024|上交大 & 上海AI lab提出StoryGen: 开放式视觉故事生成
19.CVPR 2024 满分论文!浙大&字节提出基于可变形3D高斯的单目动态重建新方法
20.CVPR2024|面向语义感知真实图像超分,港理工张磊团队提出了SeeSR,已开源
21.CVPR 2024 | 首个将大模型(PVL)结合混合专家系统(MOE)用于多合一恶劣天气图像恢复
22.CVPR 2024|只有1.3ms 延迟!清华最新开源移动端神经网络架构 RepViT
23.CVPR24 | UniRepLKNet, 大核CNN一统多种模态,ImageNet 88%,时序预测SOTA,极简高效!
24.CVPR’24 | Transformer变革3D建模!MeshGPT:3D网格生成炸裂工作!效果惊动专业建模师
25.CVPR 2024|Dropout之后又一改善图像超分泛化性能的正则方案SimpleAlign,已开源!
26.CVPR 2024 | ReID也将迎来大一统?一个模型拿下多类主流ReID任务新SOTA,开启ReID新纪元
27.CVPR 2024 | 中科院提出Drive-WM:第一个用于自动驾驶的多视图世界模型
28.CVPR 2024|MVBench多模态视频理解能力的全面评测
29.CVPR 2024|低 FLOPs 网络也能在大规模预训练中尝到甜头!ParameterNet:0.6G即可精度超越SwinT
30.CVPR’24|TransNeXt:昨日最强模型已不强,TransNeXt-Tiny在ImageNet上准确率刷到84.0%
31.CVPR 2024 | 中科院提出Drive-WM:第一个用于自动驾驶的多视图世界模型
32.CVPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!
33.CVPR’24|最强Pose模型RTMO开源:基于YOLO架构再设计,9MB+9ms性能完爆YOLO-Pose
34.CVPR 2024|迈向分割的大一统!OMG-Seg:一个模型搞定所有分割任务(南洋理工)
35.CVPR’24|LiDAR Diffusion:当扩散模型从图像打入LiDAR场景!
36.CVPR 2024|基于MoE的通用图像融合模型,添加2.8%参数完成多项任务
37.CVPR-2024|SDD: 尺度解耦蒸馏
38.CVPR2024-扩散模型可解释性新探索,图像生成一致性创新高!AI视频生成新机遇?
39.CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!
40.CVPR 2024 Highlight | AMED-Solver:快速扩散模型数值采样
41.CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
42.CVPR 2024|字节提出新一代数据集COCONut,比COCO粒度分割更密集
43.Ai4Industury!工源三仟相关研究成果被计算机视觉国际顶会CVPR 2024录用
44.CVPR 2024|OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别
45.CVPR’24|中大哈佛等提出creative Leap-of-thought探究大模型幽默创新力
46.CVPR 2024 | 全新指代分割数据集!国科大提出UniRES:统一的对象级和部分级定位新方法
47.精度最高降幅60%!SOTA只是假象?CVPR2024 Highlight为你揭示CLIP和LLaVA-Next等模型“骗局”
48.CVPR 2024 高分论文!GenN2N:一种全新的生成式NeRF编辑框架
49.CVPR 2024 | 视觉新突破!首个无自然语言的纯视觉大模型!
50.CVPR 2024|感知模型+生成模型=SOTA!清华最新提出协同框架DetDiffusion
51.CVPR 2024 Highlight|Seg-NN: 不需要训练的网络反而可大幅提升 3D 小样本分割的性能
52.CVPR2024|针对自动驾驶场景下单目深度估计模型的对抗攻击
53.CVPR 2024|拖拽P图又双叒升级了!DragNoise实现更快更准的拖拽编辑
54.CVPR 2024|PromptKD: 基于Prompt的视觉语言模型蒸馏
55.CVPR Oral 2024|基于CLIP的全像素双核(DP)图像去模糊算法
56.CVPR 2024|让模型关注你想要的任何属性!CPAL:弱监督语义分割新网络
57.CVPR’24|FRESCO:高质量、连贯的Zero-shot视频转换新方案(北大&南洋理工)
58.CVPR 2024|知识蒸馏中的Logit标准化:辅助logit-based KD算法稳定涨点
59.CVPR’24 | 无需微调,超越SPAE!V2L-Tokenizer:图像描述/重建/去噪多项SOTA!
60.CVPR’24|DragGAN 作者新作 DiffMorpher:实现两张图像间的平滑变形
61.CVPR 2024|让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT
62.CVPR 2024 | CAMixerSR:2K/8K/轻量级/全景图像超分又快又强!(字节&南开)
63.CVPR’24|DifFlow3D:场景流估计新SOTA,扩散模型又下一城!
64.CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构
65.CVPR 2024|LORS:腾讯提出低秩残差结构,瘦身模型不掉点