Talks & Journal Club | Vision and Learning Lab @ UAlberta

July 2027:

The Flexibility Trap: Rethinking the Value of Arbitrary Order in Diffusion Language Models
- By Hang, July 14, 2026 - [Talk Slides] [Original Paper]
Kinematic Motion Retargeting for Contact-Rich Anthropomorphic Manipulations
- By Kiarash, July 14, 2026 - [Talk Slides] [Original Paper]

June 2026:

ROGR: Relightable 3D Objects using Generative Relighting
- By Akash, Jun 30, 2026 - [Talk Slides] [Original Paper]
Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-TimeTraining
- By Pengyu, Jun 30, 2026 - [Talk Slides] [Original Paper]
Image Generators are Generalist Vision Learners
- By Jingjing, Jun 30, 2026 - [Talk Slides] [Original Paper]
VACE: All-in-One Video Creation and Editing
- By Siyuan, Jun 16, 2026 - [Talk Slides] [Original Paper]
ArtVIP: Articulated Digital Assets of Visual Realism, Modular Interaction, and Physical Fidelity for Robot Learning
- By Jiahui, Jun 16, 2026 - [Talk Slides] [Original Paper]
Graph Tokenization for Bridging Graphs andTransformers
- By Yubo, Jun 16, 2026 - [Talk Slides] [Original Paper]
AniGen: Unified S3 Fields for Animatable 3D Asset Generation
- By Ji, Jun 2, 2026 - [Talk Slides] [Original Paper]
Image Generators are Generalist Vision Learners
- By Jingjing, Jun 2, 2026 - [Original Paper]

May 2026:

DreamControl: Human-Inspired Whole-Body Humanoid Control for Scene Interaction via Guided Diffusion
- By Kiarash, May 15, 2026 - [Talk Slides] [Original Paper]
VACE: All-in-One Video Creation and Editing
- By Siyuan, May 15, 2026 - [Talk Slides] [Original Paper]

April 2026:

Tracking and Segmenting Anything in Any Modality
- By Pengyu, Mar 10, 2026 - [Talk Slides] [Original Paper]
Advanced Scalable Transformers in Spatial / Temporal Generation
- By Yilin, April 7, 2026 - [Talk Slides] [Original Paper] [Original Paper]

March 2026:

FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space
- By Jiahui, Mar 10, 2026 - [Talk Slides] [Original Paper]

Feb 2026:

3DGUT: Enabling Distorted Cameras and Secondary Rays in Gaussian Splatting
- By Akash, Feb 26, 2026 - [Talk Slides] [Original Paper]
FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space
- By Jiahui, Feb 26, 2026 - [Talk Slides] [Original Paper]
Structured 3D Latents for Scalable and Versatile 3D Generation
- By Siyuan, Feb 12, 2026 - [Talk Slides] [Original Paper]
Stratified Avatar Generation from Sparse Observations
- By Yubo, Feb 12, 2026 - [Talk Slides] [Original Paper]

Jan 2026:

One Model to Rig Them All: Diverse Skeleton Rigging with UniRig
- By Ji, Jan 29, 2026 - [Talk Slides] [Original Paper]
LISA: Reasoning Segmentation via Large Language Model
- By Jingjing, Jan 29, 2026 - [Talk Slides] [Original Paper]

December 2025:

Generating Physically Stable and Buildable Brick Structures from Text
- By Hang, Dec 16, 2025 - [Talk Slides] [Original Paper]
Back to Basics: Let Denoising Generative Models Denoise
- By Yilin, Dec 16, 2025 - [Talk Slides] [Original Paper]

November 2025:

SAM3: Segment Anything with Concepts
- By Pengyu, Nov 18, 2025 - [Talk Slides] [Original Paper]
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
- By Jing, Nov 18, 2025 - [Talk Slides] [Original Paper]
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Decoupled Video Diffusion
- By Siyuan, Nov 4, 2025 - [Talk Slides] [Original Paper]

October 2025:

SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding
- By Akash, Oct 14, 2025 - [Talk Slides] [Original Paper]
Order-aware Interactive Segmentation
- By Yuezhe, Oct 8, 2025 - [Talk Slides] [Original Paper]
MaskControl: Spatio-Temporal Control for Masked Motion Synthesis
- By Yilin, Oct 8, 2025 - [Talk Slides] [Original Paper]

September 2025:

World-Grounded Human Motion Recovery via Gravity-View Coordinates
- By Litao, Sep 16, 2025 - [Talk Slides] [Original Paper]
Harmony4D: A Video Dataset for In-The-Wild Close Human Interactions
- By Yubo, Sep 16, 2025 - [Talk Slides] [Original Paper]
3D Trajectories in Video Generation Tasks
- By Jiahui, Sep 2, 2025 - [Talk Slides] [Original Paper]

August 2025:

SIGGRAPH 2025 Paper Sharing
- By Yilin, Aug 27, 2025 - [Talk Slides]
- By Siyuan, Aug 27, 2025 - [Talk Slides]
- By Jiahui, Aug 27, 2025 - [Talk Slides]
- By Hang, Aug 27, 2025 - [Talk Slides]
- By Jun, Aug 27, 2025 - [Talk Slides]
CVPR 2025 Paper Sharing
- By Jingjing, Aug 27, 2025 - [Talk Slides]
VGGT: Visual Geometry Grounded Transformer
- By Hang, Aug 19, 2025 - [Talk Slides] [Original Paper]
CVPR 2025 Paper Sharing
- By Jingjing, Aug 19, 2025 - [Talk Slides]

July 2025:

Model Unification for Object Tracking and Segmentation
- By Pengyu, July 7, 2025 - [Talk Slides] [Original Paper1] [Original Paper2]

June 2025:

Learning Dense Hand Contact Estimation from Imbalanced Data
- By Jun, June 17, 2025 - [Talk Slides] [Original Paper1] [Original Paper2]
WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild
- By Hamid, June 3, 2025 - [Talk Slides] [Original Paper]
ICLR 2025 Paper Sharing
- By Yilin, June 3, 2025 - [Talk Slides]

May 2025:

Infinite Photorealistic Worlds using Procedural Generation
- By Hang, May 20, 2025 - [Talk Slides] [Original Paper]
SAM2 & A Distractor-Aware Memory for Visual Object Tracking with SAM2
- By Pengyu, May 7, 2025 - [Talk Slides] [Original Paper1] [Original Paper2]

April 2025:

Reconstructing Humans with a Biomechanically Accurate Skeleton
- By Siyuan, April 8, 2025 - [Talk Slides] [Original Paper]
3DGS and New Trends in Rendering
- By Li Cheng, April 8, 2025 - [Talk Slides]
EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild & HaWoR: World-Space Hand Motion Reconstruction from Egocentric Videos
- By Jun Zhou, April 8, 2025 - [Talk Slides] [Original Paper1] [Original Paper2]

Mar 2025:

Zero-1-to-3: Zero-shot One Image to 3D Object & Dreamfusion: Text-to-3d Using 2d Diffusion
- By Hamid, Mar 25, 2025 - [Talk Slides] [Original Paper1] [Original Paper2]
Automated Creation of Digital Cousins for Robust Policy Learning
- By Jing, Mar 25, 2025 - [Talk Slides] [Original Paper]

Feb 2025:

One Step Diffusion via Shortcut Models
- By Yilin, Feb 11, 2025 - [Talk Slides] [Original Paper]
Splatter Image: Ultra-Fast Single-View 3D Reconstruction
- By Hang, Feb 11, 2025 - [Talk Slides] [Original Paper]

Jan 2025:

2DGS: 2D Gaussian Splatting for Geometrically Accurate Radiance Fields
- By Siyuan, Jan 28, 2025 - [Talk Slides] [Original Paper]
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- By Jing, Jan 28, 2025 - [Talk Slides] [Original Paper]
Visual Grounding
- By Akash, Jan 14, 2025 - [Talk Slides]
Posture-Informed Muscular Force Learning for Robust Hand Pressure Estimation
- By Jun, Jan 14, 2025 - [Talk Slides] [Original Paper]

Nov 2024:

EgoAvatar, Whole-Body 3D Gaussian Avatar, and GaussianBody
- By Hamid, Nov 29, 2024 - [Talk Slides] [Original Paper1] [Original Paper2] [Original Paper3]
Multi-Person Text-to-Motion Synthesis
- By Yilin, Nov 29, 2024 - [Talk Slides]
Autoregressive Image Generation without Vector Quantization_Hang
- By Hang, Nov 8, 2024 - [Talk Slides] [Original Paper]

Sep 2024:

MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild
- By Yande, Sept 20, 2024 - [Talk Slides] [Original Paper]
IMAGEBIND: One Embedding Space To Bind Them All
- By Jingjing, Sept 20, 2024 - [Talk Slides] [Original Paper]

August 2024:

Telling Left from Right: Identifying Geometry-AwareSemantic Correspondence
- By Siyuan, August 19, 2024 - [Talk Slides] [Original Paper]
Achieving Human Level Competitive Robot Table Tennis
- By Gohar, August 19, 2024 - [Talk Slides] [Original Paper]
Egocentric Whole-Body Motion Capture with FisheyeViT and Diffusion-Based Motion Refinement
- By Hamid, August 06, 2024 - [Talk Slides] [Original Paper]

July 2024:

WalkTheDog: Cross-Morphology Motion Alignment via Phase Manifolds
- By Yilin, July 22, 2024 - [Talk Slides] [Original Paper]
Improving Semantic Correspondence with Viewpoint Guided Spherical Maps
- By Siyuan, July 22, 2024 - [Talk Slides] [Original Paper]

June 2024:

Animate Anyone & MusePose
- By Yande, June 10, 2024 - [Talk Slides]
Deep Marching Tetrahedra: a Hybrid Representation for High-Resolution 3D Shape Synthesis
- By Ji, June 10, 2024 - [Talk Slides] [Original Paper]

May 2024:

Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation
- By Jingjing, May 27, 2024 - [Talk Slides]
Language Model Beats Diffusion– Tokenizer is Key to Visual Generation
- By Gohar, May 27, 2024 - [Talk Slides]

April 2024:

Learning Physically Simulated Tennis Skills from Broadcast Videos
- By Yilin, April 29, 2024 - [Talk Slides]
SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation
- By Hamid, April 29, 2024 - [Talk Slides]
Introduction to Sora
- By Yuxuan, April 15, 2024 - [Talk Slides]
Mocap Everyone Everywhere: Lightweight Motion Capture With Smartwatches and a Head-Mounted Camera
- By Hamid, April 1, 2024 - [Talk Slides] [Original Paper]

March 2024:

Reasoning with Foundation Models
- By Zhenglin, March 18th, 2024 - [Talk Slides]
SLOPER4D: A Scene-Aware Dataset for Global 4D Human Pose Estimation in Urban Environments
- By Hamid, March 5th, 2024 - [Talk Slides] [Original Paper]
Animal3D: A Comprehensive Dataset of 3D Animal Pose and Shape
- By Siyuan, March 5th, 2024 - [Talk Slides] [Original Paper]

February 2024:

DiffMesh: A Motion-aware Diffusion-like Framework for Human Mesh Recovery from Videos
- By Yande, Feb 5th, 2024 - [Talk Slides] [Original Paper]
Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset
- By Siyuan, Feb 5th, 2024 - [Talk Slides] [Original Paper]
When it comes to HUGE
- By Zhenglin, Feb 5th, 2024 - [Talk Slides]

November 2023:

3D Reconstruction from a single-view via linear perspective (Guest Talk)
- By Yiming Qian, Nov 3rd, 2023

October 2023:

Training Diffusion Models with Reinforcement Learning
- By Gohar, Oct 20th, 2023 - [Talk Slides] [Original Paper]

July 2022:

How Do Vision Transformers Work?, ICLR 2022
- By Zhan, Jul 12nd - [Talk Slides] [Original Paper]

June 2022:

SimPoE: Simulated Character Control for 3D Human Pose Estimation, CVPR 2021
- By Yuxuan, Jun 14th - [Talk Slides] [Original Paper]
Efficient Regional Memory Network for Video Object Segmentation, CVPR 2021
- By Wei, Jun 07th - [Talk Slides] [Original Paper]

May 2022:

D-NeRF: Neural Radiance Fields for Dynamic Scenes, CVPR 2020
- By Xinxin, May 31st - [Talk Slides] [Original Paper]

April 2022:

[Ph.D. Oral Defence dry run]
- By Shuang, Apr 5th

March 2022:

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows, ICCV 2021
- By Yilin, Mar 29th - [Talk Slides] [Original Paper]
PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization, CVPR 2020
- By Shasha, Mar 8th - [Talk Slides] [Original Paper]
Adversarial Image Perturbation for Privacy Protection – A Game Theory Perspective, ICCV 2017
- By Yuxuan, Mar 1st - [Talk Slides] [Original Paper]

Feburary 2022:

Masked Autoencoders Are Scalable Vision Learners
- By Zhan, Feb 15th - [Talk Slides] [Original Paper]
Non-local Neural Networks, CVPR 2018
- By Liam, Feb 1st - [Talk Slides] [Original Paper]

October 2020:

Few-Shot Video Classification via Temporal Alignment, CVPR 2020
- By Mahdiar, Oct 2nd - [Talk Slides] [Original Paper]

September 2020:

Transform and Tell: Entity-Aware News Image Captioning, CVPR 2020
- By Hoang, September 11th - [Talk Slides] [Original Paper]
DGPose: Deep Generative Models for Human Body Analysis, IJCV 2020
- By Chuan, September 18th - [Talk Slides] [Original Paper]
Learning to Estimate 3D Human Pose and Shape from a Single Color Image, CVPR 2018
- By Youdong, September 25th - [Talk Slides] [Original Paper]

August 2020:

Video Object Segmentation with Episodic Graph Memory Networks, ECCV 2020
- By Javad, August 16th - [Talk Slides] [Original Paper]
MonoPerfCap: Human Performance Capture from Monocular Video, TOG 2018 & LiveCap: Real-time Human Performance Capture from Monocular Video, TOG 2019
- By Xinxin, August 9th - [Talk Slides] [Original Paper 1] [Original Paper 2]
Listen to Look: Action Recognition by Previewing Audio, CVPR 2020
- By TK, August 2nd - [Talk Slides] [Original Paper]

July 2020:

EventCap: Monocular 3D Capture of High-Speed Human Motions using an Event Camera, CVPR 2020
- By Shihao, July 26th - [Talk Slides] [Original Paper]
DeepCap: Monocular Human Performance Capture Using Weak Supervision, CVPR 2020
- By Ji, July 19th - [Talk Slides] [Original Paper]
Long-term Human Motion Prediction with Scene Context, ECCV 2020
- By Mahdiar, July 12th - [Talk Slides] [Original Paper]
Deep Multi-View Learning via Task-Optimal CCA, ICLR 2020
- By He, July 5th - [Talk Slides] [Original Paper]

June 2020:

Learning from Demonstration in the Wild, ICRA 2019
- By Youdong, June 27th - [Talk Slides] [Original Paper]
Structured Prediction Helps 3D Human Motion Modelling, ICCV 2019
- By Chuan, June 21st - [Talk Slides] [Original Paper]
Generative Adversarial Minority Oversampling, ICCV 2019
- By Hoang, June 14th - [Talk Slides] [Original Paper]
Tracking by Instance Detection: A Meta-Learning Approach, CVPR 2020
- By Mojtaba, June 7th - [Talk Slides] [Original Paper]

May 2020:

RigNet: Neural Rigging for Articulated Characters, SIGGRAPH 2020
- By Sen, May 31st - [Talk Slides] [Original Paper]
D3S – A Discriminative Single Shot Segmentation Tracker, CVPR 2020
- By Javad, May 24th - [Talk Slides] [Original Paper]
4D Association Graph for Realtime Multi-person Motion Capture Using Multiple Video Cameras, CVPR 2020
- By Xinxin, May 17th - [Talk Slides] [Original Paper]
Deformation-aware Unpaired Image Translation for Pose Estimation on Laboratory Animals, CVPR 2020
- By TK, May 10th - [Talk Slides] [Original Paper]
Momentum Contrast for Unsupervised Visual Representation Learning, ICLR 2019
- By Shihao, May 3rd - [Talk Slides] [Original Paper]

April 2020:

VIBE: Video Inference for Human Body Pose and Shape Estimation, CVPR 2019
- By Ji, April 26th - [Talk Slides] [Original Paper]
Timeception for Complex Action Recognition, CVPR 2019
- By Mahdiar, April 19th - [Talk Slides] [Original Paper]