new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Mar 6

Submitted by

ZonglinY

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

miromind-ai

Submitted by

Ningyu

SkillNet: Create, Evaluate, and Connect AI Skills

Zhejiang University

Submitted by

Stephen-SMJ

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

PolyUHK

The Hong Kong Polytechnic University

Submitted by

Warrieryes

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

HKUST NLP Group

Submitted by

WendiChen

RoboPocket: Improve Robot Policies Instantly with Your Phone

SJTU

Shanghai Jiao Tong University

4

Submitted by

donghao-zhou

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

ByteDance

Submitted by

jt-zhang

SageBwd: A Trainable Low-bit Attention

UCBerkeley

University of California, Berkeley

2

Submitted by

aHapBean

DreamWorld: Unified World Modeling in Video Generation

·
8 authors

Submitted by

yifAI

Interactive Benchmarks

Interactive Benchmarks

Submitted by

marco-garosi

Large Multimodal Models as General In-Context Classifiers

MHUGLab

Multimedia and Human Understanding Group

Submitted by

bowiehsu

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

alibaba-inc

6

Submitted by

taesiri

Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

ByteDance

Submitted by

taesiri

RealWonder: Real-Time Physical Action-Conditioned Video Generation

·
6 authors

Submitted by

parishadbehnam

Locality-Attending Vision Transformer

ETSMTL

École de Technologie Supérieure

Submitted by

pb09204048

On-Policy Self-Distillation for Reasoning Compression

·
6 authors

Submitted by

taesiri

KARL: Knowledge Agents via Reinforcement Learning

databricks

Submitted by

YSGao

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

dalian-university-of-technology

DaLian University of Technology

2

Submitted by

algoprog

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

umass

University of Massachusetts Amherst

Submitted by

cg1177

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Submitted by

taesiri

UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data

·
7 authors

Submitted by

SiyuLiu

Mozi: Governed Autonomy for Drug Discovery LLM Agents

IDEA-AI4S

International Digital Economy Academy AI4SCI

2

Submitted by

taldatech

Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

·
8 authors

Submitted by

taesiri

Distribution-Conditioned Transport

·
6 authors

Submitted by

alessioGalatolo

Lightweight Visual Reasoning for Socially-Aware Robots

usr-lab

Uppsala Social Robotics Lab