Ming Sun (孙明)

Kuaishou researcher, From 2021.3 to now
Sensetime researcher, From 2018.10 to 2021.3
BaiDu IDL intern and researcher, From 2016.11 to 2018.10
Bytedance (TouTiao) AI Lab intern, From 2016.5 to 2016.10
Email: m_sunming@163.com

Short Bio

To achieve promising research, i am pursuing a Ph.D at Tsinghua University with Bin Wang . In addition, i am leading a group from 2021, which aim to evaluate and promote the quality of user generated video on kuaishou. I worked at SenseTime with Junjie Yan and Wanli Ouyang from 2018.11 to 2021.3, focus on object detection and AutoML. I worked at BaiDu IDL with Feng Zhou from 2016.11 to 2018.11 and learned a lot apart from tech. Fortunately, I was supervised by prefessor JuFeng Yang and cooperated with MingMing Cheng. And received the Master degree from Nankai University in 2017.

I was tech leader of the group, named 搜索与决策（inspired by exploration and exploitation), which focus on Detection（face/human/traffic/structure/keypoint/video） and Automl (augmentation/samping/loss/network auto search), about 20 researcher.

AI+音视频:

广泛使用的VQA算法：花费四年积累海量高质量数据&基于多模态大模型框架，研发了KVQ（Kuaishou Video Quality）算法。同时基于用户反馈，在上百个场景中均超过了Golden eye表现，目前每天模型调用上亿次，出售给多家互联网大厂，获得公司洛子峰-技术突破奖。在学术上首次提出QPT等pretrain框架，研发了多个系列包括QPT-V1(解决数据问题)，V2（从清晰度分到观感分），V3（接入LLM做智能白盒化），已被CVPR等接受，并举办了多次CVPR workshop比赛(腾讯音视频等互联网大厂均参赛)，在学术和工业界有较大影响，多次去NV GTC分享相关技术。

基于diffusion的生成画质大模型: 处理算法可以简单分为三个时代（传统的算法/基于GAN的DL算法/基于生成的大模型算法）。在快手研发一系列传统算法和DL算法，包括去噪/去模糊/HDR/编码友好的前处理等，取得了显著的带宽和清晰度收益。随着生成式技术发展，处理领域还没突破该范式红利（主要集中在文字/人脸保真问题以及模型速度问题），快手提出并研发出LPM（Large Preprocessing Model）算法，解决了该领域生成和保真的平衡问题，并大量上线且取得了显著的AB收益。感谢快手海量高质量数据（数十亿），以及模型上自研（VAE/DIT框架/时序建模/Reward model设计等针对性设计和训练）。

端到端转码系统：成本一直是该领域的核心关注点，随着编码器的成熟（265/266），进一步降低码率且保住更多画面生成细节是一个挑战。基于此实现了大模型+编码器+端上NPU处理整体联合并面向KVQ主观指标的优化pipeline，做到训练端到端&部署可分离。感谢手机NPU算力发展，功耗和算力都有着极高性价比，从为公司节省大量成本。

AI Infra优化: 以LPM为列，需要加速100倍以上，才能覆盖足够多的视频，从而拉动用户的QOE和GMV等表现。快手音视频AI infra主要集中在以下关注点，（1）和NV深度合作，优化质量评价算法和生成大模型，包括但不限于DIT attention量化/剪枝/OP图优化/任务间显存共享/LLM吞吐加速等；（2）和手机厂一起优化NPU算力和功耗，包括新的算子支持/IO传输等优化；（3）软硬协同优化，快手音视频有着自己的自研芯片，如何最大化芯片算力+特殊模型设计等都有着深入的研究。

Ming Sun (孙明)

Short Bio

AI+音视频:

News:

Publication