新闻中心
-
07-21试卷手写笔迹擦除 -- 百度网盘AI大赛:手写文字擦除第5名方案该方案为百度网盘AI大赛手写文字擦除第5名方案,基于SegFormer语义分割模型实现试卷手写笔迹擦除。通过生成手写笔迹分割掩码,再利用掩码去除笔迹。处理数据集...
-
07-18百度网盘AI大赛——图像处理挑战赛:手写文字擦除第10名方案该方案为百度网盘AI大赛手写文字擦除挑战赛第10名方案,基于MTRNet++实现。先介绍文字擦除算法及GAN结构,再说明MTRNet++的改进、结构与损失函数。...
-
07-03多模态AI如何提升语音识别 多模态AI音频降噪技术方案多模态人工智能通过整合不同类型的数据流,例如音频与视觉信息,能够显著提升语音识别的准确性并优化音频降噪效果。本文将探讨多模态AI在这两个领域的关键技术方案,解释...
-
07-01WorldVLA— 阿里达摩院联合浙大推出的自回归动作世界模型WorldVLA是由阿里巴巴达摩院与浙江大学联合开发的一种自回归动作世界模型。该模型将视觉-语言-动作(VLA)模型与世界模型融合于同一框架中,通过图像和动作的...
-
06-27DRA-Ctrl— 浙大联合蚂蚁等机构推出的跨模态图片编辑框架DRA-Ctrl(Dimension-ReductionAttack)是由浙江大学与蚂蚁集团等机构联合研发的一种新型跨模态图像编辑框架。该框架利用视频生成模型在...
-
06-21EX-4D— 字节跳动Pico团队推出的4D视频生成框架EX-4D是由字节跳动(ByteDance)旗下Pico团队研发的一种新型4D视频生成框架,能够从单一视角的视频输入中生成极端视角下的高质量4D视频。该框架采用...

