论文地址:https://arxiv.org/pdf/2401.00908.pdf
到2024年,我们将看到更多实时图像、音频和视频生成传播应用。
2️⃣ GPT-engineer 🧪
就目前而言,React Agent生成的代码还不够生产就绪,需要在合并到现有代码库之前进行大量调整。但总的来说,它提高了我的生产力。
在实验中,VCoder与开源的多模态LLMs(如MiniGPT-4、InstructBLIP、LLaVA-1.5和CogVLM)进行了比较,并在COST验证集上进行了测试。实验结果表明,VCoder在对象识别任务中表现最佳,特别是在对象计数和识别方面优于基线模型。在处理复杂场景中的对象计数和识别任务时,VCoder展现出更高的准确性,尤其是在场景中有许多实体时。