$ npx skills add https://github.com/cyangzhou/-2--project-yunshu- --skill VLM_Expert
使 AI 能够理解并响应结合了图像和文本提示的内容。
z-ai vision --prompt "图中有什么?" --image "./photo.jpg"