本技俩由清华大学鲁继文证实团队的张博、张博睿、江承昊、史明磊,以及极佳视界的时期团队共同完成。连络团队热忱宽饶社区反映与时期孝敬,期待与大家竖立者共同拓展智能体在数字使命场景中的利用限制。Syll 是一个居住在你电脑屏幕边的智能体,它匡助照管那些差点被渐忘的草稿、文献、旧像片和未竟之事。要是你振奋教它一次,它会记着旅途:那儿需要看,那儿需重点,何时敲高歌,何时用用具。下一次,它就能沿着你留住的陈迹完成任务。Syll 不单会点屏幕,也不单会调用接口。GUI、CLI、MCP 齐是它不错走的小路;你仍然不错随时停驻它、检查它、再行教它。愿它成为你的伙伴,而不是替你作念主的机器。

面前个东谈主 AI 智能体靠近界面割裂、教悔门槛高、实行不透明、隐讳与定制清贫等问题。广阔 AI 系统主要依赖 API 或高歌行完成任务,难以笼罩闭源桌面软件;平凡用户也很难用低门槛神志训诫 AI 完成我方的使命历程;实行过程零落直不雅可查的依据,云表决策还可能带来数据安全与二次竖立受限等问题。

为措置这些难题,清华大学智能视觉践诺室团队开源了多模态全交互智能体框架 Syll。Syll 维持 GUI、CLI、MCP/API 等多种操作神志,并通过长入多模态实行智力、GUI 技巧示教、全程可审计跟踪与腹地模块化架构,打造更易用、更真实、更安全且更顺应二次竖立的个东谈主自动化智能体框架。

Syll 的中枢缱绻理念包括:

Syll 具备长入的多模态实行智力,原生兼容 MCP/API、高歌行 CLI 与视觉 GUI 三种操作神志,亚搏体育app中国最新版本简略凭证不同任务场景采用合适的实行旅途,收场更纯真的电脑操控。

Syll 维持「示教即技巧」机制。用户无需编写代码或手动设定复杂端正,只需把任务手动操作一遍,Syll 便可自动录制历程、索要要道阵势,并将其千里淀为可复用的智能体技巧。

Syll 搭配多模态审计体系,AI 实行的每一步操作齐会留住明晰可查的纪录,全程透明可视化,让使用过程看得见、更真实。

Syll 选定腹地模块化架构,2026世界杯中国线上平台用户的系念、技巧、端正及个东谈主偏好齐不错以可裁剪文献的体式存储在腹地,既保险数据隐讳安全,又具备较高的膨胀性。

Syll 缱绻开头不是在 GUI、CLI、MCP 之间采用,而是把它们放进吞并个实行回路:需要不雅察界面时走 GUI,需要批量处理时切 CLI,需要运动就业时走 MCP/API。这么造成一个更竣工的行为空间,让智能体在不同使命名义之间当然流转。

Syll 把 GUI 纵容视为行为空间的一部分,而不是 API 不成用时的临时补丁。它需要学会不雅察屏幕、定位指标、处理弹窗、恭候情景变化,并在符合的时期切换到高歌行或用具接口,幸免把统统问题齐变成低能的点击。

Syll 采用了另一条更当然的旅途:示教即技巧。用户照民俗把事情作念一遍,Syll 在后台纪录要道视觉锚点、鼠标键盘窗口情景变化、任务荆棘文等信息,生成可复用的技巧。学到的是「如何完成任务」,而不是寂然的按钮坐标。

Syll 的实行过程会留住可检查的轨迹,确保每次屏幕操作与界面情景变更均可被纪录、回放与审计。用户耐久保有对要道决策的最终把控权,造成机器实行到东谈主审核的考证闭环,提高自动化恶果的同期确保系统的可控性与可解释性。
Syll 的系念、技巧、端正和偏好齐以腹地可裁剪文献的体式组织。对平凡用户来说,在前端面板就能完成模子建树、技巧管制、定时任务和普通对话。对竖立者来说,Syll 的工程秉性是高度模块化与可膨胀性,提供精深的代码基础。
Syll 仍然处在早期 public alpha,会捏续真贵和迭代,维持更多确切任务世界杯(中国),同期保捏框架的简易性与可膨胀性,也宽饶社区进行二次竖立。它会少量点变得更懂你,巧合帮你完成复杂历程,巧合仅仅轻轻辅导一句。