08论坛 > AI教程资讯 > CUA Browser: 基于Browserbase和OpenAI CUA Model的浏览器自动化开源项目

CUA Browser: 基于Browserbase和OpenAI CUA Model的浏览器自动化开源项目

作者:啊哈哈哈 来源:08论坛 时间:2025-04-17 11:53:32

CUA Browser是什么?

CUA Browser 是一个提供一个测试和探索 Browserbase 和 Openai 的 Computer-Using Agent (CUA) 功能的免费开源项目。用户可以通过自然语言命令与浏览器交互,并观察浏览器的响应。

CUA Browser.webp

CUA Browser功能特征

多模态交互:CUA通过处理屏幕上的原始像素数据来理解界面内容,借助虚拟鼠标和键盘完成操作。

多步骤任务执行:可将复杂任务分解成多个步骤,并能动态调整操作顺序。

推理与自纠正能力:执行任务时,CUA会通过链式思考进行推理,再依据环境反馈动态调整操作。

用户确认机制:对于敏感操作,像输入登录信息或处理验证码这类,CUA会请求用户确认,防止出现潜在错误。

无需专用API:CUA不依赖特定的操作系统或网页API,能直接通过屏幕、鼠标和键盘与各种数字环境交互。

CUA Browser项目特点

开源免费:CUA Browser是开源项目,采用MIT许可证,用户可免费使用。

技术基础:该项目基于Browserbase和OpenAI的CUA技术开发。CUA是一种能通过图形用户界面(GUI)与计算机应用交互的人工智能模型。

使用场景:用户输入自然语言指令后,CUA Browser就能执行网页浏览、表单填写、信息提取等任务。

CUA Browser应用场景

网页自动化任务:能自动填写表单、搜索信息、筛选内容等。比如搜索特定商品、预订酒店、查询航班信息等。

复杂任务执行:可以处理多步骤任务,像创建项目、生成购物清单、管理日程等。例如在Todoist中创建购物清单或在Spotify中创建歌单。

信息检索与整理:从多个网站提取和整理信息,比如搜索不同网站上的产品信息并比较。

辅助决策:在复杂任务中提供辅助决策支持,例如计算退款金额或解决逻辑推理问题。

安全与合规:执行敏感操作时,CUA会要求用户确认,确保操作安全。

教育与研究:可作为研究工具,助力开发和测试新的AI应用。

CUA Browser使用方法

1. 环境准备

Node.js:需要安装 Node.js(推荐版本 14.x 或更高)。

API 密钥:需要从 OpenAI 和 Browserbase 获取相应的 API 密钥。

2. 项目克隆与配置:

gitclonehttps://github.com/browserbase/cua-browser.gitcdcua-browsercp.env.example.env.local

3. 安装依赖:

npminstall

4. 配置环境变量:

OPENAI_API_KEY=your_openai_api_keyOPENAI_ORG=your_openai_org_id(optional)BROWSERBASE_API_KEY=your_browserbase_api_keyBROWSERBASE_PROJECT_ID=your_browserbase_project_id

5. 启动开发服务器:

npmrundev

与OpenAI的Operator关系

CUA Browser的灵感源于OpenAI的Operator项目,后者是一个能通过浏览器执行任务的AI智能体。Operator使用CUA模型,结合了GPT - 4o的视觉能力和强化学习的推理能力,能通过屏幕截图“看到”网页内容,并通过模拟鼠标和键盘操作与网页交互 。

GitHub仓库:https://github.com/browserbase/cua-browser

项目官网:https://www.browserbase.com/computer-use