网页采集与脱敏
本页说明
本页说明 Ghast AI 什么时候会读取当前页面信息、会读取到什么范围,以及哪些内容会在进入系统前先做处理。
对普通用户来说,最重要的结论是:Ghast AI 当前不是对所有网页默认采集,也不是把页面上所有内容都原样带入对话。
什么时候会读取当前页面
当前页面相关能力只在受支持的站点范围内工作,主要覆盖 Web3 和少量相关社交场景。
这意味着:
- 不是每个网站都会自动成为上下文来源
- 页面理解能力有明确范围
- 如果当前页面不在支持范围内,Ghast AI 不会按同样方式读取页面信息
读取页面时,通常会带入什么
当页面属于当前支持范围时,Ghast AI 主要会结合这些信息来理解页面:
- 当前页面地址
- 页面标题
- 页面所属类型
- 与当前页面相关的结构化关键信息
对用户来说,可以把它理解成:Ghast AI 读取的是“理解当前页面所需的信息”,而不是把整个网页当成无限制输入源。
当前会先做什么处理
在页面地址进入系统前,当前会先处理一部分常见的敏感参数,例如登录令牌、访问令牌、会话标识、密码类参数和私钥类参数。
这项处理的意义是:
- 避免把明显属于链接敏感信息的内容原样带入系统
- 让页面上下文更偏向“可理解页面内容”,而不是“保留原始链接中的敏感字段”
这条边界对用户意味着什么
这条边界当前主要带来三点好处:
- 页面采集范围是有限的,不是全网页默认开放
- 页面地址中的一部分高敏感参数会先被处理
- 页面相关能力更容易被用户理解和预期
这条边界不能替你完成什么
你仍然需要知道下面这些限制:
- 这不等于页面中的所有敏感信息都会被自动删除
- 这不等于任何站点都拥有同样的页面理解能力
- 这不等于你可以忽略自己正在打开的页面内容本身
换句话说,这条边界解决的是“默认收口”,不是“自动替代用户判断”。
普通用户的使用建议
如果你希望保持当前默认边界,最稳妥的方式是:
- 只在明确需要时依赖页面上下文能力。
- 对页面中本来就属于敏感内容的信息保持基本判断。
- 不把“已做脱敏”理解成“页面里所有内容都已经无风险”。
Ghast AI 当前只在受支持站点范围内读取页面上下文,并会先处理一部分常见的链接敏感参数。因此,页面相关能力属于“有限范围、先收口后使用”的设计,而不是默认全网页开放采集。
