GEO 商业化平台 · 数据链路与诊断系统内部研究图谱
这一版不用于宣传展示,而用于解释系统门槛:采集不是截图,事实库不是 RAG,诊断不是让大模型猜。平台核心是把 AI 搜索结果拆成可观测样本、引用证据、语言分流规则、根因矩阵和复测实验。
研究命题 01 · 事实库不是向量库
事实被拆成 atomic_facts,带行业、场景、语言、来源、公开性、置信度和更新时间,才能做证据过滤。
研究命题 02 · 国内外不是同一套诊断
国内多是回答级可观测;海外因为引用显性,可升级为引用级归因,精度差一个数量级。
研究命题 03 · L1/L2 是海外前置层
robots、WAF、meta、索引和 snippet 资格先判;进不了候选池,内容动作全部暂缓。
研究命题 04 · 策略是实验而非建议
发布内容必须回到同一批问题复测,用 baseline KPI、现状 KPI 和竞品 diff-in-diff 验证。
冷启动装置:问题库测量仪器 + 事实弹药库
问题库 = 测量仪器
目标不是“多问几个问题”,而是构造稳定采样仪器:qtype、stage、scene、weight 会直接影响采集频率和观察口径。
租户名 + 主品牌 → 反推行业、产品线、官网、品牌色、logo;缺证据宁可留空。
12-20 个归因维度;每维 4-8 个 AI 答案真实关键词;8-15 个真实竞品。
category 45-55%,对比/排行 20-25%,品牌口碑 15-20%,售后顾虑 8-12%,长尾 5-10%,conquest ≤8%。
AI 只补 category / qtype / scene / stage / weight,不改客户原问题文本。
事实库 = 弹药库
事实进入诊断前必须被清洗成原子事实。营销词、无证 URL、无数值参数和无法公开引用的内容不进入弹药层。
- 官网 BFS + 顺序 ID 补漏
- 天猫/京东正文事实
- 来源发现:证据 + 置信度
- 品类归正 + 三分面词表
- claim 8-400 字
- 参数含数值,时序含年份
- 反营销水分
- 去重、source_id、market、language
- 候选 → 草稿 → 已发布
- 仅已发布可诊断
运行时数据链路:配置控制面横向注入,采集数据纵向流转
① 数据源
国内引擎 ×5:豆包、DeepSeek、元宝、千问、Kimi。海外 ×3:ChatGPT、Gemini、Perplexity。电商 P2:天猫、京东。
② geo-collector
Patchright 真 Chrome、SSE 网络劫持、DOM 定位、拟人逐字输入、登录态复用、运行时零 token。
③ 网络与账号
国内直连/国内住宅 IP + Clash;海外住宅代理 US;Worker 8-12;账号 LRU;约 80 条/账号/天。
④ 回传接口
results / citations / fact-source 三接口;X-Collector-Key;幂等键去重;query fan-out 轨迹入观测层。
⑤ raw_ingest
原始暂存,kind=answer/citation/fact_source;脏数据隔离;processed=-1 支持清洗重跑。
⑥ normalize
跨租户扇出、品牌识别、排名/负面、domain 归一、按 model 拆分,写入干净层。
⑦ TenantRepo
tenant_id 贯穿,不跨租户读写;数据域隔离但诊断规则共享,配置决定差异。
⑧ diagnose()
读取 engine + language + citation shape,进入国内回答级或海外引用级诊断系统。
answer_logs
答案库/驾驶舱核心:提及、排名、首推、负面、qtype、market、language。
answer_citations
引用源清单:替谁说话、作用、位置、alignment、absorption、freshness。
atomic_facts + sources
原子事实 + 来源库:claim、evidence_url、source_type、industry、scenario、confidence。
visibility_checks
域名可见性体检:robots、WAF、meta、index、snippet,供 L1/L2 使用。
诊断实验室:国内“回答级”与海外“引用级”是两套系统
用户问题
AI 回答
引用列表
品牌事实
公开内容
竞品
平台画像
回答时间
Routing Hypothesis
一条答案进入诊断后,先读 engine + language + citation shape,决定使用哪套规则、哪套事实弹药、最多打到哪几层。
① language
切换 AUTHORITY_RE / NEGATIVE_PATTERNS / dimKeywords;事实库 zh/en 隔离。
② isOverseasEngine
切换归因结构:海外 L1/L2 可真跑,国内主战场是 L3-L5。
③ engineProfile
SERP、对话式 RPA、indexDependency、crawlerAgents 和 query fan-out 轨迹。
④ citation shape
无引用列表做回答级;有引用列表升维到 citationVerdict 和引用精度。
| 归因层 | 系统判定 | 国内回答级路径 | 海外引用级路径 | 动作纪律 |
|---|---|---|---|---|
| L1 可访问层 | robots / WAF / CDN 403 / meta / JS 重渲染 / 需登录 | 爬虫标准弱,通常只能标 unknown,不轻易下 P0 结论。 | 真实可探;命中即定调为 crawler_access_failure / waf_cdn_blocking。 | 先修可访问性,暂停内容优化。 |
| L2 索引层 | 未索引、snippet 资格缺失、引用源池没有进入候选 | 缺少 Search Console 型可观测,作为低置信提示输出。 | Gemini 依赖 Google SERP;ChatGPT/Perplexity 走自有索引画像。 | 进不了候选池,补事实也不会被引用。 |
| L3 归属层 | 品类外、品牌不该出现、竞品对决蹭入机会 | product_lines + qtype + 中文行业词,避免误判“未提及”。 | 英文 category / scenario / competitor 关系表。 | 先判断该不该赢,再判断为什么没赢。 |
| L4 召回层 | 完全未提及;看同题 × 同模型提及率 | 提及/排名/首推/负面,区分个例波动和系统性缺口。 | 引用池是否完全没有品牌源,拆成召回失败或源池缺席。 | 按问题簇聚合,不看单条偶然答案。 |
| L5 竞争层 | 提到但输:信源权重输、吸收失败、弹药缺口、篇幅被压、临门一脚 | AUTHORITY_RE / NEGATIVE_PATTERNS / keywords 判断权威背书、负面和维度命中。 | AUTHORITY_RE_EN 识别 G2/Gartner/Forrester;applyCitationPrecision 对齐句子和引用源。 | 输出标准根因 + evidence,不允许模型自由命名。 |
国内诊断系统 · 回答级
- 事实弹药只取 zh,词典全中文
- 主战场 L3-L5:归属、召回、竞争
- 可观测:提及、排名、首推、负面
- health:可见度、篇幅、事实命中、弹药健康
- 限制:无引用列表,无法精确做采信/吸收归因
- 适合批量监测问题簇和品牌相对位置
海外诊断系统 · 引用级升维
- 事实弹药只取 en,按市场真实问法检索
- L1-L5 全层:可访问、索引、归属、召回、竞争
- 引用显性:Perplexity 角标 / ChatGPT Sources
- citationVerdict 八档:fragile_first / mixed_pool / trust_fail
- 引用精度:alignment / absorption / role / position / freshness
- 能判断“AI 读了哪篇,我那句有没有被采信”
策略与复测:把诊断变成可验证实验
buildStrategy
拉最近 100 条失利答案聚合;维度战场、八大知识域、弹药评估、结构性断裂。
campaigns
冻结 strategy_snapshot;写入 baseline_kpi、issue、priority、status。
content_tasks
维度 × claim × 渠道 × 形态;生成 FAQ、对比页、标准答案页,记录 published_url。