GEO 商业化平台 · 数据链路与诊断系统内部研究图谱

这一版不用于宣传展示，而用于解释系统门槛：采集不是截图，事实库不是 RAG，诊断不是让大模型猜。平台核心是把 AI 搜索结果拆成可观测样本、引用证据、语言分流规则、根因矩阵和复测实验。

CONFIDENTIAL Scope: collection adapters, fact pipeline, domestic/overseas diagnosis split, citation precision, strategy experiment loop. Handling: internal review only. External copy requires abstraction.

研究命题 01 · 事实库不是向量库

事实被拆成 atomic_facts，带行业、场景、语言、来源、公开性、置信度和更新时间，才能做证据过滤。

研究命题 02 · 国内外不是同一套诊断

国内多是回答级可观测；海外因为引用显性，可升级为引用级归因，精度差一个数量级。

研究命题 03 · L1/L2 是海外前置层

robots、WAF、meta、索引和 snippet 资格先判；进不了候选池，内容动作全部暂缓。

研究命题 04 · 策略是实验而非建议

发布内容必须回到同一批问题复测，用 baseline KPI、现状 KPI 和竞品 diff-in-diff 验证。

冷启动装置：问题库测量仪器 + 事实弹药库

AI 只生成初稿；同事界面审核、微调、版本化落库。可重跑、可回滚、可追溯。

问题库 = 测量仪器

目标不是“多问几个问题”，而是构造稳定采样仪器：qtype、stage、scene、weight 会直接影响采集频率和观察口径。

① 智能填充身份

租户名 + 主品牌 → 反推行业、产品线、官网、品牌色、logo；缺证据宁可留空。

② 生成行业配置

12-20 个归因维度；每维 4-8 个 AI 答案真实关键词；8-15 个真实竞品。

③ 分层问题库

category 45-55%，对比/排行 20-25%，品牌口碑 15-20%，售后顾虑 8-12%，长尾 5-10%，conquest ≤8%。

④ 导入裸问题

AI 只补 category / qtype / scene / stage / weight，不改客户原问题文本。

事实库 = 弹药库

事实进入诊断前必须被清洗成原子事实。营销词、无证 URL、无数值参数和无法公开引用的内容不进入弹药层。

① 三路进料

官网 BFS + 顺序 ID 补漏
天猫/京东正文事实
来源发现：证据 + 置信度

② validateFact

品类归正 + 三分面词表
claim 8-400 字
参数含数值，时序含年份
反营销水分

③ applyFacts

去重、source_id、market、language
候选 → 草稿 → 已发布
仅已发布可诊断

output ::= tenants.config_json + prompts + atomic_facts + sources guard ::= AI draft -> human review -> versioned publish rule ::= "not public / no evidence / pure marketing" => reject

运行时数据链路：配置控制面横向注入，采集数据纵向流转

虚线表示动态供参和数据包移动；每个节点保留幂等键、tenant_id 和可重跑边界。

① 数据源

国内引擎 ×5：豆包、DeepSeek、元宝、千问、Kimi。海外 ×3：ChatGPT、Gemini、Perplexity。电商 P2：天猫、京东。

② geo-collector

Patchright 真 Chrome、SSE 网络劫持、DOM 定位、拟人逐字输入、登录态复用、运行时零 token。

③ 网络与账号

国内直连/国内住宅 IP + Clash；海外住宅代理 US；Worker 8-12；账号 LRU；约 80 条/账号/天。

④ 回传接口

results / citations / fact-source 三接口；X-Collector-Key；幂等键去重；query fan-out 轨迹入观测层。

⑤ raw_ingest

原始暂存，kind=answer/citation/fact_source；脏数据隔离；processed=-1 支持清洗重跑。

⑥ normalize

跨租户扇出、品牌识别、排名/负面、domain 归一、按 model 拆分，写入干净层。

⑦ TenantRepo

tenant_id 贯穿，不跨租户读写；数据域隔离但诊断规则共享，配置决定差异。

⑧ diagnose()

读取 engine + language + citation shape，进入国内回答级或海外引用级诊断系统。

answer_logs

答案库/驾驶舱核心：提及、排名、首推、负面、qtype、market、language。

answer_citations

引用源清单：替谁说话、作用、位置、alignment、absorption、freshness。

atomic_facts + sources

原子事实 + 来源库：claim、evidence_url、source_type、industry、scenario、confidence。

visibility_checks

域名可见性体检：robots、WAF、meta、index、snippet，供 L1/L2 使用。

诊断实验室：国内“回答级”与海外“引用级”是两套系统

这部分是平台门槛：先分流，再归因；LLM 只能消费结构化上下文，不能自由发挥根因。

Query
用户问题

Answer
AI 回答

Citations
引用列表

Brand Facts
品牌事实

Public Assets
公开内容

Competitors
竞品

Engine
平台画像

Timestamp
回答时间

Routing Hypothesis

一条答案进入诊断后，先读 engine + language + citation shape，决定使用哪套规则、哪套事实弹药、最多打到哪几层。

① language

切换 AUTHORITY_RE / NEGATIVE_PATTERNS / dimKeywords；事实库 zh/en 隔离。

② isOverseasEngine

切换归因结构：海外 L1/L2 可真跑，国内主战场是 L3-L5。

③ engineProfile

SERP、对话式 RPA、indexDependency、crawlerAgents 和 query fan-out 轨迹。

④ citation shape

无引用列表做回答级；有引用列表升维到 citationVerdict 和引用精度。

归因层	系统判定	国内回答级路径	海外引用级路径	动作纪律
L1 可访问层	robots / WAF / CDN 403 / meta / JS 重渲染 / 需登录	爬虫标准弱，通常只能标 unknown，不轻易下 P0 结论。	真实可探；命中即定调为 crawler_access_failure / waf_cdn_blocking。	先修可访问性，暂停内容优化。
L2 索引层	未索引、snippet 资格缺失、引用源池没有进入候选	缺少 Search Console 型可观测，作为低置信提示输出。	Gemini 依赖 Google SERP；ChatGPT/Perplexity 走自有索引画像。	进不了候选池，补事实也不会被引用。
L3 归属层	品类外、品牌不该出现、竞品对决蹭入机会	product_lines + qtype + 中文行业词，避免误判“未提及”。	英文 category / scenario / competitor 关系表。	先判断该不该赢，再判断为什么没赢。
L4 召回层	完全未提及；看同题 × 同模型提及率	提及/排名/首推/负面，区分个例波动和系统性缺口。	引用池是否完全没有品牌源，拆成召回失败或源池缺席。	按问题簇聚合，不看单条偶然答案。
L5 竞争层	提到但输：信源权重输、吸收失败、弹药缺口、篇幅被压、临门一脚	AUTHORITY_RE / NEGATIVE_PATTERNS / keywords 判断权威背书、负面和维度命中。	AUTHORITY_RE_EN 识别 G2/Gartner/Forrester；applyCitationPrecision 对齐句子和引用源。	输出标准根因 + evidence，不允许模型自由命名。

国内诊断系统 · 回答级

事实弹药只取 zh，词典全中文
主战场 L3-L5：归属、召回、竞争
可观测：提及、排名、首推、负面
health：可见度、篇幅、事实命中、弹药健康
限制：无引用列表，无法精确做采信/吸收归因
适合批量监测问题簇和品牌相对位置

海外诊断系统 · 引用级升维

事实弹药只取 en，按市场真实问法检索
L1-L5 全层：可访问、索引、归属、召回、竞争
引用显性：Perplexity 角标 / ChatGPT Sources
citationVerdict 八档：fragile_first / mixed_pool / trust_fail
引用精度：alignment / absorption / role / position / freshness
能判断“AI 读了哪篇，我那句有没有被采信”

策略与复测：把诊断变成可验证实验

策略不是一句建议，而是一组可追踪任务；发布后必须回到同一批问题复测。

buildStrategy

拉最近 100 条失利答案聚合；维度战场、八大知识域、弹药评估、结构性断裂。

1:N

campaigns

冻结 strategy_snapshot；写入 baseline_kpi、issue、priority、status。

→

content_tasks

维度 × claim × 渠道 × 形态；生成 FAQ、对比页、标准答案页，记录 published_url。

复测实验框架

T0 采纳冻结问题簇、答案样本、竞品基线和引用占有率。

T1 上线内容发布后重新进入采集监测，等待 AI 引用源捕获。

T2 生效7/14 天后复测同批问题，比较 baseline KPI vs current KPI。

diff-in-diff与竞品变化对照，避免把全行业波动误判为自身策略有效。