INTERNAL RESEARCH
GEO / Research Systems Group
Internal Confidential · Not For Client Deck
rev.2026-07-03 · evidence driven architecture

GEO 商业化平台 · 数据链路与诊断系统内部研究图谱

这一版不用于宣传展示,而用于解释系统门槛:采集不是截图,事实库不是 RAG,诊断不是让大模型猜。平台核心是把 AI 搜索结果拆成可观测样本、引用证据、语言分流规则、根因矩阵和复测实验。

CONFIDENTIAL Scope: collection adapters, fact pipeline, domestic/overseas diagnosis split, citation precision, strategy experiment loop. Handling: internal review only. External copy requires abstraction.

研究命题 01 · 事实库不是向量库

事实被拆成 atomic_facts,带行业、场景、语言、来源、公开性、置信度和更新时间,才能做证据过滤。

研究命题 02 · 国内外不是同一套诊断

国内多是回答级可观测;海外因为引用显性,可升级为引用级归因,精度差一个数量级。

研究命题 03 · L1/L2 是海外前置层

robots、WAF、meta、索引和 snippet 资格先判;进不了候选池,内容动作全部暂缓。

研究命题 04 · 策略是实验而非建议

发布内容必须回到同一批问题复测,用 baseline KPI、现状 KPI 和竞品 diff-in-diff 验证。

A

冷启动装置:问题库测量仪器 + 事实弹药库

AI 只生成初稿;同事界面审核、微调、版本化落库。可重跑、可回滚、可追溯。

问题库 = 测量仪器

目标不是“多问几个问题”,而是构造稳定采样仪器:qtype、stage、scene、weight 会直接影响采集频率和观察口径。

① 智能填充身份

租户名 + 主品牌 → 反推行业、产品线、官网、品牌色、logo;缺证据宁可留空。

② 生成行业配置

12-20 个归因维度;每维 4-8 个 AI 答案真实关键词;8-15 个真实竞品。

③ 分层问题库

category 45-55%,对比/排行 20-25%,品牌口碑 15-20%,售后顾虑 8-12%,长尾 5-10%,conquest ≤8%。

④ 导入裸问题

AI 只补 category / qtype / scene / stage / weight,不改客户原问题文本。

事实库 = 弹药库

事实进入诊断前必须被清洗成原子事实。营销词、无证 URL、无数值参数和无法公开引用的内容不进入弹药层。

① 三路进料
  • 官网 BFS + 顺序 ID 补漏
  • 天猫/京东正文事实
  • 来源发现:证据 + 置信度
② validateFact
  • 品类归正 + 三分面词表
  • claim 8-400 字
  • 参数含数值,时序含年份
  • 反营销水分
③ applyFacts
  • 去重、source_id、market、language
  • 候选 → 草稿 → 已发布
  • 仅已发布可诊断
output ::= tenants.config_json + prompts + atomic_facts + sources guard ::= AI draft -> human review -> versioned publish rule ::= "not public / no evidence / pure marketing" => reject
B

运行时数据链路:配置控制面横向注入,采集数据纵向流转

虚线表示动态供参和数据包移动;每个节点保留幂等键、tenant_id 和可重跑边界。

① 数据源

国内引擎 ×5:豆包、DeepSeek、元宝、千问、Kimi。海外 ×3:ChatGPT、Gemini、Perplexity。电商 P2:天猫、京东。

② geo-collector

Patchright 真 Chrome、SSE 网络劫持、DOM 定位、拟人逐字输入、登录态复用、运行时零 token。

③ 网络与账号

国内直连/国内住宅 IP + Clash;海外住宅代理 US;Worker 8-12;账号 LRU;约 80 条/账号/天。

④ 回传接口

results / citations / fact-source 三接口;X-Collector-Key;幂等键去重;query fan-out 轨迹入观测层。

⑤ raw_ingest

原始暂存,kind=answer/citation/fact_source;脏数据隔离;processed=-1 支持清洗重跑。

⑥ normalize

跨租户扇出、品牌识别、排名/负面、domain 归一、按 model 拆分,写入干净层。

⑦ TenantRepo

tenant_id 贯穿,不跨租户读写;数据域隔离但诊断规则共享,配置决定差异。

⑧ diagnose()

读取 engine + language + citation shape,进入国内回答级或海外引用级诊断系统。

answer_logs

答案库/驾驶舱核心:提及、排名、首推、负面、qtype、market、language。

answer_citations

引用源清单:替谁说话、作用、位置、alignment、absorption、freshness。

atomic_facts + sources

原子事实 + 来源库:claim、evidence_url、source_type、industry、scenario、confidence。

visibility_checks

域名可见性体检:robots、WAF、meta、index、snippet,供 L1/L2 使用。

C

诊断实验室:国内“回答级”与海外“引用级”是两套系统

这部分是平台门槛:先分流,再归因;LLM 只能消费结构化上下文,不能自由发挥根因。
Query
用户问题
Answer
AI 回答
Citations
引用列表
Brand Facts
品牌事实
Public Assets
公开内容
Competitors
竞品
Engine
平台画像
Timestamp
回答时间

Routing Hypothesis

一条答案进入诊断后,先读 engine + language + citation shape,决定使用哪套规则、哪套事实弹药、最多打到哪几层。

① language

切换 AUTHORITY_RE / NEGATIVE_PATTERNS / dimKeywords;事实库 zh/en 隔离。

② isOverseasEngine

切换归因结构:海外 L1/L2 可真跑,国内主战场是 L3-L5。

③ engineProfile

SERP、对话式 RPA、indexDependency、crawlerAgents 和 query fan-out 轨迹。

④ citation shape

无引用列表做回答级;有引用列表升维到 citationVerdict 和引用精度。

归因层 系统判定 国内回答级路径 海外引用级路径 动作纪律
L1 可访问层 robots / WAF / CDN 403 / meta / JS 重渲染 / 需登录 爬虫标准弱,通常只能标 unknown,不轻易下 P0 结论。 真实可探;命中即定调为 crawler_access_failure / waf_cdn_blocking。 先修可访问性,暂停内容优化。
L2 索引层 未索引、snippet 资格缺失、引用源池没有进入候选 缺少 Search Console 型可观测,作为低置信提示输出。 Gemini 依赖 Google SERP;ChatGPT/Perplexity 走自有索引画像。 进不了候选池,补事实也不会被引用。
L3 归属层 品类外、品牌不该出现、竞品对决蹭入机会 product_lines + qtype + 中文行业词,避免误判“未提及”。 英文 category / scenario / competitor 关系表。 先判断该不该赢,再判断为什么没赢。
L4 召回层 完全未提及;看同题 × 同模型提及率 提及/排名/首推/负面,区分个例波动和系统性缺口。 引用池是否完全没有品牌源,拆成召回失败或源池缺席。 按问题簇聚合,不看单条偶然答案。
L5 竞争层 提到但输:信源权重输、吸收失败、弹药缺口、篇幅被压、临门一脚 AUTHORITY_RE / NEGATIVE_PATTERNS / keywords 判断权威背书、负面和维度命中。 AUTHORITY_RE_EN 识别 G2/Gartner/Forrester;applyCitationPrecision 对齐句子和引用源。 输出标准根因 + evidence,不允许模型自由命名。

国内诊断系统 · 回答级

  • 事实弹药只取 zh,词典全中文
  • 主战场 L3-L5:归属、召回、竞争
  • 可观测:提及、排名、首推、负面
  • health:可见度、篇幅、事实命中、弹药健康
  • 限制:无引用列表,无法精确做采信/吸收归因
  • 适合批量监测问题簇和品牌相对位置

海外诊断系统 · 引用级升维

  • 事实弹药只取 en,按市场真实问法检索
  • L1-L5 全层:可访问、索引、归属、召回、竞争
  • 引用显性:Perplexity 角标 / ChatGPT Sources
  • citationVerdict 八档:fragile_first / mixed_pool / trust_fail
  • 引用精度:alignment / absorption / role / position / freshness
  • 能判断“AI 读了哪篇,我那句有没有被采信”
D

策略与复测:把诊断变成可验证实验

策略不是一句建议,而是一组可追踪任务;发布后必须回到同一批问题复测。

buildStrategy

拉最近 100 条失利答案聚合;维度战场、八大知识域、弹药评估、结构性断裂。

1:N

campaigns

冻结 strategy_snapshot;写入 baseline_kpi、issue、priority、status。

content_tasks

维度 × claim × 渠道 × 形态;生成 FAQ、对比页、标准答案页,记录 published_url。

复测实验框架

T0 采纳冻结问题簇、答案样本、竞品基线和引用占有率。
T1 上线内容发布后重新进入采集监测,等待 AI 引用源捕获。
T2 生效7/14 天后复测同批问题,比较 baseline KPI vs current KPI。
diff-in-diff与竞品变化对照,避免把全行业波动误判为自身策略有效。