事件脉络概述 | Civilization Museum

type

Post

status

Published

password

date

May 12, 2026

slug

summary

概述

事件脉络任务

定义1 事件(Event):指在特定时间和地点发生的,有一个或多个对象参与,有一个或多个动作组成的事情[4];

定义2 故事分支(Branch):由多个相同主题的事件构成,用事件关系串联的一条事件时间轴;

定义3 故事脉络(Storyline):由一条或多条关联故事分支构成,表示事件演化关系的树状结构。

定义4 事件演化(EventEvolution):指事件类似哲学中事物发展的过程,存在类似萌芽、发展、顶峰、衰退和消亡的生命周期。

当事件“长春长生疫苗事件”爆发,新闻用户的需求是直观的了解事件的来龙去脉,快速地获取事件的前因后果。而对舆情部门而言,则关注事件生命周期变化,希望通过事件演化热度分析,判断事件的传播动向和民众的舆论导向,对事件发展传播进行监管和决策。

事件脉络流程

事件检测与数据准备：以包含新闻事件的数据集为输入，先检测并提取出单个独立事件（需明确事件的时间、地点、参与主体等核心要素），为后续分析奠定基础。

事件关联性分析：分析已检测事件间的关联关系，包括因果、顺承、时空关联或主体相似性等，判断事件是否属于同一主题下的演化序列，这是区分不同故事分支的关键。

故事分支构建与脉络组装：根据关联性分析结果，将关联紧密的事件分组形成故事分支；再按事件发生的时间顺序，将各故事分支整合组装，形成初步的故事脉络结构。

事件演化分析：对组装好的故事脉络进行深度分析，挖掘事件的演化周期（如萌芽、成长、顶峰、衰退、消亡）和演化模式（如链状、树状、网状），最终输出完整的事件演化脉络。

故事脉络构建

核心是 “从无到有生成结构”，即从碎片化、无序的事件数据中，通过关联分析、特征建模等手段，构建出表示事件间演化关系的逻辑结构（如多线索树状、网状）。

例如：将 “长春长生疫苗事件” 的 “员工举报”“官方调查”“责任人处置” 等分散事件，按因果、时间关系串联成初步脉络框架。

事件脉络分析

基于已构建的事件脉络，进一步挖掘事件演化的内在规律。

例如：分析上述疫苗事件脉络中，事件从 “萌芽（举报）→成长（调查曝光）→顶峰（公众热议）→衰退（处置落地）→消亡（热度消退）” 的生命周期，以及 “主事件衍生出补种政策、行业监管调整” 的树状演化模式。

事件脉络分类

因果事件脉络分析：因果事件脉络分析强调"原因必须先于结果"的时间顺序原则，但更注重识别事件之间的因果关联，而非单纯的时间排列。

开源事件脉络分析技术方案

Event Deep Research

这是一个基于多智能体架构的AI研究系统，能够自动研究历史人物的生平，并将其重要事件提取为结构化的JSON时间线。项目基于LangGraph多智能体编排框架，实现数据整合、推理与事件去重的全流程自动化，支持多模型（OpenAI、Anthropic、Google及本地模型）集成。

CHRONOS

从多源文本中提取里程碑事件并按时间排序，形成结构化叙事（如新闻事件脉络、历史发展轨迹），需同时捕捉事件的时序关系和因果关系。

不追求 “一次性检索全量信息”，而是通过 “提问 - 检索 - 反馈” 的迭代，逐步补全事件的时序、因果、多维度信息，既保证信息全面性，又避免开放域检索的噪声干扰。

原理机制

迭代地利用 LLMs 提出与新闻主题相关的 5W1H 问题（what、who、why、where、when、how），以收集相关事件的全面信息。然后，我们重写这些问题，将复杂或表现不佳的问题分解为更具体、更容易检索的查询。对于每一轮检索到的新闻，通过合并每一轮检索生成的时间线，最终生成事件脉络。

迭代式新闻自我提问

以 “已获取的新闻背景（News Context）” 为基础，让 LLM 生成 “当前信息无法回答” 的问题，通过量化问题价值（CI 指标）筛选高价值问题，再基于新检索结果迭代提问，直到信息足够构建完整时间线。

初始检索（新闻背景）

将新闻标题作为关键词进行搜索，获取30篇新闻，为后续提问提供 “基础事实依据”，避免 LLM 生成无意义、脱离主题的问题。

问题示例集

为提升自我提问的质量，我们通过Few Shot提示指导模型基于已检索的新闻文章生成与目标新闻相关的问题。每次根据新闻在Question中检索最有用的Few Shot。

问题示例评估

为每个主题生成不同的问题示例，并通过CI指标计算最优的50个提示，写入到问题示例集中。以便在推理过程中使用。

Q：待评估的问题（或问题组）；

N：检索文档数量（固定为 30）；

：用 “问题改写后的子查询” 检索 N 篇文档，生成的临时时间线；

：专业记者撰写的参考时间线（黄金标准）；

时间线摘要的核心指标，计算生成时间线与参考时间线中 “日期匹配” 的 F1 分数（精准度 + 召回率）。

问题改写

迭代式提问生成的问题为了覆盖 “深度和广度”，往往比较复杂（如 “政府针对硅谷银行和签名银行倒闭采取了哪些建议措施？”），直接作为检索词时，关键词分散、语义模糊，导致搜索引擎难以匹配到精准文档。所以本阶段将复杂、宽泛的问题拆解为 2-3 个 “聚焦子查询”，保留核心意图的同时，让每个子查询的关键词更明确，提升检索精准度。

原始问题：“政府针对硅谷银行和签名银行倒闭采取了哪些建议措施？”

改写结果：["硅谷银行倒闭后的政府响应", "签名银行倒闭后的政府行动"]

事件脉络生成

单轮生成：对每轮检索到的新闻，要求LLM提取关键事件（明确日期）并生成摘要，尽量直接引用原文短语以保证准确性。

输出格式：[{"start": "2023-01-01", "summary": "事件描述"}, ...]

多轮合并：整合所有轮次生成的时间线，解决日期冲突并筛选最重要的事件。

优先保留多轮中共同出现的事件日期（日期重合度高的事件更显著）。
控制最终时间线长度（保留Top-l个关键事件），按时间排序。

事件抽取

大语言模型（LLMs）为时间线摘要领域带来了新的进展（Wang 等人，2023；Sojitra 等人，2024）。具体而言，Hu 等人（2024）利用大语言模型进行事件摘要的生成与聚类。

百度

语言与知识 - 事件脉络 | 百度AI开放平台

基于大模型的方案

不考虑运算量以及运行时间

后进行修改，先进行事件抽取，之后使用大模型进行事件脉络生成。

问题

1、事件脉络分支

目前事件脉络分支使用都比较主观。询问认知项目事件脉络分析如何进行分支，得到答复，按照事件颗粒度进行了分支。

目前对于分支，与子奇协商。分支没有好的办法规避主观性