type
Post
status
Published
password
date
May 12, 2026
slug
summary
category
人工智能
URL
tags
LLM
icon
通过故事脉络挖掘技术,可以从海量的碎片信息中获取结构清晰的新闻事件故事脉络,以及故事脉络中事件演化的生命周期和事件能量(热度)的变化过程。
概述
事件脉络任务
- 定义1 事件(Event):指在特定时间和地点发生的,有一个或多个对象参与,有一个或多个动作组成的事情[4];
- 定义2 故事分支(Branch):由多个相同主题的事件构成,用事件关系串联的一条事件时间轴;
- 定义3 故事脉络(Storyline):由一条或多条关联故事分支构成,表示事件演化关系的树状结构。
- 定义4 事件演化(EventEvolution):指事件类似哲学中事物发展的过程,存在类似萌芽、发展、顶峰、衰退和消亡的生命周期。
当事件“长春长生疫苗事件”爆发,新闻用户的需求是直观的了解事件的来龙去脉,快速地获取事件的前
因后果。而对舆情部门而言,则关注事件生命周期变化,希望通过事件演化热度分析,判断事件的传播
动向和民众的舆论导向,对事件发展传播进行监管和决策。

事件脉络流程
- 事件检测与数据准备:以包含新闻事件的数据集为输入,先检测并提取出单个独立事件(需明确事件的时间、地点、参与主体等核心要素),为后续分析奠定基础。
- 事件关联性分析:分析已检测事件间的关联关系,包括因果、顺承、时空关联或主体相似性等,判断事件是否属于同一主题下的演化序列,这是区分不同故事分支的关键。
- 故事分支构建与脉络组装:根据关联性分析结果,将关联紧密的事件分组形成故事分支;再按事件发生的时间顺序,将各故事分支整合组装,形成初步的故事脉络结构。

- 事件演化分析:对组装好的故事脉络进行深度分析,挖掘事件的演化周期(如萌芽、成长、顶峰、衰退、消亡)和演化模式(如链状、树状、网状),最终输出完整的事件演化脉络。
故事脉络构建
核心是 “从无到有生成结构”,即从碎片化、无序的事件数据中,通过关联分析、特征建模等手段,构建出表示事件间演化关系的逻辑结构(如多线索树状、网状)。
例如:将 “长春长生疫苗事件” 的 “员工举报”“官方调查”“责任人处置” 等分散事件,按因果、时间关系串联成初步脉络框架。
事件脉络分析
基于已构建的事件脉络,进一步挖掘事件演化的内在规律。
例如:分析上述疫苗事件脉络中,事件从 “萌芽(举报)→成长(调查曝光)→顶峰(公众热议)→衰退(处置落地)→消亡(热度消退)” 的生命周期,以及 “主事件衍生出补种政策、行业监管调整” 的树状演化模式。
事件脉络分类
- 因果事件脉络分析:因果事件脉络分析强调"原因必须先于结果"的时间顺序原则,但更注重识别事件之间的因果关联,而非单纯的时间排列。
开源事件脉络分析技术方案
Event Deep Research
这是一个基于多智能体架构的AI研究系统,能够自动研究历史人物的生平,并将其重要事件提取为结构化的JSON时间线。项目基于LangGraph多智能体编排框架,实现数据整合、推理与事件去重的全流程自动化,支持多模型(OpenAI、Anthropic、Google及本地模型)集成。
CHRONOS
从多源文本中提取里程碑事件并按时间排序,形成结构化叙事(如新闻事件脉络、历史发展轨迹),需同时捕捉事件的时序关系和因果关系。
不追求 “一次性检索全量信息”,而是通过 “提问 - 检索 - 反馈” 的迭代,逐步补全事件的时序、因果、多维度信息,既保证信息全面性,又避免开放域检索的噪声干扰。
原理机制
迭代地利用 LLMs 提出与新闻主题相关的 5W1H 问题(what、who、why、where、when、how),以收集相关事件的全面信息。然后,我们重写这些问题,将复杂或表现不佳的问题分解为更具体、更容易检索的查询。对于每一轮检索到的新闻,通过合并每一轮检索生成的时间线,最终生成事件脉络。

迭代式新闻自我提问
以 “已获取的新闻背景(News Context)” 为基础,让 LLM 生成 “当前信息无法回答” 的问题,通过量化问题价值(CI 指标)筛选高价值问题,再基于新检索结果迭代提问,直到信息足够构建完整时间线。
- 初始检索(新闻背景)
将新闻标题作为关键词进行搜索,获取30篇新闻,为后续提问提供 “基础事实依据”,避免 LLM 生成无意义、脱离主题的问题。
- 问题示例集
为提升自我提问的质量,我们通过Few Shot提示指导模型基于已检索的新闻文章生成与目标新闻相关的问题。每次根据新闻在Question中检索最有用的Few Shot。
- 问题示例评估
- Q:待评估的问题(或问题组);
- N:检索文档数量(固定为 30);
- :用 “问题改写后的子查询” 检索 N 篇文档,生成的临时时间线;
- :专业记者撰写的参考时间线(黄金标准);
- 时间线摘要的核心指标,计算生成时间线与参考时间线中 “日期匹配” 的 F1 分数(精准度 + 召回率)。
为每个主题生成不同的问题示例,并通过CI指标计算最优的50个提示,写入到问题示例集中。以便在推理过程中使用。
问题改写
迭代式提问生成的问题为了覆盖 “深度和广度”,往往比较复杂(如 “政府针对硅谷银行和签名银行倒闭采取了哪些建议措施?”),直接作为检索词时,关键词分散、语义模糊,导致搜索引擎难以匹配到精准文档。所以本阶段将复杂、宽泛的问题拆解为 2-3 个 “聚焦子查询”,保留核心意图的同时,让每个子查询的关键词更明确,提升检索精准度。
- 原始问题:“政府针对硅谷银行和签名银行倒闭采取了哪些建议措施?”
- 改写结果:
["硅谷银行倒闭后的政府响应", "签名银行倒闭后的政府行动"]
事件脉络生成
- 单轮生成:对每轮检索到的新闻,要求LLM提取关键事件(明确日期)并生成摘要,尽量直接引用原文短语以保证准确性。
- 输出格式:
[{"start": "2023-01-01", "summary": "事件描述"}, ...]
- 多轮合并:整合所有轮次生成的时间线,解决日期冲突并筛选最重要的事件。
- 优先保留多轮中共同出现的事件日期(日期重合度高的事件更显著)。
- 控制最终时间线长度(保留Top-l个关键事件),按时间排序。
事件抽取
大语言模型(LLMs)为时间线摘要领域带来了新的进展(Wang 等人,2023;Sojitra 等人,2024)。具体而言,Hu 等人(2024)利用大语言模型进行事件摘要的生成与聚类。
百度
基于大模型的方案
不考虑运算量以及运行时间
后进行修改,先进行事件抽取,之后使用大模型进行事件脉络生成。
问题
1、事件脉络分支
目前事件脉络分支使用都比较主观。询问认知项目事件脉络分析如何进行分支,得到答复,按照事件颗粒度进行了分支。
目前对于分支,与子奇协商。分支没有好的办法规避主观性