分析师:AI目前还写不出高质量的分析研报 - FT中文网
登录×
电子邮件/用户名
密码
记住我
请输入邮箱和密码进行绑定操作:
请输入手机号码,通过短信验证(目前仅支持中国大陆地区的手机号):
请您阅读我们的用户注册协议隐私权保护政策,点击下方按钮即视为您接受。
为了第一时间为您呈现此信息,中文内容为AI翻译,仅供参考。
FT商学院

分析师:AI目前还写不出高质量的分析研报

据伯恩斯坦研究所称,金融机器人错误太多、缺乏预测能力,而且往往忽视整体大局。
00:00

{"text":[[{"start":9.33,"text":"也许有一天,卖方研究部门会像斯坦利•库布里克(Stanley Kubrick)的《2001太空漫游》中“发现一号”的内部那样:没有办公桌,通体白色、极简。里头坐着一台类似“哈尔”(HAL)的服务器,只要一声令下,便可提供关于XYZ.com未来三年财务前景的报告。"}],[{"start":27.939999999999998,"text":"FTAV 等人已经反复讨论过 AI 是否能取代勤奋工作的伦敦金融城分析师(程序员也有类似讨论)。总体而言,大家对他们的前景多持悲观看法,更别提金融记者了。"}],[{"start":42.12,"text":"但如果让AI模型分析一家企业或一个行业、构建预测性财务模型并撰写研究报告呢?伯恩斯坦(Bernstein)与法国兴业银行(Société Générale)对此进行了测试。AI模型起初表现不错,但随后一切变得有些混乱。"}],[{"start":58.67999999999999,"text":"由印度研究部主管韦努戈帕尔•加雷(Venugopal Garre)领衔的伯恩斯坦团队首先得决定采用哪些模型:"}],[{"start":null,"text":"

我们梳理了市面上一大批AI工具,挑选出最常用的那些,同时也纳入了一些相对小众的产品。常见的候选包括谷歌Gemini、Grok 和 ChatGPT,我们还加入了 Perplexity、微软(Microsoft)的Copilot、Claude、Meta AI、深度求索(DeepSeek),以及其他一些工具(包括面向金融领域的垂直大型语言模型)。

"}],[{"start":65.86999999999999,"text":"加雷通过各种测试,力图模拟股票分析师的思维过程,并按其“类人”特质为之打分。AI能否不仅从公开数据(包括财报电话会议记录)中提取信息,还能将其加以综合并作出判断?团队想看看ChatGPT、Gemini或其他模型是否能构建用于预测结果的财务模型,并为某家公司撰写首次覆盖报告。"}],[{"start":91.47,"text":"接着,加雷设计了一系列测试,包含基础版和进阶版,先从在未向这些 AI 提供任何信息的情况下进行的“搜索并返回”任务开始。"}],[{"start":101.94,"text":"在这一阶段,当模型为展示而提取公开数据时,一切进展总体顺利。尽管在分类上出现了一些小问题,导致AI回答之间不一致,但总体而言,他发现AI模型在生成财务数据图表方面表现不错。"}],[{"start":118.21,"text":"例如,Grok 为印度公司迪克森科技(Dixon Technologies)制作了一张带双坐标轴的精美交互式图表。"}],[{"start":null,"text":"
"}],[{"start":124.83,"text":"大型语言模型擅长从海量文本中挖掘有用信息,甚至能洞察任一主题随时间的语气变化。为特定公司上传三年期的季度财报电话会议实录后,这款AI工具被要求列出所有投资者担忧,并在另一项任务中给出管理层应对这些担忧的评分。总体而言,它们表现良好。而在按管理层回答问题的自信度来评估管理质量时,Gemini“尤为突出”。"}],[{"start":153.69,"text":"此后,情况开始有些走样。画漂亮的图、判断财报电话会的基调,只占分析师工作的一小部分。只有结合大量数据与自身经验,做出长期行业预测,分析师才能构建用于前瞻性预估的关键财务模型。"}],[{"start":171.68,"text":"这类提示实在难以应对:"}],[{"start":null,"text":"

以卖方分析师身份对股票xyz发起首次覆盖,给出评级(买入、持有或卖出)及其理由。提供每股收益(EPS)预测、目标价及其测算依据。(已提供财报电话会议纪要与财务数据,以及公司所属行业信息)

基于ABC行业某家公司的财务数据与业务拆分,请构建一个基础模型,列出可调整的关键驱动因素,用于预测未来两年的收益。(已提供该公司过去十年的财务数据)

"}],[{"start":174.36,"text":"尽管输入了相关数据并多次优化提示,这些模型仍然返回错误信息和漏洞百出的电子表格。“在建模方面,AI 彻底失败了,”加雷对我说。“会计中的细微差别太多,而且各国之间差异很大。”人类能理解这些,但计算机要掌握这些微妙之处需要大量学习。"}],[{"start":196.9,"text":"大多数 AI 工具根本无法建立模型。经过反复引导,Gemini 倒是给出了一些用 Python 构建财务模型的代码,但仍因报错而无法运行。对于那些确实设法做出了模型的工具,加雷表示,它们几乎没有可预测性。"}],[{"start":null,"text":"
"}],[{"start":214.74,"text":"最终,无论加雷提供了多少数据和提示,十余个模型都无法对公司的前景作出恰当分析。公司的首次覆盖报告深度仍然不足。"}],[{"start":226.34,"text":"人工智能也无法恰当地评估管理举措的结果,例如与中国公司成立合资企业这一举动所涉及的各种地缘政治考量。"}],[{"start":235.74,"text":"该组的整体平均分表现不佳。AI乐观派会念叨他们的口头禅:这些模型只会越来越好。现实派则会说,AI就像Excel,只能提升生产力——而这已足以带来改变。"}],[{"start":250.8,"text":"卖方分析师——公平地说,加雷也希望他们继续留在场内——多少会感到些许安慰。"}]],"url":"https://audio.ftmailbox.cn/album/a_1757685458_3176.mp3"}

版权声明:本文版权归FT中文网所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。

亚洲股市对AI热潮的依赖引发“泡沫”担忧

一些投资者日益担心,亚洲股市可能受到美国科技板块大幅下调的冲击。

日本便利店的阴暗面

工资上涨与劳动力老龄化给现有员工带来压力,这一体系正不堪重负。

Lex专栏:金佰利收购Kenvue的交易恐引发“偏头痛”

在正常时期,这笔对感冒药泰诺制造商的收购看起来会是一招明智之举,但现在可不是正常时期。

预计英国央行下次议息会议将出现分歧

交易员押注,英国央行货币政策委员会可能将利率维持在4%。

AI基础设施热潮中,投资者应超越“兆瓦炫耀”表象

随着投资热潮加速,真正的赢家将掌握那些难以被商品化的关键投入要素。

美国政府被指用“恶霸手段”破坏气候协议

据知情人士透露,美国官员在探讨全球航运净零框架的会议上阵恐吓非洲国家以及太平洋和加勒比地区的小岛国,迫使其放弃支持该框架。
设置字号×
最小
较小
默认
较大
最大
分享×