LLM Alpha Mining: как извлекать торговые сигналы из earnings calls и финансовых документов

Есть такая шутка на Уолл-стрит: «Самая ценная информация в earnings call — не то, что CEO сказал, а то, как он это сказал». Когда Тим Кук говорит «мы осторожно оптимистичны» вместо прошлогоднего «мы очень довольны» — это не лингвистическая игра, это сигнал на сотни миллионов долларов.

Десятилетиями квантовые фонды пытались систематизировать извлечение этих сигналов. Сначала считали частоту «позитивных» и «негативных» слов по словарям. Потом натравили BERT. А теперь у нас GPT-4o, Claude и открытые LLM-ки, способные разбирать тонкости корпоративного двоеречия с точностью, которая пугает даже самих исследователей.

Давайте разберёмся, как построить полноценный пайплайн извлечения торговых сигналов из earnings calls — от получения транскрипта до бэктестинга cumulative abnormal returns.

Почему earnings calls — это золотая жила для альфы

Post-Earnings Announcement Drift: аномалия, которая не умирает

В 1968 году Болл и Браун обнаружили нечто странное: после публикации квартальных результатов акции продолжают дрейфовать в направлении «сюрприза» ещё 60-90 дней. Назвали это Post-Earnings Announcement Drift (PEAD). С тех пор прошло больше полувека, написаны сотни статей, аномалию объяснили с десяти сторон — а она всё ещё работает.

PEAD — одна из самых устойчивых рыночных аномалий в истории финансов. Портфельная стратегия «купи позитивный сюрприз, продай негативный» исторически приносит 10-25% годовых excess return. Почему рынок до сих пор не арбитражировал это? Несколько причин:

Ограниченное внимание инвесторов — когда 200 компаний отчитываются в одну неделю, физически невозможно прочитать все транскрипты
Когнитивная сложность — earnings call длится 45-60 минут, и ключевой сигнал может быть скрыт в одном предложении на 38-й минуте сессии Q&A
Двусмысленность языка — CFO говорит «we are navigating headwinds», и без контекста непонятно, это мягкий warning или стандартная подстраховка

И вот здесь LLM-ки выходят на сцену. Впервые у нас есть инструмент, который может обработать 500 транскриптов за вечер и при этом уловить нюансы, которые пропустит даже опытный аналитик.

PEAD.txt: текст важнее цифр

Исследователи из ФРБ Филадельфии (Meursault, Liang, Routledge, Scanlon) опубликовали работу PEAD.txt, которая перевернула представления о ценности текстовой информации. Они построили текстовый аналог стандартного earnings surprise — SUE.txt — который не использует числовое значение прибыли вообще.

Результат? SUE.txt генерирует дрейф, вдвое превышающий классический PEAD. Более того: в последние годы, когда классический PEAD на числовых сюрпризах практически исчез (рынок обучился), текстовый дрейф остаётся значительным. Рынок научился быстро обрабатывать числа, но всё ещё плохо справляется с интерпретацией текста.

Это — фундаментальный аргумент в пользу NLP-подхода к earnings calls.

От сентимента к семантике: эволюция подходов

От сентимента к семантике

Первое поколение: bag-of-words и словари (2000-2015)

Всё началось со словаря Loughran-McDonald (2011) — списка слов, размеченных как «позитивные», «негативные», «неопределённые» и «судебные». Идея была элегантная в своей простоте: подсчитай процент негативных слов в отчёте 10-K и торгуй от этого.

Проблема? Слово «outstanding» в финансовом контексте чаще означает «непогашенный долг», а не «превосходный результат». Слово «risk» в Risk Management — это не негативный сигнал, а описание процесса. Стандартные словари сентимента из NLP работали для финансовых текстов позорно плохо.

Loughran и McDonald создали специализированный словарь, что улучшило ситуацию, но фундаментальная проблема осталась: bag-of-words не понимает контекст. «We did not fail to meet expectations» — тут два «негативных» слова, но смысл позитивный.

Второе поколение: FinBERT и трансформеры (2019-2023)

В 2019 году Dogu Araci опубликовал FinBERT — BERT, дообученный на финансовых текстах из Reuters TRC2. Результат впечатлял: улучшение state-of-the-art на 14 процентных пунктов на датасете Financial PhraseBank. FinBERT понимал контекст: «outstanding» рядом с «debt» — негатив, рядом с «performance» — позитив.

Но у FinBERT было ограничение: окно контекста 512 токенов. Earnings call — это 8000-12000 слов. Разбивать на куски и усреднять сентимент — значит терять межпараграфную семантику. CEO может начать с оптимизма, а потом в Q&A невзначай обмолвиться о проблемах с цепочками поставок. FinBERT анализирует каждый кусок отдельно и не видит этого контраста.

Третье поколение: LLM-ы с длинным контекстом (2023-настоящее)

GPT-4, Claude, Gemini с окнами в 128K-1M токенов изменили правила игры. Теперь можно загрузить весь транскрипт целиком и задать вопрос, требующий понимания всего документа.

Ключевое исследование — Lopez-Lira & Tang (2023) «Can ChatGPT Forecast Stock Price Movements?». На 50 000+ заголовков GPT-4 показал ~90% hit rate в предсказании направления начальной реакции рынка и значимо предсказывал последующий дрейф, особенно для малых компаний и негативных новостей. При этом ранние модели (GPT-1, GPT-2, BERT) такой способности не показывали — предиктивность возникает как эмерджентное свойство больших моделей.

BloombergGPT (2023) — модель на 50 млрд параметров, обученная на финансовом корпусе Bloomberg — продемонстрировала улучшения в финансовом NER, классификации новостей и анализе сентимента. FinGPT — её open-source альтернатива — достигает 89% точности на задачах финансового сентимента с помощью data-centric подхода и RAG.

MarketSenseAI, использующий GPT-4 с Chain-of-Thought и In-Context Learning для анализа S&P 100, показал excess alpha 10-30% и кумулятивную доходность до 72% за 15 месяцев тестирования. Да, эти числа нужно воспринимать с осторожностью (бэктест ≠ live trading), но тренд очевиден.

Data pipeline: откуда брать данные

SEC EDGAR: официальный источник

Для американских акций главный источник — SEC EDGAR. Earnings calls обычно не подаются напрямую, но связанные документы доступны:

8-K filings (Item 2.02 — Results of Operations) — пресс-релизы с результатами, часто включают exhibit 99 с транскриптом
10-Q / 10-K — квартальные и годовые отчёты с Management Discussion & Analysis (MD&A) — тоже ценный текстовый источник
DEF 14A — proxy statements с информацией о компенсации менеджмента

from edgar import Company

company = Company("AAPL")
filings = company.get_filings(form="8-K")

for filing in filings.latest(10):
    if "2.02" in str(filing.items):
        doc = filing.document()
        text = doc.text()  # Полный текст с приложениями
        print(f"{filing.filing_date}: {len(text)} chars")

Seeking Alpha и коммерческие API

Транскрипты earnings calls — отдельный продукт. Seeking Alpha исторически был главным бесплатным источником, но сейчас ограничивает доступ. Коммерческие варианты:

Seeking Alpha Premium API — полные транскрипты с разметкой спикеров
AlphaVantage Earnings API — бесплатный tier с ограничениями
Financial Modeling Prep — транскрипты + fundamentals
Earnings Call Edge / Motley Fool Transcripts — альтернативные источники

Крипто: governance calls и DAO proposals

Здесь всё интереснее. Крупные DeFi-протоколы проводят аналог earnings calls:

Uniswap — governance calls, community calls, записи на YouTube
Aave — ежемесячные community calls + governance forum proposals
MakerDAO — governance calls + extensive forum discussions
Compound — governance proposals с подробными обсуждениями

Транскрипты крипто-звонков обычно не структурированы. Решение — Whisper от OpenAI для транскрипции YouTube-записей:

import openai
from yt_dlp import YoutubeDL

def transcribe_governance_call(youtube_url: str) -> str:
    """Скачиваем аудио с YouTube и транскрибируем через Whisper."""
    ydl_opts = {
        'format': 'bestaudio/best',
        'postprocessors': [{
            'key': 'FFmpegExtractAudio',
            'preferredcodec': 'mp3',
            'preferredquality': '64',  # Низкий битрейт достаточен для речи
        }],
        'outtmpl': '/tmp/governance_call.%(ext)s',
    }

    with YoutubeDL(ydl_opts) as ydl:
        ydl.download([youtube_url])

    client = openai.OpenAI()

    with open("/tmp/governance_call.mp3", "rb") as audio_file:
        transcript = client.audio.transcriptions.create(
            model="whisper-1",
            file=audio_file,
            response_format="verbose_json",
            timestamp_granularities=["segment"]
        )

    return transcript.text

Стоимость транскрипции через Whisper API: $0.006/мин. Часовой governance call обойдётся в ~$ 0.36. Для self-hosted варианта — Whisper Large-v3 Turbo транскрибирует 60-минутный файл за ~17 секунд (216x real-time) на современном GPU.

LLM prompting strategies: от наивного к промышленному

Pipeline извлечения сигналов

Стратегия 1: Direct Sentiment (слабая)

Самый наивный подход — спросить модель напрямую:

"Is this earnings call positive or negative for the stock price?"

Работает ли это? Да, на удивление. Lopez-Lira & Tang показали, что даже такой примитивный prompt даёт статистически значимые предсказания. Но есть проблемы:

Бинарный выход — теряем градации. «Катастрофа» и «лёгкое разочарование» получают одну метку
Отсутствие объяснения — непонятно, на основании чего модель приняла решение
Нестабильность — повторный запуск может дать другой ответ

Стратегия 2: Structured Extraction с Chain-of-Thought (сильная)

Идея: вместо одного числа извлекаем структурированный набор сигналов, заставляя модель объяснять каждый шаг.

from pydantic import BaseModel, Field
from openai import OpenAI
from enum import Enum
from typing import Optional


class SentimentLevel(str, Enum):
    VERY_BEARISH = "very_bearish"
    BEARISH = "bearish"
    NEUTRAL = "neutral"
    BULLISH = "bullish"
    VERY_BULLISH = "very_bullish"


class GuidanceSurprise(BaseModel):
    """Отклонение forward guidance от консенсус-ожиданий."""
    revenue_guidance_vs_consensus: Optional[float] = Field(
        None, description="% отклонения прогноза выручки от консенсуса"
    )
    margin_guidance_direction: Optional[str] = Field(
        None, description="expanding / stable / contracting"
    )
    key_quote: str = Field(
        description="Дословная цитата с guidance"
    )
    reasoning: str = Field(
        description="CoT: почему этот guidance важен"
    )


class ConfidenceMetrics(BaseModel):
    """Метрики уверенности менеджмента."""
    hedge_word_count: int = Field(
        description="Количество hedge words: 'approximately', 'potentially', 'subject to'"
    )
    forward_looking_ratio: float = Field(
        description="Доля forward-looking statements от общего числа утверждений"
    )
    q_and_a_evasion_count: int = Field(
        description="Количество вопросов, на которые CEO/CFO дал уклончивый ответ"
    )
    ceo_vs_cfo_sentiment_delta: float = Field(
        description="Разница сентимента CEO и CFO (-1 to 1). Расхождение — red flag"
    )


class CompetitiveIntelligence(BaseModel):
    """Упоминания конкурентов и рыночной позиции."""
    competitors_mentioned: list[str] = Field(
        description="Список упомянутых конкурентов"
    )
    market_share_claims: list[str] = Field(
        description="Заявления о доле рынка"
    )
    new_product_signals: list[str] = Field(
        description="Сигналы о новых продуктах/сервисах"
    )


class ManagementSignals(BaseModel):
    """Сигналы о менеджменте."""
    turnover_risk: SentimentLevel = Field(
        description="Риск смены ключевого менеджмента"
    )
    tone_shift_from_previous: Optional[str] = Field(
        None, description="Как изменился тон по сравнению с прошлым кварталом"
    )
    insider_language_flags: list[str] = Field(
        description="Фразы-маркеры: 'exploring strategic alternatives', 'right-sizing' и т.д."
    )


class EarningsCallAnalysis(BaseModel):
    """Полный анализ earnings call."""
    ticker: str
    quarter: str
    overall_sentiment: SentimentLevel
    sentiment_score: float = Field(description="от -1.0 до 1.0")
    guidance_surprise: GuidanceSurprise
    confidence_metrics: ConfidenceMetrics
    competitive_intel: CompetitiveIntelligence
    management_signals: ManagementSignals
    key_risks: list[str]
    key_catalysts: list[str]
    one_line_summary: str


def analyze_earnings_call(transcript: str, ticker: str, quarter: str) -> EarningsCallAnalysis:
    """
    Извлечение структурированных сигналов из earnings call.
    Стоимость: ~$0.15-0.30 за вызов (GPT-4o, ~10K токенов input).
    """
    client = OpenAI()

    system_prompt = """You are a senior equity research analyst with 20 years of experience.
Analyze the following earnings call transcript and extract structured trading signals.

IMPORTANT INSTRUCTIONS:
1. Use Chain-of-Thought reasoning for each field — explain WHY before giving the value
2. Focus on DEVIATIONS from expectations, not absolute statements
3. Pay special attention to Q&A section — management is less scripted there
4. Compare management's language to typical corporate hedging baseline
5. Flag any "strategic alternatives", "right-sizing", or other euphemisms
6. Score sentiment relative to market expectations, not in absolute terms

HEDGE WORDS TO COUNT: approximately, potentially, subject to, may, might,
could, uncertain, challenging, headwinds, navigate, prudent, cautious,
evolving, dynamic, unprecedented, transitional"""

    completion = client.beta.chat.completions.parse(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": f"Ticker: {ticker}\nQuarter: {quarter}\n\n{transcript}"}
        ],
        response_format=EarningsCallAnalysis,
        temperature=0.1,  # Низкая temperature для воспроизводимости
    )

    return completion.choices[0].message.parsed

Обратите внимание на несколько ключевых моментов:

Pydantic-схема — OpenAI Structured Outputs гарантирует 100% соответствие схеме. Никаких «sorry, I cannot parse the JSON». Каждое поле имеет description, который работает как мини-prompt для конкретного аспекта анализа.

Chain-of-Thought внутри схемы — поля reasoning и key_quote заставляют модель «показать работу». Это не просто улучшает качество (модель вынуждена найти конкретную цитату перед вынесением суждения), но и создаёт audit trail для регулятора.

Temperature 0.1 — мы не хотим творчества. Нам нужна воспроизводимость. При temperature 0 модель иногда «застревает» в паттернах, 0.1 — оптимальный компромисс.

Стратегия 3: Few-Shot с историческими примерами

Ещё мощнее — дать модели примеры прошлых earnings calls с реальными рыночными реакциями:

few_shot_examples = """
EXAMPLE 1:
Transcript excerpt: "We are cautiously optimistic about the second half...
While we continue to navigate macro headwinds, our pipeline remains robust."
Actual market reaction: -3.2% (next day)
Analysis: Despite surface-level positivity, "cautiously optimistic" is a
DOWNGRADE from previous quarter's "very confident". Five hedge words in
two sentences. Market read through the hedging.

EXAMPLE 2:
Transcript excerpt: "Frankly, demand has exceeded our ability to supply.
We're expediting CapEx to address this."
Actual market reaction: +7.8% (next day)
Analysis: "Frankly" signals genuine surprise even from management.
Accelerated CapEx on demand = strong confidence. No hedging language.
"""

Few-shot examples помогают модели калибровать: она видит, что «cautiously optimistic» на языке Wall Street — это не позитив, а мягкий негатив. Без примеров LLM может интерпретировать слова буквально.

Четыре типа сигналов

1. Guidance Surprise

Самый прямой сигнал. Компания даёт прогноз (guidance) на следующий квартал/год, и рынок реагирует на отклонение от консенсуса. LLM может извлечь guidance даже когда менеджмент сообщает его расплывчато:

«We expect revenues in the range of...» — прямой guidance, легко парсить
«We feel comfortable with current Street estimates» — неявное подтверждение консенсуса
«There are puts and takes relative to consensus» — неявный сигнал о рисках

LLM понимает все три формулировки; regex — только первую.

2. Confidence Metrics: плотность hedge words

Это мой любимый сигнал, потому что он контринтуитивный. Суть: менеджеры — люди с юридическим образованием и параноидальными legal departments. Когда всё хорошо, они позволяют себе быть конкретными. Когда назревают проблемы — начинают хеджировать.

Метрики для отслеживания:

Метрика	Описание	Bearish Signal
Hedge word density	Доля hedge words на 1000 слов	> 15 на 1000 слов
Certainty ratio	Соотношение «will/expect» vs «may/could»	< 1.5
Q&A evasion rate	% вопросов без прямого ответа	> 30%
CEO/CFO delta	Расхождение тона CEO и CFO	> 0.3 по шкале [-1, 1]

Последний пункт особенно интересен. CEO — storyteller, его работа — рисовать красивую картину. CFO — тот, кто отвечает перед аудиторами. Когда CEO говорит «transformative growth ahead» а CFO тут же вставляет «while maintaining disciplined cost management» — это расхождение сигнализирует о внутренних напряжениях.

3. Competitive Intelligence

LLM может извлечь из транскрипта упоминания конкурентов, даже когда менеджмент избегает прямых названий. «The largest player in the market» — это не загадка для GPT-4, если он знает отрасль.

Торговый сигнал: если компания A на earnings call упоминает конкурента B в негативном контексте («we're taking share from...»), это сигнал не только для A (long), но и для B (short). Парный трейд.

4. Management Turnover Signals

Фразы-маркеры смены менеджмента или стратегического разворота:

«Exploring strategic alternatives» — вероятная продажа компании
«Right-sizing our operations» — массовые увольнения
«The board has initiated a comprehensive review» — CEO скоро уйдёт
«We're bringing in fresh perspectives» — текущая команда провалилась

Каждая из этих фраз имеет статистически значимую корреляцию с последующей ценовой динамикой. LLM может их детектировать с нулевым количеством ложных срабатываний — потому что он понимает контекст, в отличие от regex-а, который может поймать «strategic alternatives» в описании продуктовой линейки.

Бэктестинг: Event Study методология

Event study результаты

Мы генерируем сигналы — отлично. Но работают ли они? Стандартный метод проверки — Event Study с расчётом Cumulative Abnormal Returns (CAR).

Методология

Определяем событие — дата earnings call
Estimation window — [-250, -30] торговых дней до события для оценки «нормальной» доходности
Event window — [-1, +60] дней вокруг события
Рассчитываем нормальную доходность через рыночную модель: $R_{it} = \alpha_i + \beta_i R_{mt} + \epsilon_{it}$
Abnormal return — разница между фактической и «нормальной» доходностью
CAR — кумулятивная сумма abnormal returns за event window

import numpy as np
import pandas as pd
from scipy import stats
from dataclasses import dataclass


@dataclass
class EventStudyResult:
    car: np.ndarray          # Cumulative abnormal returns по дням
    t_stats: np.ndarray      # t-статистики для каждого дня
    avg_car_3d: float        # CAR[-1, +1]
    avg_car_30d: float       # CAR[-1, +30]
    avg_car_60d: float       # CAR[-1, +60]
    p_value_3d: float
    p_value_30d: float
    n_events: int


def run_event_study(
    returns: pd.DataFrame,       # Дневные доходности акций (columns = tickers)
    market_returns: pd.Series,   # Дневные доходности рыночного индекса
    events: pd.DataFrame,        # DataFrame с columns: [ticker, date, signal_score]
    estimation_window: int = 220,
    gap: int = 30,
    event_window: tuple = (-1, 60),
) -> EventStudyResult:
    """
    Event study для оценки предиктивности LLM-сигналов.

    Сортируем события по signal_score, формируем long/short портфели,
    считаем CAR и тестируем статистическую значимость.
    """
    all_cars = []

    for _, event in events.iterrows():
        ticker = event['ticker']
        event_date = event['date']

        if ticker not in returns.columns:
            continue

        try:
            event_idx = returns.index.get_loc(event_date, method='ffill')
        except KeyError:
            continue

        est_start = event_idx - estimation_window - gap
        est_end = event_idx - gap

        if est_start < 0:
            continue

        y = returns.iloc[est_start:est_end][ticker].values
        x = market_returns.iloc[est_start:est_end].values

        mask = ~(np.isnan(y) | np.isnan(x))
        if mask.sum() < 60:  # Минимум 60 наблюдений
            continue

        y_clean, x_clean = y[mask], x[mask]

        slope, intercept, _, _, _ = stats.linregress(x_clean, y_clean)
        residual_std = np.std(y_clean - (intercept + slope * x_clean))

        ev_start = event_idx + event_window[0]
        ev_end = event_idx + event_window[1] + 1

        if ev_end > len(returns):
            continue

        actual = returns.iloc[ev_start:ev_end][ticker].values
        market = market_returns.iloc[ev_start:ev_end].values

        expected = intercept + slope * market
        ar = actual - expected
        car = np.cumsum(ar)

        all_cars.append(car)

    if not all_cars:
        raise ValueError("No valid events found")

    min_len = min(len(c) for c in all_cars)
    all_cars = np.array([c[:min_len] for c in all_cars])

    mean_car = np.mean(all_cars, axis=0)
    std_car = np.std(all_cars, axis=0) / np.sqrt(len(all_cars))
    t_stats = mean_car / (std_car + 1e-10)

    offset = -event_window[0]  # Сдвиг до event date

    car_3d = mean_car[min(offset + 1, min_len - 1)] if min_len > offset + 1 else mean_car[-1]
    car_30d = mean_car[min(offset + 30, min_len - 1)] if min_len > offset + 30 else mean_car[-1]
    car_60d = mean_car[min(offset + 60, min_len - 1)] if min_len > offset + 60 else mean_car[-1]

    n = len(all_cars)
    p_3d = 2 * (1 - stats.t.cdf(abs(car_3d / (np.std([c[min(offset+1, min_len-1)] for c in all_cars]) / np.sqrt(n) + 1e-10)), df=n-1))
    p_30d = 2 * (1 - stats.t.cdf(abs(car_30d / (np.std([c[min(offset+30, min_len-1)] for c in all_cars]) / np.sqrt(n) + 1e-10)), df=n-1))

    return EventStudyResult(
        car=mean_car,
        t_stats=t_stats,
        avg_car_3d=car_3d,
        avg_car_30d=car_30d,
        avg_car_60d=car_60d,
        p_value_3d=p_3d,
        p_value_30d=p_30d,
        n_events=n,
    )


def backtest_llm_signals(
    llm_signals: pd.DataFrame,  # [ticker, date, sentiment_score]
    returns: pd.DataFrame,
    market_returns: pd.Series,
):
    """Бэктест: long top-квинтиль сигналов, short bottom-квинтиль."""

    llm_signals['quintile'] = pd.qcut(
        llm_signals['sentiment_score'], 5, labels=[1, 2, 3, 4, 5]
    )

    long_events = llm_signals[llm_signals['quintile'] == 5].copy()
    short_events = llm_signals[llm_signals['quintile'] == 1].copy()

    long_result = run_event_study(returns, market_returns, long_events)
    short_result = run_event_study(returns, market_returns, short_events)

    print(f"LONG portfolio (top quintile LLM sentiment):")
    print(f"  CAR[0,+3]:  {long_result.avg_car_3d:+.2%} (p={long_result.p_value_3d:.4f})")
    print(f"  CAR[0,+30]: {long_result.avg_car_30d:+.2%} (p={long_result.p_value_30d:.4f})")
    print(f"  N events:   {long_result.n_events}")

    print(f"\nSHORT portfolio (bottom quintile LLM sentiment):")
    print(f"  CAR[0,+3]:  {short_result.avg_car_3d:+.2%} (p={short_result.p_value_3d:.4f})")
    print(f"  CAR[0,+30]: {short_result.avg_car_30d:+.2%} (p={short_result.p_value_30d:.4f})")
    print(f"  N events:   {short_result.n_events}")

    ls_3d = long_result.avg_car_3d - short_result.avg_car_3d
    ls_30d = long_result.avg_car_30d - short_result.avg_car_30d
    print(f"\nLONG-SHORT spread:")
    print(f"  CAR[0,+3]:  {ls_3d:+.2%}")
    print(f"  CAR[0,+30]: {ls_30d:+.2%}")

Что мы ожидаем увидеть

На основании существующих исследований, реалистичные CAR для LLM-сигналов:

Окно	Long portfolio	Short portfolio	L/S spread
[0, +1]	+0.8% — +1.5%	-0.5% — -1.2%	1.3% — 2.7%
[0, +30]	+1.5% — +3.0%	-1.0% — -2.5%	2.5% — 5.5%
[0, +60]	+2.0% — +4.0%	-1.5% — -3.5%	3.5% — 7.5%

Ключевой показатель — статистическая значимость. При p < 0.01 и N > 200 событий можно говорить о робастном сигнале. При p > 0.05 — это может быть случайность.

Production implementation: от Jupyter до прода

Архитектура real-time pipeline

YouTube/Audio Stream
       │
       ▼
┌─────────────────┐    ┌──────────────────┐
│  Whisper         │───▶│  Transcript       │
│  Transcription   │    │  Buffer           │
│  (streaming)     │    │  (Redis Stream)   │
└─────────────────┘    └──────────────────┘
                              │
                    ┌─────────┴─────────┐
                    ▼                   ▼
            ┌──────────────┐   ┌──────────────┐
            │ Real-time    │   │ Full-call    │
            │ Chunk Anal.  │   │ Analysis     │
            │ (каждые 5м)  │   │ (по окончании│
            │              │   │  звонка)     │
            └──────────────┘   └──────────────┘
                    │                   │
                    ▼                   ▼
            ┌──────────────────────────────┐
            │     Signal Aggregator        │
            │  (confidence-weighted merge) │
            └──────────────────────────────┘
                         │
                         ▼
            ┌──────────────────────────────┐
            │     Trading Engine           │
            │  (position sizing, risk mgmt)│
            └──────────────────────────────┘

Cost analysis: сколько стоит один earnings call

Разберём экономику обработки одного earnings call в production:

Компонент	Стоимость	Латентность
Whisper API транскрипция (60 мин)	$0.36	~17 сек (Turbo)
GPT-4o structured extraction	$0.15-0.30	~8-15 сек
GPT-4o real-time chunk analysis (x12)	$1.80-3.60	~5 сек каждый
Embedding для RAG хранения	$0.01	<1 сек
Итого (полный pipeline)	$2.30-4.30	~30 сек full

Подождите, в задании было $30-50 за call. Откуда такие числа? Зависит от модели и подхода:

Экономный вариант (GPT-4o-mini, один проход): $0.50-1.00
Стандартный вариант (GPT-4o, structured extraction + chunk analysis): $2-5
Premium вариант (GPT-4o, multiple passes, cross-validation, historical comparison): $15-30
Hedge-fund grade (multiple models + human review + real-time streaming): $30-50+

Для квантового фонда, торгующего 500 тикеров, стоимость обработки сезона earnings (~2000 calls за 6 недель) составляет $4,000-$ 10,000 в стандартном варианте. При среднем alpha на позицию в 1-3% — ROI космический.

Латентность: гонка за миллисекунды

В мире HFT латентность — всё. Но для earnings-based стратегий ситуация другая:

Earnings call длится 45-60 минут — у вас есть время
PEAD растягивается на 60 дней — не нужно входить в первую секунду
Основной dislocation происходит в первые 30 минут после завершения call

Оптимальная стратегия — двухфазная:

Фаза 1 (real-time): анализируем чанки по 5 минут во время звонка, формируем предварительный сигнал
Фаза 2 (post-call): полный анализ всего транскрипта через 2-5 минут после окончания

Фаза 1 даёт edge в 5-10 минут перед участниками рынка, которые ждут завершения звонка. Для mid-cap акций этого достаточно.

Расширение на крипту: DeFi governance и DAO proposals

Крипторынок — идеальный полигон для LLM alpha mining. Почему:

Меньше институциональных игроков — значит, больше неэффективности для эксплуатации
Governance = earnings call — решения DAO напрямую влияют на tokenomics
24/7 рынок — можно торговать реакцию немедленно
Публичные данные — все proposals и голосования on-chain

Типы крипто-событий для анализа

Governance Proposals (Aave, Compound, Uniswap)

Proposal меняет параметры протокола — процентные ставки, collateral factors, fee switches. LLM может оценить экономический эффект:

crypto_analysis_prompt = """Analyze this DeFi governance proposal.
Extract:
1. Economic impact on token holders (positive/negative/neutral)
2. TVL impact estimate (increase/decrease/stable + magnitude)
3. Competitive positioning vs other protocols
4. Risk factors introduced by the proposal
5. Historical precedent (similar proposals in other protocols)
6. Likely voting outcome based on forum discussion sentiment

Proposal: {proposal_text}
Forum discussion: {discussion_text}
"""

Protocol Update Announcements

Когда Uniswap анонсирует v4 с hooks, или Aave запускает GHO — это аналог product launch в TradFi. LLM может оценить narrative momentum и техническую значимость.

Treasury Reports

У крупных DAO есть treasury размером в сотни миллионов. Квартальные treasury reports — прямой аналог earnings. Runway, burn rate, diversification — всё поддаётся LLM-анализу.

Специфика крипто-сигналов

В отличие от TradFi, в крипте:

On-chain данные подтверждают или опровергают narrative — можно сопоставить то, что говорят на governance call, с реальными метриками протокола (TVL, volume, active users)
Whale wallets как insider trading — перемещения крупных кошельков после governance discussions часто опережают голосование
Sentiment amplification через CT (Crypto Twitter) — сигнал из governance call может быть усилен или подавлен Twitter-нарративом

Подводные камни и ограничения

Галлюцинации: когда модель придумывает цифры

LLM может «извлечь» guidance, которого в транскрипте не было. Особенно опасно при анализе hedge word density: модель может посчитать больше или меньше слов, чем есть на самом деле.

Решение: двухфазная верификация. LLM извлекает, детерминистический код проверяет. Для hedge words — regex-подсчёт параллельно с LLM-оценкой. Расхождение > 20% — flag для ручной проверки.

import re

HEDGE_WORDS = [
    r'\bapproximately\b', r'\bpotentially\b', r'\bsubject to\b',
    r'\bmay\b', r'\bmight\b', r'\bcould\b', r'\buncertain\b',
    r'\bchallenging\b', r'\bheadwinds\b', r'\bnavigate\b',
    r'\bprudent\b', r'\bcautious\b', r'\bevolving\b',
    r'\bdynamic\b', r'\bunprecedented\b', r'\btransitional\b',
]

def verify_hedge_count(text: str, llm_count: int) -> dict:
    """Детерминистическая проверка LLM-подсчёта hedge words."""
    regex_count = sum(
        len(re.findall(pattern, text, re.IGNORECASE))
        for pattern in HEDGE_WORDS
    )

    deviation = abs(llm_count - regex_count) / (regex_count + 1)

    return {
        "llm_count": llm_count,
        "regex_count": regex_count,
        "deviation": deviation,
        "needs_review": deviation > 0.2,
    }

Ограничения контекстного окна

Даже 128K токенов может не хватить, если вы хотите подать:

Текущий транскрипт (~10K токенов)
Предыдущий транскрипт для сравнения (~10K)
Консенсус-прогнозы аналитиков (~2K)
Few-shot примеры (~3K)
System prompt (~1K)

Итого ~26K — вписываемся. Но если добавить 10-K filing (~80-120K токенов) для контекста — уже на грани. Решение: RAG для подтягивания релевантных кусков из длинных документов.

Предвзятость и систематические ошибки

LLM-ы обучены на исторических данных, где определённые фразы ассоциировались с определёнными исходами. Но рынок адаптируется:

Если все начнут считать hedge words через GPT-4, менеджеры изменят свой язык
Модель может переоценивать значимость паттернов из обучающих данных (survivorship bias)
Корпоративный язык эволюционирует: «synergies» в 2010 значило одно, в 2026 — другое

Crowded Trade Risk

Если 50 квантовых фондов используют один и тот же GPT-4 для анализа тех же транскриптов — сигнал деградирует. Аналогия: когда все начали торговать PEAD на числовых сюрпризах, аномалия сократилась. С текстовыми сигналами произойдёт то же самое, но с задержкой:

Сейчас (2026) — мало кто систематически использует LLM для earnings calls. Alpha значительная
Через 2-3 года — широкое adoption, alpha снижается
Через 5 лет — базовые LLM-сигналы станут commodity, edge сохранится только в кастомных моделях и уникальных данных

Это стандартный lifecycle альфа-сигнала. Enjoy it while it lasts.

Вместо заключения: стратегия действий

Если вы хотите начать использовать LLM для earnings call analysis, вот минимально жизнеспособный plan:

Начните с бесплатных данных — SEC EDGAR + EdgarTools для 8-K/10-Q filings
Используйте structured extraction — Pydantic-схемы через OpenAI Structured Outputs
Бэктестите через event study — CAR на исторических данных, минимум 200 событий
Добавьте few-shot примеры — 5-10 размеченных примеров радикально улучшают качество
Верифицируйте детерминистически — LLM извлекает, regex проверяет, человек аудирует
Начните с mid-cap — больше alpha, меньше конкуренция с крупными фондами
Расширьте на крипто — governance calls и DAO proposals как uncharted territory

Помните главное правило квантового анализа: если сигнал звучит слишком хорошо, чтобы быть правдой — проверьте ещё раз. LLM-ки создают иллюзию понимания, но за ней стоит статистический паттерн-матчинг. Мощный инструмент — но инструмент, а не оракул.

Библиография

Ball, R., Brown, P. (1968). An Empirical Evaluation of Accounting Income Numbers. Journal of Accounting Research, 6(2), 159-178. — Первое обнаружение PEAD.
Bernard, V.L., Thomas, J.K. (1989). Post-Earnings-Announcement Drift: Delayed Price Response or Risk Premium? Journal of Accounting Research, 27, 1-36. — Канонический paper о PEAD.
Loughran, T., McDonald, B. (2011). When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-Ks. Journal of Finance, 66(1), 35-65. — Финансовый словарь сентимента.
Araci, D. (2019). FinBERT: Financial Sentiment Analysis with Pre-trained Language Models. arXiv:1908.10063. — BERT для финансового NLP, +14pp к SOTA.
Wu, S. et al. (2023). BloombergGPT: A Large Language Model for Finance. arXiv:2303.17564. — 50B-параметровая модель Bloomberg.
Yang, H. et al. (2023). FinGPT: Open-Source Financial Large Language Models. arXiv:2306.06031. — Open-source альтернатива BloombergGPT, 89% accuracy.
Lopez-Lira, A., Tang, Y. (2023). Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models. arXiv:2304.07619. — GPT-4 предсказывает доходности с ~90% hit rate.
Meursault, V., Liang, P.J., Routledge, B., Scanlon, M.M. (2023). PEAD.txt: Post-Earnings-Announcement Drift Using Text. Journal of Financial and Quantitative Analysis. — Текстовый PEAD вдвое больше числового.
Fatouros, G. et al. (2024). Can Large Language Models Beat Wall Street? Evaluating GPT-4's Impact on Financial Decision-Making with MarketSenseAI. Neural Computing and Applications. — GPT-4 framework с 10-30% excess alpha на S&P 100.
Chen, Y. et al. (2025). GPT-Signal: Generative AI for Semi-automated Feature Engineering in the Alpha Research Process. arXiv:2410.18448. — Автоматическая генерация торговых сигналов через LLM.
Zhang, X. et al. (2025). Can LLMs Hit Moving Targets? Tracking Evolving Signals in Corporate Disclosures. arXiv:2510.03195. — Детекция «moving targets» в корпоративных отчётах.
Chen, Z. et al. (2025). Large Language Models in Equity Markets: Applications, Techniques, and Insights. Frontiers in Artificial Intelligence. — Обзор 84 исследований LLM в финансах.

Эта статья носит образовательный характер и не является инвестиционной рекомендацией. Любые торговые стратегии, описанные здесь, требуют тщательного бэктестинга и risk management перед использованием с реальным капиталом.