#1483: Включение индексации публичного портала базы знаний для LLM (llms.txt)

Отредактирована: 40 дней назад

Симптомы

Как включить индексацию публичного портала базы знаний для LLM (больших языковых моделей), таких как Deepseek, Gemini, ChatGPT, Perplexity и др.?

Поддерживается ли Swarmica стандарт llms.txt?

Решение

  1. Для того, чтобы включить генерацию файлов llms.txt необходимо обновить Swarmica до версии v5.9.0 или выше и подключить сервис портала базы знаний
  2. Добавьте фича-флаг __llmstxt в FEATURES в файле /root/swarmica/.env
  3. Проверьте, что директива rule для сервиса helpcenter в /root/swarmica/docker-compose.yml содержит ||Path(`/llms.txt`):
    helpcenter:
        image: reg.gl.swd.im/swarmica/helpcenter:${SW_HELPCENTER_VERSION}
        restart: always
        depends_on:
          - django
        env_file:
          - .env
        volumes:
          - .env:/app/.env
        labels:
          - "traefik.enable=true"
          - "traefik.http.services.helpcenter.loadbalancer.server.port=4000"
          - "traefik.http.routers.helpcenter-router.rule=Host(`$SW_HOSTNAME`) && (PathP
    refix(`/category`)||PathRegexp(`^/article/.*$`)||PathPrefix(`/_next`)||PathPrefix(`/help`)||Path(`/robots/sitemap.xml`)||Path(`/llms.txt`))"
          - "traefik.http.routers.helpcenter-router.priority=11"
          - "traefik.http.routers.helpcenter-router.entrypoints=web-secure"
          - "traefik.http.routers.helpcenter-router.middlewares=secure-headers,compression"
          - "traefik.http.routers.helpcenter-router.service=helpcenter"
          - "traefik.http.routers.helpcenter-router.tls.certresolver=letsencrypt"
    
  4. Перезагрузите приложение:
    sudo su -
    cd /root/swarmica
    docker compose down && docker compose up -d 
    

Дополнительная информация

На данный момент единого стандарта, который используют все большие языковые модели, не существует. Тем не менее, многие LLM парсят llms.txt и пытаются извлекать оттуда данные об имеющейся на сайте информации.

Swarmica генерирует файл llms.txt, используя названия разделов Базы Знаний, заголовки статей и ссылки на их Markdown-версию, которая предпочтительна для LLM