feat(digitax): scrape sbup.com — SEO-ассистент (SMF-форум + вики + статьи) by ShaerWare · Pull Request #772 · ShaerWare/AI_Secretary_System

ShaerWare · 2026-04-30T14:57:15Z

Summary

Расширение DigiTax pipeline под четвёртую вертикаль — SEO-ассистент для рунета на материалах sbup.com.

config.py: новый сайт ru-sbup-seo (type forum, engine smf, max_pages=8000) с 9 BFS-точками входа: главная, форум, вики, флагман-учебник «SEO от А до Я», ключевые разделы.
scrape.py: дедикейтед filter_smf_forum + extract_links_smf для Simple Machines Forum 2.x. Фильтр режет action handlers (?action=login|register|profile|admin|...), профильные/админские/тематические/avatar/attachment пути и asset-extensions. Extractor дополнительно чистит PHPSESSID, sa=, msg= — иначе BFS взрывается на session-tagged URL-дубликатах.
parse.py: CONTENT_SELECTORS для ru-sbup-seo — три fallback-уровня покрывают три движка на одном домене: MediaWiki вики (#mw-content-text), SMF форум (#forumposts), кастомный CMS со статьями и инфо-страницами (#main_content_section).
prompts/seo-ru.md: системный промпт SEO-ассистента. Дисциплина источников (knowledge_search до ответа, цитирование, явное указание возраста материалов), различение белого / серого / чёрного SEO с отказом от негативного SEO и взлома, региональная развязка Яндекс vs Google, никаких обещаний ТОП-1.
CLAUDE.md: новый тип forum / engine smf и SEO-роль добавлены в перечень role-specific prompt templates и каталог сайтов DigiTax.

⚠️ Сам scrape ЕЩЁ НЕ ЗАПУЩЕН — это инфраструктурная подготовка. Pipeline (scrape → parse → upload → reload) запустится отдельно после ревью BFS-фильтров на тестовом прогоне.

NEWS

🔍 Новый ассистент: SEO под Яндекс и Google

Готовим четвёртого помощника на базе Секретарь24 — SEO-консультанта по материалам sbup.com (учебник «SEO от А до Я», SEO-вики и тысячи веток форума вебмастеров за много лет). Он будет цитировать источник, отмечать возраст материалов и честно различать белое, серое и чёрное SEO. Скоро — в виде отдельного виджета и Telegram-бота.

Test plan

python scripts/scrape_digitax/scrape.py --site ru-sbup-seo --max-pages 50 — проверить, что фильтр SMF не пропускает action-handler URL-ы и не плодит PHPSESSID-дубликаты
Проверить, что extractor собирает ссылки на учебник, статьи, вики-страницы и треды форума одновременно
python scripts/scrape_digitax/parse.py --site ru-sbup-seo на 50-страничной выборке: убедиться, что вики-страницы парсятся через #mw-content-text, форум-треды — через #forumposts
Прогнать промпт prompts/seo-ru.md через тестовый widget и проверить отказы на «накатить негативное SEO»

🤖 Generated with Claude Code

… + статьи) Расширение DigiTax pipeline под четвертую вертикаль — SEO под Яндекс/Google для рунета. Источник: sbup.com (учебник «SEO от А до Я», SEO-вики на MediaWiki, статьи и многолетний форум вебмастеров на SMF 2.1). - `scripts/scrape_digitax/config.py`: новый сайт `ru-sbup-seo` (type `forum`, engine `smf`), 9 BFS-точек входа от learning thread до главных разделов форума, max_pages=8000. - `scripts/scrape_digitax/scrape.py`: добавлены `filter_smf_forum` и `extract_links_smf`. Фильтр режет SMF action handlers (login/register/profile/admin/search/PM/print/attachments/themes), а extractor чистит volatile query-params (`PHPSESSID`, `sa=`, `msg=`), чтобы BFS не взрывался на session-tagged URL-дубликатах. - `scripts/scrape_digitax/parse.py`: CONTENT_SELECTORS для `ru-sbup-seo` с тремя fallback-уровнями — `#mw-content-text` для вики, `#forumposts` для веток форума, `#main_content_section` для статей и инфо-страниц. - `prompts/seo-ru.md`: системный промпт SEO-ассистента — обязательный knowledge_search до ответа, явное указание возраста материалов (форум — большой архив, алгоритмы поисковиков переписываются), различение белого / серого / чёрного SEO с отказом от негативного SEO и взлома, региональная развязка Яндекс vs Google, никаких обещаний ТОП-1. - `CLAUDE.md`: упоминание нового типа `forum` / engine `smf` и SEO-роли в перечне role-specific prompt templates. Сам scrape ещё не запущен — это инфраструктурная подготовка. Запуск pipeline (`scrape → parse → upload → reload`) выполняется отдельно по готовности. ## NEWS 🔍 **Новый ассистент: SEO под Яндекс и Google** Готовим четвёртого помощника на базе Секретарь24 — SEO-консультанта по материалам sbup.com (учебник «SEO от А до Я», SEO-вики и тысячи веток форума вебмастеров за много лет). Он будет цитировать источник, отмечать возраст материалов и честно различать белое, серое и чёрное SEO. Скоро — в виде отдельного виджета и Telegram-бота. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

- parse.py: dispatcher routes engine=smf sites to parse_forum_smf with generic-page fallback (wiki / article / board-index pages don't have #forumposts and silently fall through). - scrape.py: collapse SIM103 lint into a single negated return. - README-roles.md: add SEO-ассистент row pointing seo-ru.md → ru-sbup-seo collection. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

…hain Add description of parse_forum_smf (merges .post_wrapper posts on a thread page into one md doc, drops quotes/signatures/SMF action chrome) and the multi-engine fallback chain that handles MediaWiki wiki pages, board indexes and articles on the same domain (#mw-content-text → #forumposts → #main_content_section → <main> → <body>). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

ShaerWare and others added 3 commits April 30, 2026 19:56

ShaerWare mentioned this pull request May 4, 2026

feat: ассистент-пресеты в picker-е нового чата (mobile + admin v2.3) #779

Open

4 tasks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat(digitax): scrape sbup.com — SEO-ассистент (SMF-форум + вики + статьи)#772

feat(digitax): scrape sbup.com — SEO-ассистент (SMF-форум + вики + статьи)#772
ShaerWare wants to merge 3 commits into
mainfrom
local/feat/digitax-sbup-seo-scraper

ShaerWare commented Apr 30, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

ShaerWare commented Apr 30, 2026

Summary

NEWS

Test plan

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant