Skip to content

feat(digitax): scrape sbup.com — SEO-ассистент (SMF-форум + вики + статьи)#772

Open
ShaerWare wants to merge 3 commits intomainfrom
local/feat/digitax-sbup-seo-scraper
Open

feat(digitax): scrape sbup.com — SEO-ассистент (SMF-форум + вики + статьи)#772
ShaerWare wants to merge 3 commits intomainfrom
local/feat/digitax-sbup-seo-scraper

Conversation

@ShaerWare
Copy link
Copy Markdown
Owner

Summary

Расширение DigiTax pipeline под четвёртую вертикаль — SEO-ассистент для рунета на материалах sbup.com.

  • config.py: новый сайт ru-sbup-seo (type forum, engine smf, max_pages=8000) с 9 BFS-точками входа: главная, форум, вики, флагман-учебник «SEO от А до Я», ключевые разделы.
  • scrape.py: дедикейтед filter_smf_forum + extract_links_smf для Simple Machines Forum 2.x. Фильтр режет action handlers (?action=login|register|profile|admin|...), профильные/админские/тематические/avatar/attachment пути и asset-extensions. Extractor дополнительно чистит PHPSESSID, sa=, msg= — иначе BFS взрывается на session-tagged URL-дубликатах.
  • parse.py: CONTENT_SELECTORS для ru-sbup-seo — три fallback-уровня покрывают три движка на одном домене: MediaWiki вики (#mw-content-text), SMF форум (#forumposts), кастомный CMS со статьями и инфо-страницами (#main_content_section).
  • prompts/seo-ru.md: системный промпт SEO-ассистента. Дисциплина источников (knowledge_search до ответа, цитирование, явное указание возраста материалов), различение белого / серого / чёрного SEO с отказом от негативного SEO и взлома, региональная развязка Яндекс vs Google, никаких обещаний ТОП-1.
  • CLAUDE.md: новый тип forum / engine smf и SEO-роль добавлены в перечень role-specific prompt templates и каталог сайтов DigiTax.

⚠️ Сам scrape ЕЩЁ НЕ ЗАПУЩЕН — это инфраструктурная подготовка. Pipeline (scrape → parse → upload → reload) запустится отдельно после ревью BFS-фильтров на тестовом прогоне.

NEWS

🔍 Новый ассистент: SEO под Яндекс и Google

Готовим четвёртого помощника на базе Секретарь24 — SEO-консультанта по материалам sbup.com (учебник «SEO от А до Я», SEO-вики и тысячи веток форума вебмастеров за много лет). Он будет цитировать источник, отмечать возраст материалов и честно различать белое, серое и чёрное SEO. Скоро — в виде отдельного виджета и Telegram-бота.

Test plan

  • python scripts/scrape_digitax/scrape.py --site ru-sbup-seo --max-pages 50 — проверить, что фильтр SMF не пропускает action-handler URL-ы и не плодит PHPSESSID-дубликаты
  • Проверить, что extractor собирает ссылки на учебник, статьи, вики-страницы и треды форума одновременно
  • python scripts/scrape_digitax/parse.py --site ru-sbup-seo на 50-страничной выборке: убедиться, что вики-страницы парсятся через #mw-content-text, форум-треды — через #forumposts
  • Прогнать промпт prompts/seo-ru.md через тестовый widget и проверить отказы на «накатить негативное SEO»

🤖 Generated with Claude Code

ShaerWare and others added 3 commits April 30, 2026 19:56
… + статьи)

Расширение DigiTax pipeline под четвертую вертикаль — SEO под Яндекс/Google
для рунета. Источник: sbup.com (учебник «SEO от А до Я», SEO-вики на
MediaWiki, статьи и многолетний форум вебмастеров на SMF 2.1).

- `scripts/scrape_digitax/config.py`: новый сайт `ru-sbup-seo` (type
  `forum`, engine `smf`), 9 BFS-точек входа от learning thread до главных
  разделов форума, max_pages=8000.
- `scripts/scrape_digitax/scrape.py`: добавлены `filter_smf_forum` и
  `extract_links_smf`. Фильтр режет SMF action handlers
  (login/register/profile/admin/search/PM/print/attachments/themes), а
  extractor чистит volatile query-params (`PHPSESSID`, `sa=`, `msg=`),
  чтобы BFS не взрывался на session-tagged URL-дубликатах.
- `scripts/scrape_digitax/parse.py`: CONTENT_SELECTORS для `ru-sbup-seo`
  с тремя fallback-уровнями — `#mw-content-text` для вики, `#forumposts`
  для веток форума, `#main_content_section` для статей и инфо-страниц.
- `prompts/seo-ru.md`: системный промпт SEO-ассистента — обязательный
  knowledge_search до ответа, явное указание возраста материалов
  (форум — большой архив, алгоритмы поисковиков переписываются),
  различение белого / серого / чёрного SEO с отказом от негативного SEO
  и взлома, региональная развязка Яндекс vs Google, никаких обещаний
  ТОП-1.
- `CLAUDE.md`: упоминание нового типа `forum` / engine `smf` и SEO-роли
  в перечне role-specific prompt templates.

Сам scrape ещё не запущен — это инфраструктурная подготовка. Запуск
pipeline (`scrape → parse → upload → reload`) выполняется отдельно по
готовности.

## NEWS

🔍 **Новый ассистент: SEO под Яндекс и Google**

Готовим четвёртого помощника на базе Секретарь24 — SEO-консультанта по
материалам sbup.com (учебник «SEO от А до Я», SEO-вики и тысячи веток
форума вебмастеров за много лет). Он будет цитировать источник, отмечать
возраст материалов и честно различать белое, серое и чёрное SEO. Скоро —
в виде отдельного виджета и Telegram-бота.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
- parse.py: dispatcher routes engine=smf sites to parse_forum_smf with
  generic-page fallback (wiki / article / board-index pages don't have
  #forumposts and silently fall through).
- scrape.py: collapse SIM103 lint into a single negated return.
- README-roles.md: add SEO-ассистент row pointing seo-ru.md →
  ru-sbup-seo collection.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
…hain

Add description of parse_forum_smf (merges .post_wrapper posts on a thread
page into one md doc, drops quotes/signatures/SMF action chrome) and the
multi-engine fallback chain that handles MediaWiki wiki pages, board
indexes and articles on the same domain (#mw-content-text → #forumposts
→ #main_content_section → <main> → <body>).

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant