feat(digitax): scrape sbup.com — SEO-ассистент (SMF-форум + вики + статьи)#772
Open
feat(digitax): scrape sbup.com — SEO-ассистент (SMF-форум + вики + статьи)#772
Conversation
… + статьи) Расширение DigiTax pipeline под четвертую вертикаль — SEO под Яндекс/Google для рунета. Источник: sbup.com (учебник «SEO от А до Я», SEO-вики на MediaWiki, статьи и многолетний форум вебмастеров на SMF 2.1). - `scripts/scrape_digitax/config.py`: новый сайт `ru-sbup-seo` (type `forum`, engine `smf`), 9 BFS-точек входа от learning thread до главных разделов форума, max_pages=8000. - `scripts/scrape_digitax/scrape.py`: добавлены `filter_smf_forum` и `extract_links_smf`. Фильтр режет SMF action handlers (login/register/profile/admin/search/PM/print/attachments/themes), а extractor чистит volatile query-params (`PHPSESSID`, `sa=`, `msg=`), чтобы BFS не взрывался на session-tagged URL-дубликатах. - `scripts/scrape_digitax/parse.py`: CONTENT_SELECTORS для `ru-sbup-seo` с тремя fallback-уровнями — `#mw-content-text` для вики, `#forumposts` для веток форума, `#main_content_section` для статей и инфо-страниц. - `prompts/seo-ru.md`: системный промпт SEO-ассистента — обязательный knowledge_search до ответа, явное указание возраста материалов (форум — большой архив, алгоритмы поисковиков переписываются), различение белого / серого / чёрного SEO с отказом от негативного SEO и взлома, региональная развязка Яндекс vs Google, никаких обещаний ТОП-1. - `CLAUDE.md`: упоминание нового типа `forum` / engine `smf` и SEO-роли в перечне role-specific prompt templates. Сам scrape ещё не запущен — это инфраструктурная подготовка. Запуск pipeline (`scrape → parse → upload → reload`) выполняется отдельно по готовности. ## NEWS 🔍 **Новый ассистент: SEO под Яндекс и Google** Готовим четвёртого помощника на базе Секретарь24 — SEO-консультанта по материалам sbup.com (учебник «SEO от А до Я», SEO-вики и тысячи веток форума вебмастеров за много лет). Он будет цитировать источник, отмечать возраст материалов и честно различать белое, серое и чёрное SEO. Скоро — в виде отдельного виджета и Telegram-бота. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
- parse.py: dispatcher routes engine=smf sites to parse_forum_smf with generic-page fallback (wiki / article / board-index pages don't have #forumposts and silently fall through). - scrape.py: collapse SIM103 lint into a single negated return. - README-roles.md: add SEO-ассистент row pointing seo-ru.md → ru-sbup-seo collection. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
…hain Add description of parse_forum_smf (merges .post_wrapper posts on a thread page into one md doc, drops quotes/signatures/SMF action chrome) and the multi-engine fallback chain that handles MediaWiki wiki pages, board indexes and articles on the same domain (#mw-content-text → #forumposts → #main_content_section → <main> → <body>). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
4 tasks
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
Summary
Расширение DigiTax pipeline под четвёртую вертикаль — SEO-ассистент для рунета на материалах sbup.com.
config.py: новый сайтru-sbup-seo(typeforum, enginesmf, max_pages=8000) с 9 BFS-точками входа: главная, форум, вики, флагман-учебник «SEO от А до Я», ключевые разделы.scrape.py: дедикейтедfilter_smf_forum+extract_links_smfдля Simple Machines Forum 2.x. Фильтр режет action handlers (?action=login|register|profile|admin|...), профильные/админские/тематические/avatar/attachment пути и asset-extensions. Extractor дополнительно чиститPHPSESSID,sa=,msg=— иначе BFS взрывается на session-tagged URL-дубликатах.parse.py: CONTENT_SELECTORS дляru-sbup-seo— три fallback-уровня покрывают три движка на одном домене: MediaWiki вики (#mw-content-text), SMF форум (#forumposts), кастомный CMS со статьями и инфо-страницами (#main_content_section).prompts/seo-ru.md: системный промпт SEO-ассистента. Дисциплина источников (knowledge_search до ответа, цитирование, явное указание возраста материалов), различение белого / серого / чёрного SEO с отказом от негативного SEO и взлома, региональная развязка Яндекс vs Google, никаких обещаний ТОП-1.CLAUDE.md: новый типforum/ enginesmfи SEO-роль добавлены в перечень role-specific prompt templates и каталог сайтов DigiTax.scrape → parse → upload → reload) запустится отдельно после ревью BFS-фильтров на тестовом прогоне.NEWS
🔍 Новый ассистент: SEO под Яндекс и Google
Готовим четвёртого помощника на базе Секретарь24 — SEO-консультанта по материалам sbup.com (учебник «SEO от А до Я», SEO-вики и тысячи веток форума вебмастеров за много лет). Он будет цитировать источник, отмечать возраст материалов и честно различать белое, серое и чёрное SEO. Скоро — в виде отдельного виджета и Telegram-бота.
Test plan
python scripts/scrape_digitax/scrape.py --site ru-sbup-seo --max-pages 50— проверить, что фильтр SMF не пропускает action-handler URL-ы и не плодит PHPSESSID-дубликатыpython scripts/scrape_digitax/parse.py --site ru-sbup-seoна 50-страничной выборке: убедиться, что вики-страницы парсятся через#mw-content-text, форум-треды — через#forumpostsprompts/seo-ru.mdчерез тестовый widget и проверить отказы на «накатить негативное SEO»🤖 Generated with Claude Code