Особенности реализации вынесены в общий раздел. Не все.

gsvgit · gsvgit · commit c92a66ab4128 · 2026-06-10T15:45:03.000+03:00
diff --git a/book_structure.md b/book_structure.md
@@ -314,7 +314,7 @@
 
 > Итоги книги, дальнейшие направления, открытые проблемы.
 
-- ❌ Раздел "Об особенностях реализации" — `01_ImplementationFeatures.tex`
+- ⚠️ Раздел "Об особенностях реализации" — `01_ImplementationFeatures.tex`
 - ❌ Раздел "О смежных областях" — `02_RelatedAreas.tex`
   - Свежие работы и обзоры
 - ❌ Раздел "О возможных направлениях исследований" — `03_ResearchDirections.tex`
diff --git a/tex/part_01_Prep/chapter_01_LinearAlgebra/07_MatricesAndVectors.tex b/tex/part_01_Prep/chapter_01_LinearAlgebra/07_MatricesAndVectors.tex
@@ -218,7 +218,7 @@ \section{Матрицы и вектора}
     \begin{multline*}
         K = M \otimes N =
         \begin{pmatrix}
-            (M[0,0] \circ N  & \cdots & M[0,n-1] \circ N   \\
+            M[0,0] \circ N  & \cdots & M[0,n-1] \circ N   \\
             \vdots           & \ddots & \vdots             \\
             M[m-1,0] \circ N & \cdots & M[m-1,n-1] \circ N
         \end{pmatrix}
@@ -227,6 +227,8 @@ \section{Матрицы и вектора}
 
 %Заметим, что скалярная операция~--- это частный случай произвеления Кронекера: достаточно превратить элемент носителя полугруппы в матрицу размера $1\times 1$.
 
+\mytodo{Использоывать $\boxtimes$ для Кронекера.}
+
 \begin{remark}
     \label{rem:KronIsNotCommutative}
     Произведение Кронекера не является коммутативным\sidenote{Показать это можно по определению: найти пример, для которого $M \otimes N \neq N \otimes M$.}.
diff --git a/tex/part_03_GraphAnalysis/chapter_12_CFPQ/02_MatrixBased.tex b/tex/part_03_GraphAnalysis/chapter_12_CFPQ/02_MatrixBased.tex
@@ -218,136 +218,4 @@
 % \end{example}
 
 % Подробнее алгоритм описан в статье Рустама Азимова и Семёна Григорьева~\cite{565CECD7E8F5C6063935B41DB41797AA37D53B04}. Стоит также отметить, что обобщения данного алгоритма для булевых грамматик не существует, хотя и существует частное решение для случая, когда граф не содержит циклов (является DAG-ом), предложенное Екатериной Шеметовой~\cite{Shemetova2019}.
-
-\subsection{Особенности реализации}
-
-Алгоритмы, описанные выше, удобны с точки зрения реализации тем, что могут быть эффективно реализованы с использованием высокопроизводительных библиотек линейной алгебры, которые эксплуатируют возможности параллельных вычислений на современных CPU и  GPGPU~\cite{Mishin:2019:ECP:3327964.3328503}.
-Это позволяет с минимальными затратами получить эффективную параллельную реализацию алгоритма для решения задачи КС достижимости в графах.
-Благодаря этому, хотя асимптотически приведенные алгоритмы имеют большую сложность чем, скажем, алгоритм Хеллингса, в результате эффективного распараллеливания на практике они работают быстрее однопоточных алгоритмов с лучшей сложностью.
-
-Далее рассмотрим некоторые детали, упрощающие реализацию с использованием современных библиотек и аппаратного обеспечения.
-
-Так как множество нетерминалов и правил конечно, то мы можем свести представленный выше алгоритм к булевым матрицам: для каждого нетерминала заведём матрицу, такую что в ячейке стоит 1 тогда и только тогда, когда в исходной матрице в соответствующей ячейке содержится этот нетерминал.
-Тогда перемножение пары таких матриц, соответствующих нетерминалам $A$ и $B$, соответствует построению путей, выводимых из нетерминалов, для которых есть правила с правой частью вида $A B$.
-
-\begin{example}
-Представим в виде набора булевых матриц следующую матрицу:
-\[
-T_0 = \begin{pmatrix}
-\varnothing & \{A\}       & \varnothing & \{B\}       \\
-\varnothing & \varnothing & \{A\}       & \varnothing \\
-\{A\}       & \varnothing & \varnothing & \varnothing \\
-\{B\}       & \varnothing & \varnothing & \varnothing \\
-\end{pmatrix}
-\]
-
-Тогда:
-\begin{alignat*}{7}
-& &&T_{0\_A} &&= \begin{pmatrix}
-0 & 1       & 0 & 0       \\
-0 & 0 & 1       & 0 \\
-1  & 0 & 0 & 0       \\
-0       & 0 & 0 & 0 \\
-\end{pmatrix} \ \ \ \ &&T_{0\_B} &&= \begin{pmatrix}
-0 & 0       & 0 & 1       \\
-0       & 0 & 0       & 0 \\
-0  & 0 & 0 & 0       \\
-1       & 0 & 0 & 0 \\
-\end{pmatrix}
-\end{alignat*}
-Тогда при наличии правила $S \to A B$ в грамматике получим:
-\[
-T_{1\_S} =T_{0\_A} \times T_{0\_B} = \begin{pmatrix}
-0 & 0       & 0 & 0       \\
-0       & 0 & 0       & 0 \\
-0  & 0 & 0 & 1       \\
-0       & 0 & 0 & 0 \\
-\end{pmatrix}
-\]
-\end{example}
-
-Алгоритм же может быть переформулирован так, как показано в листинге~\ref{lst:cfpq_mtx_bool}.
-Такой взгляд на алгоритм позволяет использовать для его реализации существующие высокопроизводительные библиотеки для работы с булевыми матрицами (например M4RI\sidenote{M4RI~--- одна из высокопроизводительных библиотек для работы с логическими матрицами на CPU. Реализует Метод Четырёх Русских. Исходный код библиотеки: \url{https://bitbucket.org/malb/m4ri/src/master/}. Дата посещения: 30.03.2020.}~\cite{DBLP:journals/corr/abs-0811-1714}) или библиотеки для линейной алгебры (например CUSP~\cite{Cusp}).
-
-\begin{algorithm}
-  \floatname{algorithm}{Listing}
-% TODO!!!
-%\begin{algorithmic}[1]
-%\caption{Context-free path querying algorithm. Boolean matrix version}
-%\label{lst:cfpq_mtx_bool}
-%\Function{evalCFPQ}{$D=(V,E), G=(N,\Sigma,P)$}
-%    \State{$n \gets$ |V|}
-%    \State{$T \gets \{T^{A_i} \mid A_i \in N, T^{A_i}$ is a matrix $n \times n$, $T^{A_i}_{k,l} \gets$ \texttt{false}\} }
-%    \ForAll{$(i,x,j) \in E$, $A_k \mid A_k \to x \in P$}
-%        %\Comment{Matrices initialization}
-%        %\For{$A_k \mid A_k \to x \in P$}
-%          {$T^{A_k}_{i,j} \gets \texttt{true}$}
-%        %\EndFor
-%    \EndFor
-%    \For{$A_k \mid A_k \to \varepsilon \in P$}
-%       {$T^{A_k}_{i,i} \gets \texttt{true}$}
-%    \EndFor
-
-%    \While{any matrix in $T$ is changing}
-%        %\Comment{Transitive closure calculation}
-%        \For{$A_i \to A_j A_k \in P$}
-%          { $T^{A_i} \gets T^{A_i} + (T^{A_j} \times T^{A_k})$ }
-%        \EndFor
-%    \EndWhile
-%\State \Return $T$
-%\EndFunction
-%\end{algorithmic}
-\end{algorithm}
-
-С другой стороны, для запросов, выразимых в терминах грамматик с небольшим количеством нетерминалов, практически может быть выгодно представлять множества нетерминалов в ячейке матрицы в виде битового вектора следующим образом.
-Нумеруем все нетерминалы с нуля, в векторе стоит 1 на позиции $i$, если в множестве есть нетерминал с номером $i$.
-Таким образом, в каждой ячейке хранится битовый вектор длины $|N|$.
-Тогда операция умножения определяется следующим образом:
-\[v_1 \times v_2 = \{v \mid \exists (v,v_3) \in P, \textit{append}(v_1, v_2) \& v_3 = v_3\},\] где $\&$~--- побитовое \texttt{``и''}.
-
-Правила надо кодировать соответственно: продукция это пара, где первый элемент~--- битовый вектор длины $|N|$ с единственной единицей в позиции, соответствующей нетерминалу в правой части, а второй элемент~--- вектор длины $2|N|$, с двумя единицами кодирующими первый и второй нетерминалы.
-
-\begin{example}
-Пусть $N = \{S, A, B\}$ и в грамматике есть продукция $S \to A B$. Тогда занумеруем нетерминалы $ (S, 0), (A, 1), (B, 2)$. Продукция примет вид $[1, 0, 0] \to [0, 1, 0, 0, 0, 1]$. Матрица $T_0$ примет вид (здесь <<$.$>> означает, что в ячейке стоит $[0,0,0]$):
-\[
-T_0 = \begin{pmatrix}
-. & [0,1,0]       & . & [0,0,1]       \\
-. & . & [0,1,0]       & . \\
-[0,1,0]       & . & . & . \\
-[0,0,1]      & . & . & . \\
-\end{pmatrix}
-\]
-
-После выполнения умножения получим:
-\[
-T_1 = T_0 + T_0 \times T_0 =
-\begin{pmatrix}
-. & [0,1,0]       & . & [0,0,1]       \\
-. & . & [0,1,0]       & . \\
-[0,1,0]       & . & . & \cellcolor{lightgray}[1,0,0] \\
-[0,0,1]      & . & . & . \\
-\end{pmatrix}
-\]
-\end{example}
-
-
-На практике в роли векторов могут выступать беззнаковые целые числа.
-Например, 32 бита под ячейки в матрице и 64 бита под правила (или 8 и 16, если позволяет количество нетерминалов в грамматике, или 16 и 32).
-Тогда умножение выражается через битовые операции и сравнение, что довольно эффективно с точки зрения вычислений.
-
-Для небольших запросов такой подход к реализации может оказаться быстрее: в данном случае скорость зависит от деталей.
-Минус подхода в том, что нет возможности использовать готовые библиотеки линейной алгебры без предварительной модификации.
-Только если они не являются параметризуемыми и не позволяют задать собственный тип и собственную операцию умножения и сложения (иными словами, собственное полукольцо).
-Такую возможность предусматривает, например, стандарт GraphBLAS\sidenote{GraphBLAS~--- открытый стандарт, описывающий набор примитивов и операций, необходимый для реализации графовых алгоритмов в терминах линейной алгебры. Web-страница проекта: \url{https://github.com/gunrock/graphblast}. Дата доступа: 30.03.2020.} и, соответственно, его реализации, такие как SuiteSparse\sidenote{SuiteSparse~--- это специализированное программное обеспечения для работы с разреженными матрицами, которое включает в себя реализацию GraphBLAS API. Web-страница проекта: \url{http://faculty.cse.tamu.edu/davis/suitesparse.html}. Дата доступа: 30.03.2020.}~\cite{Davis2018Algorithm9S}.
-
-Также стоит заметить, что при работе с реальными графами матрицы, как правило, оказываются разреженными, а значит необходимо использовать соответствующие представления матриц (CRS, покоординатное, Quad Tree~\cite{quadtree}) и библиотеки, работающие с таким представлениями.
-
-Однако даже при использовании разреженных матриц, могут возникнуть проблемы с размером реальных данных и объёмом памяти.
-Например, для вычислений на GPGPU лучше всего, когда все нужные для вычисления матрицы помещаются на одну карту.
-Тогда можно свести обмен данными между хостом и графическим сопроцессором к минимуму.
-Если не помещаются все, то нужно, чтобы помещалась хотя бы тройка непосредственно обрабатываемых матриц (два операнда и результат).
-В самом тяжёлом случае в памяти не удаётся разместить даже операнды целиком и тогда приходится прибегать к поблочному умножению матриц.
-
-Отдельной инженерной проблемой является масштабирование алгоритмов на несколько вычислительных узлов, как на несколько CPU, так и на несколько GPGPU.
-
-Важным свойством рассмотренного алгоритма является то, что описанные проблемы с объёмом памяти и масштабированием могут эффективно решаться в рамках библиотек линейной алгебры общего назначения, что избавляет от необходимости создавать специализированные решения для конкретных задач.
+\mytodo{Особенности реализации перенесены в раздел~\ref{sec:Conclusion_ImplFeatures} Заключения.}
diff --git a/tex/part_03_GraphAnalysis/chapter_12_CFPQ/03_TensorProduct.tex b/tex/part_03_GraphAnalysis/chapter_12_CFPQ/03_TensorProduct.tex
@@ -1244,20 +1244,7 @@ \subsection{Примеры}
 Таким образом, видно, что минимизация представления запроса, в частности, минимизация рекурсивного автомата как конечного автомата над смешанным алфавитом может улучшить производительность выполнения запросов.
 \end{example}
 
-\subsection{Особенности реализации}
-
-Как и алгоритмы, представленные в разделе~\ref{chpt:MatrixBasedAlgos}, представленный здесь алгоритм оперирует разреженными матрицами, поэтому, к нему применимы все те же соображения, что и к алгоритмам, основанным на произведении матриц. Более того, так как результат тензорного произведения является блочной матрицей, то могут оказаться полезными различные форматы для хранения блочно-разреженных матриц. Вместе с этим, в некоторых случаях матрицу смежности рекурсивного автомата удобнее представлять в классическом, плотном, виде, так как для некоторых запросов её размер мал и накладные расходы на представление в разреженном формате и работе с ним будут больше, чем выигрыш от его использования.
-
-
-Также заметим, что блочная структура матриц даёт хорошую основу для распределённого умножения матриц при построении транзитивного замыкания.
-
-Вместо того, чтобы перезаписывать каждый раз матрицу смежности входного графа $M_2$ можно вычислять только разницу с предыдущим шагом.
-Для этого, правда, потребуется хранить в памяти ещё одну матрицу.
-Поэтому нужно проверять, что вычислительно дешевле: поддерживать разницу и потом каждый раз поэлементно складывать две матрицы или каждый раз вычислять полностью произведение.
-
-Заметим, что для решения задачи достижимости нам не нужно накапливать пути вдоль рёбер, как мы это делали в примерах, соответственно, во-первых, можно переопределить тензорное произведение так, чтобы его результатом являлась булева матрица, во-вторых, как следствие первого изменеия, транзитивное замыкание для булевой матрицы можно искать с применением соответствующих оптимизаций.
-
-%\section{Вопросы и задачи}
+\mytodo{Особенности реализации перенесены в раздел~\ref{sec:Conclusion_ImplFeatures} Заключения.}%\section{Вопросы и задачи}
 %
 %\begin{enumerate}
 %    \item Оценить пространсвенную сложность алгоритма.
diff --git a/tex/part_04_Conclusion/chapter_15_Conclusion/01_ImplementationFeatures.tex b/tex/part_04_Conclusion/chapter_15_Conclusion/01_ImplementationFeatures.tex