fix: extracción de contenido erróneo cuando Jina sirve el perfil del usuario

D4vRAM369 · D4vRAM369 · commit 8b28dc076e1c · 2026-03-02T19:41:42.000Z
Cuando Jina devuelve el perfil/feed de @usuario en vez del post específico, el contenido del primer post visible (el más reciente del usuario) se extraía erróneamente en lugar del post objetivo. Causa raíz: extractPostSectionMedia tomaba los primeros 3000 chars del markdown sin anclar al postId solicitado; extractFallbackTextFromSource empezaba desde línea 0 cuando el postId no se encontraba en la fuente. Fixes: - extractPostSectionMedia(jinaMarkdown, postId): si postId disponible, busca su primera aparición en el markdown y extrae media desde ese punto; si no aparece → Jina sirvió otra página → retorna [] en vez de media ajena - extractFallbackTextFromSource: si postId proporcionado pero no encontrado en la fuente, retorna undefined en vez de texto del post equivocado - Botón "Refrescar" en PostDetailScreen para re-extraer texto y metadatos de posts guardados con contenido incorrecto (sobreescribe el texto actual) - onpaste en ShareScreen: limpia ?xmt= y otros parámetros de tracking automáticamente al pegar la URL, sin que el usuario deba hacerlo a mano
diff --git a/src/lib/utils/post-extractor.ts b/src/lib/utils/post-extractor.ts
@@ -118,12 +118,32 @@ function extractEscapedMediaFromText(text: string): string[] {
 
 /*
   PBL: Extrae media SOLO de la sección del post en la respuesta markdown de Jina.
-  Jina devuelve la página completa (post + posts relacionados/sugeridos).
-  Limitamos a los primeros 3000 chars del bloque "Markdown Content:" para
-  quedarnos con el post objetivo y evitar imágenes de otros posts.
+  Jina puede devolver la página completa (post + posts relacionados/perfil del usuario).
+
+  BUG CORREGIDO: cuando Jina sirve el perfil de @usuario en vez del post específico,
+  el primer post visible es el más reciente del usuario (que puede ser otro post distinto).
+  Sin anclaje al postId, cogemos media del post equivocado.
+
+  Fix: si tenemos postId, buscamos su primera aparición en el markdown y extraemos
+  media desde ese punto. Si el postId no aparece → Jina sirvió otra página → retornamos [].
 */
-function extractPostSectionMedia(jinaMarkdown: string): string[] {
+function extractPostSectionMedia(jinaMarkdown: string, postId: string | null): string[] {
   if (!jinaMarkdown) return []
+
+  if (postId) {
+    const postMatch = new RegExp(`/post/${postId}\\b`, 'i').exec(jinaMarkdown)
+    if (postMatch) {
+      const postSection = jinaMarkdown.slice(postMatch.index, postMatch.index + 2000)
+      return [
+        ...extractMediaFromText(postSection),
+        ...extractEscapedMediaFromText(postSection),
+      ]
+    }
+    // postId no encontrado → Jina sirvió perfil/feed en vez del post → no extraer media
+    return []
+  }
+
+  // Sin postId: comportamiento original (primeros 3000 chars tras "Markdown Content:")
   const contentMatch = /Markdown Content:\s*/i.exec(jinaMarkdown)
   const start = contentMatch ? contentMatch.index + contentMatch[0].length : 0
   const postSection = jinaMarkdown.slice(start, start + 3000)
@@ -275,6 +295,11 @@ function extractFallbackTextFromSource(source: string, postId: string | null): s
     ? lines.findIndex((line) => new RegExp(`/post/${postId}\\b`, 'i').test(line))
     : -1
 
+  // BUG CORREGIDO: si tenemos postId pero no aparece en la fuente, Jina devolvió
+  // otra página (perfil/feed del usuario). Es más seguro retornar undefined que
+  // devolver texto del primer post visible, que puede ser un post diferente.
+  if (postId && postLineIndex === -1) return undefined
+
   const start = postLineIndex >= 0 ? postLineIndex + 1 : 0
   for (let index = start; index < Math.min(lines.length, start + 28); index += 1) {
     const line = lines[index]
@@ -366,7 +391,8 @@ export async function extractPostData(rawUrl: string): Promise<ExtractedPostData
   addMedia(forceMediaEntries([ogImage, twitterImage], 'image'))
   if (oembed?.html) addMedia(toMediaEntries(extractMediaFromText(oembed.html)))
   // PBL: jinaHtml (markdown limpio del post) en vez de source (HTML completo con otros posts)
-  addMedia(toMediaEntries(extractPostSectionMedia(jinaHtml ?? '')))
+  // postId ancla la extracción al bloque correcto — evita coger media de otros posts del feed
+  addMedia(toMediaEntries(extractPostSectionMedia(jinaHtml ?? '', postId)))
 
   /*
     PBL: Detección de vídeo por thumbnail CDN.
diff --git a/src/routes/PostDetailScreen.svelte b/src/routes/PostDetailScreen.svelte
@@ -21,6 +21,7 @@
   let savingNote    = $state(false)
   let refreshingMedia = $state(false)
   let mediaRefreshError = $state('')
+  let refreshingContent = $state(false)
   let failedMediaIds = $state<Set<string>>(new Set())
   let mediaSourceIndex = $state<Record<string, number>>({})
   let inlineVideoState = $state<Record<string, {
@@ -185,6 +186,33 @@
     ].join('')
   }
 
+  // Re-extrae texto y metadatos del post desde Threads/Jina.
+  // A diferencia de refreshMedia (que preserva el texto existente), éste lo sobreescribe.
+  // Útil cuando la extracción inicial cogió contenido del post equivocado.
+  async function refreshContent() {
+    if (!post || refreshingContent) return
+    refreshingContent = true
+    try {
+      const extracted = await extractPostData(post.canonicalUrl ?? post.url)
+      const updated: Post = {
+        ...post,
+        author:       extracted.author || post.author,
+        previewTitle: extracted.title ?? post.previewTitle,
+        extractedText: extracted.text !== undefined ? extracted.text : post.extractedText,
+        previewImage: extracted.previewImage ?? post.previewImage,
+        previewVideo: extracted.previewVideo ?? post.previewVideo,
+      }
+      const storage = await getStorage()
+      await storage.savePost(updated)
+      post = updated
+      await loadVault()
+    } catch {
+      // silencioso — el usuario puede reintentar
+    } finally {
+      refreshingContent = false
+    }
+  }
+
   async function loadInlineVideo(media: PostMedia) {
     if (!post) return
     const current = getInlineVideoState(media)
@@ -688,21 +716,38 @@
         {/if}
       </div>
 
-      {#if post.extractedText}
-        <div class="rounded-xl p-4 mb-4" style="
-          background: rgba(0,188,212,0.08);
-          border: 1px solid rgba(0,188,212,0.24);
-        ">
-          <p class="text-xs font-semibold uppercase mb-1.5" style="
+      <div class="rounded-xl p-4 mb-4" style="
+        background: rgba(0,188,212,0.08);
+        border: 1px solid rgba(0,188,212,0.24);
+      ">
+        <div class="flex items-center justify-between gap-2 mb-2">
+          <p class="text-xs font-semibold uppercase" style="
             color: rgba(188,248,255,0.85);
             font-family: var(--font-display);
             letter-spacing: 0.08em;
           ">Texto extraído</p>
+          <button
+            onclick={refreshContent}
+            disabled={refreshingContent}
+            class="px-2.5 py-1 rounded-lg text-xs font-semibold transition-all duration-200 disabled:opacity-50"
+            style="
+              background: rgba(0,188,212,0.14);
+              border: 1px solid rgba(0,188,212,0.32);
+              color: #baf5ff;
+              font-family: var(--font-display);
+            "
+          >{refreshingContent ? 'Extrayendo...' : 'Refrescar'}</button>
+        </div>
+        {#if post.extractedText}
           <p class="text-sm leading-relaxed" style="color: var(--vault-on-bg); opacity: 0.9">
             {post.extractedText}
           </p>
-        </div>
-      {/if}
+        {:else}
+          <p class="text-xs" style="color: var(--vault-on-bg-muted); font-style: italic">
+            No se extrajo texto. Pulsa Refrescar para intentar de nuevo.
+          </p>
+        {/if}
+      </div>
 
       {#if post.media?.length}
         <div class="mb-4">
diff --git a/src/routes/ShareScreen.svelte b/src/routes/ShareScreen.svelte
@@ -160,6 +160,11 @@
         id="url-input"
         type="url"
         bind:value={url}
+        onpaste={(e) => {
+          e.preventDefault()
+          const pasted = e.clipboardData?.getData('text') ?? ''
+          url = cleanThreadsUrl(pasted.trim())
+        }}
         placeholder="https://www.threads.net/@usuario/post/..."
         class="w-full px-4 py-3 rounded-xl text-sm outline-none transition-all duration-200"
         style="