InferenceKTH
diff --git a/‎my-app/package-lock.json‎
Lines changed: 200 additions & 3 deletions b/‎my-app/package-lock.json‎
Lines changed: 200 additions & 3 deletions
diff --git a/‎my-app/package.json‎
Lines changed: 1 addition & 0 deletions b/‎my-app/package.json‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎my-app/src/scripts/transcript-scraper/transcript-gpt.html‎
Lines changed: 52 additions & 0 deletions b/‎my-app/src/scripts/transcript-scraper/transcript-gpt.html‎
Lines changed: 52 additions & 0 deletions
diff --git a/‎my-app/src/scripts/transcript-scraper/transcript-scraper-htmlTester.html‎
Lines changed: 21 additions & 0 deletions b/‎my-app/src/scripts/transcript-scraper/transcript-scraper-htmlTester.html‎
Lines changed: 21 additions & 0 deletions
@@ -15,6 +15,7 @@
     "ldrs": "^1.1.6",
     "mobx": "^6.13.7",
     "mobx-react-lite": "^4.1.0",
+    "pdfjs-dist": "^5.1.91",
     "react": "^19.0.0",
     "react-dom": "^19.0.0",
     "react-router-dom": "^7.4.0",
 
@@ -0,0 +1,52 @@
+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>PDF to Text</title>
+    <script src="https://cdnjs.cloudflare.com/ajax/libs/pdf.js/2.10.377/pdf.min.js"></script>
+</head>
+<body>
+    <h1>Upload PDF to Extract Text</h1>
+    <input type="file" id="pdf-file" accept="application/pdf">
+    <pre id="output"></pre>
+
+    <script>
+        document.getElementById('pdf-file').addEventListener('change', function(event) {
+            const file = event.target.files[0];
+            if (file && file.type === 'application/pdf') {
+                const reader = new FileReader();
+                reader.onload = function(e) {
+                    const pdfData = new Uint8Array(e.target.result);
+
+                    // Using PDF.js to read the PDF
+                    pdfjsLib.getDocument(pdfData).promise.then(function(pdf) {
+                        let textContent = '';
+                        
+                        const numPages = pdf.numPages;
+                        let pagePromises = [];
+
+                        for (let pageNum = 1; pageNum <= numPages; pageNum++) {
+                            pagePromises.push(pdf.getPage(pageNum).then(function(page) {
+                                return page.getTextContent().then(function(text) {
+                                    textContent += text.items.map(item => item.str).join(" XXX ") + " New page \n";
+                                });
+                            }));
+                        }
+
+                        // After all pages are processed, output the text
+                        Promise.all(pagePromises).then(function() {
+                            document.getElementById('output').textContent = textContent;
+                        });
+                    }).catch(function(error) {
+                        document.getElementById('output').textContent = 'Error reading PDF: ' + error;
+                    });
+                };
+                reader.readAsArrayBuffer(file);
+            } else {
+                alert('Please upload a valid PDF file.');
+            }
+        });
+    </script>
+</body>
+</html>
@@ -0,0 +1,21 @@
+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="UTF-16">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>Transcript Scraper</title>
+    <script src="https://cdnjs.cloudflare.com/ajax/libs/pdf.js/2.16.105/pdf.min.js"></script>
+    <script src="transcript-scraper.js?1" defer></script>
+</head>
+<body>
+    <h1>Upload PDF to Extract Text</h1>
+    <h3>Takes in National Official Transcript of Records, and prints out all the course codes that person has completed in KTH.  </h3>
+
+    <input type="file" id="PDF-Scraper-Input" />
+    
+    <pre id="transcript-scraper.js:output"></pre>
+    <pre id="PDF-Scraper-Error", style = "visibility: hidden; color: red" ></pre>
+
+    
+</body>
+</html>