AI jako narzędzie pisania streszczeń

Autor: Iwona Kula

Pisanie podsumowań (streszczeń) wymieniane jest praktycznie zawsze, jeżeli nie na pierwszym to na jednym z pierwszych miejsc, wśród kluczowych zalet stosowania systemów AI. Odnoszę jednak wrażenie, że gdzieś zgubiono cel dlaczego w ogóle stosujemy streszczenia. To w dużym stopniu wina środowisk biznesowych których nie będę tutaj oceniał, a sama kwestia jest dość złożona. Zaryzykuję następujące stwierdzenie: gdy automatyzujemy pisanie streszczeń oszukujemy siebie lub innych.

TL;DR równa się TS;DR

Kiedy po raz pierwszy zobaczyłem tę frazę, moja natychmiastowa reakcja była: „sarkazm w najlepszym wydaniu”. Jednak zauważyłem, że osoby używające tego sformułowania (Too Long; Didn’t Read) podchodzą do niego poważnie. Od pewnego czasu stosuję TS;DR zamiast TL;DR we własnych notatkach: Too short; Don’t Read (czyli: „zbyt krótko; nie czytaj”).

Generalnie nie ma nic złego w streszczeniach artykułu lub wpisu na blogu. Są one po prostu abstraktem albo podsumowaniem, które czytamy z nadzieją, że cały tekst okaże się dla nas wartościowy. Realny cel abstraktu jest odwrotny do tego, co sugeruje TL;DR: zawarte jest w nim zaproszenie do poznania wyników czyjejś pracy w całości. To swego rodzaju „reklama” usprawniająca wyszukiwanie konkretnych treści z którymi musimy się zapoznać w całości. To początek, a nie koniec pracy. Nie można bazować na zawartości streszczenia w poważnej pracy. Wnioski w nim zawarte mogą być źle udokumentowane lub po prostu błędne.

Nie czytasz artykułu dlatego, że jest zbyt długi, lecz dlatego, że dotyczy tematów, które Cię nie interesują. Jeśli artykuł wydaje się podejrzanie krótki, nie oczekujesz żadnych wartościowych informacji dla własnych badań. Prawdopodobnie brak będzie odpowiednich danych dotyczących metodologii, źródeł danych oraz dowodów, które są standardem w dobrze przygotowanej publikacji. Wydawcy nakładają pewne ograniczenia na długość artykułu, ale ostatecznie jego rozmiar nie mówi nam prawie nic o jakości zawartej w nim treści.

Podsumowania własnych tekstów

Możesz przewidzieć, co zamierzam powiedzieć. Wartość funkcji podsumowania zależy od Twojego zamiaru. Odrzucę tutaj podsumowywanie spotkań biznesowych, gdzie zazwyczaj można delegować wszystko na ChatGPT bez utraty wartości. Każdy z nas pracujący w środowisku korporacyjnym rozumie, o czym mówię. Ci, którzy tego nie doświadczają, są po prostu szczęśliwymi ludźmi.

Możesz być tym zaskoczony, ale systemy LLM nie potrafią tworzyć podsumowań. Przyjrzyj się przykładom udostępnianym przez wiodące firmy – OpenAI, Microsoft, Amazon, xAI, Meta i Alphabet. Te przykłady zostały starannie przygotowane, aby zrobić na Tobie wrażenie, jednak po krótkiej analizie „nie robią na mnie dużego wrażenia”. Są to typowe, biznesowe pustosłowia pozbawione realnej wartości. Jeśli spróbujesz zastosować funkcję podsumowania do własnego tekstu, zauważysz, że takie podsumowania nie trafiają w sedno i wymagają praktycznie całkowitej przebudowy od podstaw.

Czy to oznacza, że należy całkowicie zrezygnować z podsumowań generowanych przez LLM? Ależ nie, ta funkcjonalność jest cenna. Używam podsumowań w prawie każdym tekście, który tworzę. Istnieje także inna technika powiązana z podsumowaniem, którą regularnie stosuję: dokańczanie tekstu (text completion). Omówię ją szczegółowo później. Gdy generuję podsumowanie bieżącego tekstu, czytam je uważnie, zadając sobie pytania: Czy podsumowanie zawiera wszystko, co chciałem przekazać? Czy ma właściwą strukturę? I tak dalej. Jeśli jakość podsumowania wygenerowanego przez system LLM jest niska, zazwyczaj oznacza to, że mój tekst jest wadliwy.

Podsumowania AI narzędziem poprawy jakości tekstu

Stwierdziłem, że LLM‑y nie potrafią tworzyć podsumowań, a jednocześnie używam ich do generowania podsumowań i wykorzystuję je w procesie ulepszania tekstu. Czy to sprzeczność? Jeśli rozumiesz, jak działają Large Linguistic Models, nie jest to w żadnym wypadku sprzeczność. Wykorzystujesz słabości systemów LLM na swoją korzyść. Te modele nie myślą, nie przeprowadzają żadnego rozumowania i w ogóle nie rozumieją Twojego tekstu. Proces podsumowywania, który wykonują, jest prosty, mechaniczny i pozbawiony refleksji. Oznacza to, że jeśli Twój tekst nie ma jasnej struktury oraz przejrzystego wnioskowania, klarowne podsumowanie nigdy (rzadko, ze względu na stochastyczną naturę tych systemów) nie wyłoni się. Gdy tekst jest niejasny, pozbawiony struktury, wygenerowane podsumowanie również przyjmie losową strukturę.

Teraz powinieneś zrozumieć, co robię. Sprawdzam i koryguję mój tekst pod kątem wzorców, które ułatwią przeciętnemu czytelnikowi zrozumienie przekazu. Zakładam bowiem, że jeżeli tekst jest poprawnie skonstruowany, to nie‑inteligentny, automatyczny system potrafi je wykryć. To właśnie robią systemy LLM: znajdują wzorce i dopasowują do nich generowany tekst. Nie ustawiam zbyt wysokiego progu wobec jakości generowanego przez AI tekstu, ale jednocześnie nie dopuszczam do zbyt niskiego poziomu. Powtarzanie cyklu streszczenie-korekta w nieskończoność jest zbędne, zazwyczaj już pierwsze podejście daje jasną wskazówkę co do kierunku redakcji tekstu. Po jednej czy dwóch próbach właściwe podsumowanie tworzę samodzielnie.

Uzupełnianie tekstu

Wspomniałem o innym narzędziu w naszym zestawie LLM: text completion (dokańczanie tekstu). Jesteśmy do tego przyzwyczajeni, a większość osób zna sposób korzystania z tej funkcji. Gdy LLM jest podłączony do Twojego oprogramowania w którym piszesz, możesz wykorzystać dokończanie tekstu na zupełnie nowym poziomie. System może używać całego paragrafu lub nawet rozdziału jako kontekstu i pisać kolejne paragrafy za Ciebie. To kuszące, ale w końcu destrukcyjne. Tworzysz szybciej, lecz stopniowo tracisz swoją indywidualność i gubisz sens. Ten mechanizm wykorzystuję podobnie jak streszczenia. Jeżeli kontynuacja wygenerowana przez AI ma jakiś sens, prawdopodobnie to co napisałem będzie zrozumiałe dla czytelnika.

W praktyce oznacza to, że każdy fragment tekstu można „przekształcić” w pełną treść artykułu czy rozdział z minimalnym wkładem własnym. Z jednej strony taki sposób pracy otwiera nowe perspektywy: możesz szybko prześledzić różne warianty tekstu, a system LLM wprowadzi temat do kilku kolejnych akapitów, dbając o spójność stylistyczną i pewną logiczną ciągłość, choć to akurat jest bardzo zawodne. W rezultacie dość szybko budujesz szkic pracy czy artykułu. Ale jedynie szkic, który często najlepiej jest wyrzucić do kosza.

Ryzyko utraty własnego głosu jest jak najbardziej realne. LLM bazuje na wzorcach, które są rezultatem przeprowadzonego przez twórców treningu i nie rozumie subtelnego kontekstu osobistej ekspresji. Tekst ulega specyficznemu zniekształceniu, zostaje w jakimś stopniu „uśredniony”. Dlatego kluczowe jest utrzymanie aktywnej roli autora i nie poleganiu na wygenerowanej kontynuacji. Trzeba taką kontynuację nie tylko przejrzeć pod kątem spójności ale także przepisać dostosowując do własnego stylu oraz zamierzonego przesłania.

Dlaczego więc nie wykluczyć całkowicie tej funkcji? Warto wykorzystać text‑completion jako narzędzie pomocnicze. Można uzupełnić tekst o konkretne polecenia dla systemu LLM, a potem przejąć kontrolę nad kolejnymi wersjami. Myśl o tym mechanizmie jak o nieco bardziej rozbudowanym tezaurusie. W ten sposób zachowujesz równowagę między szybkością pisania a autentycznością, korzystając jednocześnie z LLM jako wsparcia przy tworzeniu wartościowego tekstu. Tu nie chodzi o szybkość, a o jakość.

W moim systemie do uruchomienia kontynuowania tekstu wystarczy dwukrotne naciśnięcie spacji. Po krótkiej chwili (dwie‑trzy sekundy, w konfiguracji mam celowo wprowadzone jednosekundowe opóźnienie przed rozpoczęciem generowania kontynuacji paragrafu) system wyświetli kilka paragrafów jako dalszą część tekstu, który już napisałem. Mogę dodać te paragrafy jednym kliknięciem myszy. Jednak „caveat emptor”: to ty jesteś odpowiedzialny za wyniki, nie LLM.

Podsumowania tekstów innych autorów

Jak widać, podsumowania i dokończenia generowane przez LLM‑y mogą być wartościowe, pod warunkiem że zostaną właściwie zastosowane do tekstu, który ty sam tworzysz. Prawdziwe zagrożenie pojawia się wtedy, gdy używasz ich w odniesieniu do cudzych tekstów lub zastępujesz własne obowiązki maszyną. Nigdy nie stosuj podsumowania LLM jako zamiennika rzeczywistego czytania. Zazwyczaj teksty nie są konstruowane tak, aby uwzględniać mechanizmy podsumowywania stosowane przez LLMy. Nawet jeśli tak jest, podsumowania pozostają jedynie „reklamą”, a nie prawdziwą wartością.

Jak korzystać z LLM przy istniejącym tekście? Zwykle już posiadam abstrakty pobrane bezpośrednio ze źródła. Jeśli z jakiegoś powodu ich nie mam, muszę samodzielnie odtworzyć abstrakt. Jest to warunek wstępny na przykład dla integracji Obsidian‑Zotero. Ta integracja nie będzie działać w moim środowisku, jeśli brakuje abstraktu dla pozycji literatury, której chcę używać jako źródła. Jednak tutaj czai się pułapka: nie można polegać wyłącznie na abstraktach. Każde źródło, jak już wspomniałem, trzeba przeczytać, a nie mechanicznie wstawiać wygenerowane przez AI fragmenty tekstu jako cytowania. Dlatego mam jeszcze jedno zabezpieczenie: nie mogę użyć cytowania jeżeli nie jest ono konkretnie przeze mnie „ręcznie” zaznaczone w tekście oryginalnym.

W ten sposób jestem „zmuszony” do, choćby pobieżnego, przeczytania tekstu oryginalnego. Wtedy często zauważam, że kontekst cytowanego tekstu zmienia znaczenie cytatu. Ale nie tylko to jest istotne. Systemy AI nagminnie zmieniają treść oryginałów. Taka już ich natura i nie chodzi tylko o drobne zmiany. Bardzo często następuje wypaczenie lub odwrócenie sensu tekstu źródłowego. W efekcie gdy bazujesz na automatycznie generowanych streszczeniach, kluczowych wnioskach i „cytatach” to ryzykujesz. Oby jedynie mniejszą lub większą kompromitacją.

Automatycznie generowane streszczenia można jednak z powodzeniem wykorzystać do zupełnie innego celu. Ta funkcja sprawdza się przy budowie własnej wyszukiwarki materiałów źródłowych. Można bowiem za pomocą LLM przekształcić prostą wyszukiwarkę tekstów w wyszukiwarkę semantyczną, ale to już temat na osobny wpis blogowy.

Ocena jakości modeli

Podsumowania wygenerowane przez LLM mogą być mylące lub całkowicie błędne. Pojawia się zatem pytanie dotyczące tego czy można ocenić model pod kątem jakości generowanych streszczeń. Możemy pogodzić się z pewną zawodnością modeli, pod warunkiem że nie będzie ona zbyt duża. Przejdź jednak do dowolnego benchmarku dla systemów LLM i dokładnie sprawdź, co naprawdę oznaczają prezentowane wyniki. Powinieneś czytać większość tych benchmarków w przewrotny sposób. Nie chodzi o to, że 75 % wyników jest poprawnych, lecz że 25 % rezultatów jest po prostu błędne.

Powinieneś wiedzieć, że te benchmarki często używają mylących wskaźników i powinieneś zrozumieć różnicę między różnymi miarami niezawodności takimi jak na przykład Pass@k i Pass^k. Pass@k mierzy prawdopodobieństwo, że co najmniej jedna z k niezależnych prób rozwiązania problemu zakończy się sukcesem. Ta metryka stała się standardem, ale nie sprawdza się w rzeczywistym środowisku, gdzie oczekujemy wyników bliższych Pass^k (wymawiane „pass power k”), które opiera się na innym podejściu. Szacuje ona prawdopodobieństwo, że system odniesie sukces we wszystkich k niezależnych próbach.

Dla większości opublikowanych benchmarków, niezależnie od tego, czy pochodzą one od OpenAI, DeepMind, czy z niezależnych laboratoriów badawczych, konwencja ustaliła się wokół Pass@k. Benchmarki prawie zawsze podają Pass@k, ponieważ ta metryka jest łatwa do obliczenia i odpowiada temu, jak ludzie faktycznie powinni korzystać z LLM‑ów (powinni ponawiać próby oraz weryfikować wyniki aż uzyskają poprawną odpowiedź).

Pass^k pojawia się głównie w publikacjach skoncentrowanych na bezpieczeństwie lub formalnej weryfikacji, gdzie niezawodność przy każdej próbie ma znaczenie. Realne zagrożenie występuje wtedy, gdy przestajemy ponawiać próby i weryfikować rezultaty aż LLM dostarczy nam prawidłową odpowiedź. Jednak w przypadku tekstu sytuacja jest wymagająca: musisz przeczytać tekst ze zrozumieniem, co wymaga wysiłku.

Aktualna sytuacja jeżeli chodzi o oceny jakości modeli jest, delikatnie mówiąc, skomplikowana. Klasyczne, algorytmiczne, techniki oceny jakości podsumowań sprawdzają się słabo, ocenianie przez ludzi jest kosztowne a zaproponowane systemy wykorzystujące LLM jako narzędzie oceny według mnie wątpliwe. (Nguyen, H., Chen, H., Pobbathi, L., & Ding, J. (2024). A Comparative Study of Quality Evaluation Methods for Text Summarization (No. arXiv:2407.00747). arXiv. https://doi.org/10.48550/arXiv.2407.00747). Do tego dochodzi jeszcze nagminne manipulowanie wynikami benchmarków oraz strojenie systemów pod rankingi. (Alzahrani, N., Alyahya, H. A., Alnumay, Y., Alrashed, S., Alsubaie, S., Almushaykeh, Y., Mirza, F., Alotaibi, N., Altwairesh, N., Alowisheq, A., Bari, M. S., & Khan, H. (2024). When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards (No. arXiv:2402.01781). arXiv. https://doi.org/10.48550/arXiv.2402.01781). To jest temat któremu postaram się poświęcić oddzielne opracowanie.

Rzeczywistość jest zatem ponura: ludzie powinni weryfikować każdy wynik, ale zazwyczaj klikają „akceptuj” już przy pierwszej próbie. Moja rada? Nie rób tak. Pracuj nieco wolniej, ale skuteczniej i sprawdzaj wszystko co wypluje z siebie AI.

Podsumowanie

Temat tworzenia streszczeń (abstraktów, podsumowań, wyciągów, kluczowych wniosków) za pomocą AI zasługuje na znacznie szersze opracowanie i temat ten jest częścią szkolenia z wykorzystania lokalnych modeli LLM. Szkolenie to wkrótce będzie dostępne w ofercie ProviLogic. Świadomie pominąłem zagadnienie pisania podsumowań transkryptów spotkań biznesowych a skupiłem się na streszczeniach artykułów oraz opracowań własnych i obcych. Biorąc pod uwagę ograniczenia systemów LLM (ogólnie AI) można dojść do następujących wniosków:

  • Streszczenia generowane przez LLM są użyteczne jako narzędzie wspomagające pisanie i redakcję własnego tekstu, lecz nie mogą zastąpić dokładnej analizy oryginalnych treści.
  • Streszczenia służą w znacznej mierze przyciąganiu uwagi czytelników; nie powinny być traktowane jako zamiennik pełnego tekstu a wnioski w nich zawarte mogą być błędne lub niedokładnie udokumentowane.
  • Automatyczne generowanie streszczeń może usprawnić system wyszukiwania oryginalnych treści.
  • Kontrola jakości (czytanie źródła, ręczne zaznaczanie cytatów) jest obowiązkowa przy pracy z cudzymi materiałami; automatyzacja podsumowania powinna być traktowana jako pomocniczy krok, a nie końcowy produkt.
  • Text completion może znacznie zwiększyć wydajność pisania, ale wymaga świadomego nadzorowania i korekty stylu oraz treści przez autora.
  • W praktyce warto stosować cykl „streszczenie‑korekta” dla własnych tekstów oraz zachowywać krytyczne podejście do wyników generowanych przez LLM.
  • Nigdy nie polegaj na jednorazowych, automatycznych podsumowaniach.
  • Publikowane benchmarki modeli LLM muszą być traktowane jedynie jako ogólna wskazówka ze względu na słabość aktualnie stosowanych metod oceny jakości modeli w zakresie generowania streszczeń.

Jak zastosować lokalne LLM do doskonalenia tekstu będzie tematem oddzielnego opracowania.

Autor: Michał Materny

Konsultant i trener z ponad 20-letnim doświadczeniem w zarządzaniu procesami biznesowymi, systemami ERP i optymalizacją procesów produkcyjnych. Przeszkolił ponad 2500 uczestników oraz zrealizował liczne projekty i wdrożenia. Specjalizuje się w architekturze przedsiębiorstw i systemów (TOGAF, ArchiMate, ARIS), modelowaniu procesów biznesowych, zarządzaniu ryzykiem oraz planowaniu i harmonogramowaniu produkcji, Lean, TPS, TQM, TOC. Współpracuje z Architecture Center i The Open Group (TOGAF), przy tworzeniu nowych standardów w obszarze architektury IT. Jest wykładowcą w Wyższej Szkole Europejskiej im. ks. J. Tischnera oraz prezesem IPG Materny – firmy wdrażającej oprogramowanie wspomagające zarządzanie.