top of page

ChatGPT è cambiato ma in peggio

  • Immagine del redattore: Paolo Benanti
    Paolo Benanti
  • 20 lug 2023
  • Tempo di lettura: 7 min

Molti ricercatori conoscono arXiv: un archivio online che contiene prepubblicazioni (pre-print) di articoli scientifici in diverse discipline, tra cui fisica, matematica, informatica, statistica, finanza quantitativa e biologia. È accessibile gratuitamente via Internet e rappresenta una risorsa fondamentale per la comunità scientifica. In molti settori della matematica e della fisica, la maggior parte delle pubblicazioni scientifiche vengono inserite in questo archivio. Gli articoli presenti su arXiv sono bozze definitive che hanno subito una revisione e approvazione, ma non ancora una revisione paritaria. Il 18 luglio scorso è comparso un articolo su arXiv che ha iniziato a far discutere la comunità dei ricercatori nel campo delle AI. Vediamo di cosa si tratta.



GPT-3.5 e GPT-4 sono i due servizi di modelli linguistici di grandi dimensioni (LLM) più utilizzati. Tuttavia, non è chiaro quando e come questi modelli vengano aggiornati nel tempo. Nell'articolo si valutano le versioni di marzo 2023 e giugno 2023 di GPT-3.5 e GPT-4 su quattro compiti diversi: 1) risoluzione di problemi matematici, 2) risposta a domande sensibili/pericolose, 3) generazione di codice e 4) ragionamento visivo. I ricercatori hanno scoperto che le prestazioni e il comportamento di GPT-3.5 e GPT-4 possono variare notevolmente nel tempo. Nel complesso, i risultati mostrano che il comportamento dello stesso servizio LLM può cambiare sostanzialmente in un lasso di tempo relativamente breve, evidenziando la necessità di un monitoraggio continuo della qualità del LLM. Vediamo meglio qualche dettaglio.



Questo documento è una ricerca che esplora le prestazioni dei modelli linguistici di grandi dimensioni (LLM) nel tempo. In particolare, si concentra su due modelli, GPT-3.5 e GPT-4, e ne valuta le prestazioni su vari compiti. Il documento evidenzia la necessità di un monitoraggio continuo della qualità degli LLM, poiché questi modelli possono presentare cambiamenti significativi nel comportamento nel corso del tempo.


L'articolo inizia discutendo la letteratura esistente sui LLM e le loro prestazioni su compiti linguistici tradizionali come la comprensione della lettura, la traduzione e il riassunto. Si osserva che i LLM hanno ottenuto prestazioni ragionevoli in questi compiti e hanno dimostrato di avere successo in ambiti professionali come la medicina e la legge. Tuttavia, il documento sottolinea che i lavori esistenti non monitorano sistematicamente le derive longitudinali dei servizi LLM ampiamente utilizzati, come GPT-4 e GPT-3.5, nel corso del tempo.


L'articolo presenta quindi una valutazione di GPT-3.5 e GPT-4 su vari compiti, tra cui la risposta a domande, il completamento di testi e la risoluzione di puzzle. I risultati mostrano che entrambi i modelli presentano cambiamenti significativi nel comportamento nel corso del tempo, con GPT-4 che mostra una maggiore stabilità rispetto a GPT-3.5. Il documento osserva che questi cambiamenti nel comportamento sono dovuti al fatto che il GPT-3.5 non è un modello di riferimento. Il documento osserva che questi cambiamenti nel comportamento possono avere implicazioni significative per l'affidabilità e le prestazioni dei servizi LLM.



Il documento esamina anche i fattori che contribuiscono a modificare il comportamento dei LLM nel tempo. Questi fattori includono cambiamenti nei dati di addestramento, cambiamenti nell'architettura del modello e cambiamenti nelle metriche di valutazione. Il documento osserva che questi fattori possono interagire in modo complesso, rendendo difficile prevedere il comportamento dei LLM nel tempo.


Per rispondere alla necessità di un monitoraggio continuo della qualità dei LLM, il documento propone un quadro di riferimento per la valutazione delle prestazioni dei LLM nel tempo. Il quadro comprende una serie di compiti di valutazione progettati per catturare diversi aspetti del comportamento dei LLM, nonché una serie di metriche per misurare le prestazioni dei LLM su questi compiti. Il documento sottolinea che questo framework può essere utilizzato per monitorare le prestazioni dei servizi LLM in natura e per rilevare i cambiamenti di comportamento nel tempo.


L'articolo presenta poi un caso di studio di ChatGPT, un popolare chatbot basato su LLM. Lo studio valuta le prestazioni di GPT-3.5 e GPT-4 su una serie di domande sensibili e mostra che entrambi i modelli presentano cambiamenti significativi nel comportamento nel tempo. Il documento osserva che questi cambiamenti di comportamento possono avere implicazioni significative per l'affidabilità di ChatGPT.


Lo studio ha valutato le prestazioni di GPT-3.5 e GPT-4 su quattro compiti: risoluzione di problemi matematici, risposta a domande sensibili/pericolose, generazione di codice e ragionamento visivo.



Per il compito di risoluzione dei problemi matematici, i modelli sono stati valutati in base alla loro capacità di determinare se un dato numero intero è primo. Il dataset conteneva 500 domande e i modelli sono stati valutati utilizzando il Chain-of-Thought, un approccio standard per i compiti di ragionamento. I risultati hanno mostrato che entrambi i modelli hanno mostrato cambiamenti significativi nel comportamento nel tempo, con GPT-4 che ha mostrato maggiore stabilità rispetto a GPT-3.5.


Per il compito "domande sensibili/pericolose", i modelli sono stati valutati in base alla loro capacità di fornire risposte appropriate a domande relative a suicidio, autolesionismo e violenza. Lo studio ha utilizzato un set di 100 domande e i modelli sono stati valutati in base alla loro capacità di fornire risposte appropriate evitando contenuti dannosi o scatenanti. I risultati hanno mostrato che entrambi i modelli hanno mostrato cambiamenti significativi nel comportamento nel tempo, con GPT-4 che ha mostrato una maggiore stabilità rispetto a GPT-3.5.


Per il compito di generazione del codice, i modelli sono stati valutati in base alla loro capacità di generare frammenti di codice per un determinato compito. Lo studio ha utilizzato un set di dati di 100 compiti di programmazione e i modelli sono stati valutati in base alla qualità e alla correttezza del codice generato. I risultati hanno mostrato che entrambi i modelli hanno mostrato cambiamenti significativi nel comportamento nel corso del tempo, con GPT-4 che ha mostrato una maggiore stabilità rispetto a GPT-3.5.



Per il compito di ragionamento visivo, i modelli sono stati valutati in base alla loro capacità di rispondere a domande basate su stimoli visivi. Lo studio ha utilizzato un set di 100 domande e i modelli sono stati valutati in base alla loro capacità di rispondere correttamente alle domande. I risultati hanno mostrato che entrambi i modelli hanno mostrato cambiamenti significativi nel comportamento nel tempo, con il GPT-4 che ha mostrato una maggiore stabilità rispetto al GPT-3.5.


Nel complesso, lo studio ha dimostrato che sia il GPT-3.5 sia il GPT-4 presentano cambiamenti significativi nel comportamento nel tempo su una serie di compiti. Tuttavia, il GPT-4 ha mostrato una maggiore stabilità rispetto al GPT-3.5, suggerendo che potrebbe essere una scelta più affidabile per le applicazioni basate su LLM.


Il documento analizza diversi fattori che contribuiscono al cambiamento del comportamento dei servizi LLM come ChatGPT nel corso del tempo. Questi fattori includono:


1. Cambiamenti nei dati di addestramento: Gli LLM sono addestrati su grandi insiemi di testo e i cambiamenti nei dati di addestramento possono portare a cambiamenti nel comportamento del modello. Ad esempio, se i dati di addestramento contengono un maggior numero di esempi di un particolare tipo di uso del linguaggio, il modello può diventare migliore in quel compito ma peggiore in altri.


2. Cambiamenti nell'architettura del modello: Gli LLM sono modelli complessi con molti parametri e i cambiamenti nell'architettura del modello possono portare a cambiamenti nel comportamento del modello. Ad esempio, se il modello viene modificato per includere strati aggiuntivi o funzioni di attivazione diverse, il comportamento del modello può cambiare.


3. Cambiamenti nelle metriche di valutazione: I LLM sono tipicamente valutati utilizzando metriche come l'accuratezza o la perplessità, e le modifiche alle metriche di valutazione possono portare a cambiamenti nel comportamento del modello. Ad esempio, se la metrica di valutazione viene modificata per dare priorità a un particolare tipo di prestazione, il modello può modificare il proprio comportamento per ottimizzare tale metrica.


4. Cambiamenti nella distribuzione degli input: Gli LLM sono spesso utilizzati in applicazioni reali in cui la distribuzione degli input può cambiare nel tempo. Ad esempio, se un chatbot viene utilizzato per rispondere alle domande del servizio clienti, i tipi di domande poste possono cambiare nel tempo, portando a cambiamenti nel comportamento del modello.


5. Cambiamenti nel comportamento dell'utente: Gli LLM sono spesso utilizzati in applicazioni interattive in cui il comportamento dell'utente può influenzare il comportamento del modello. Ad esempio, se un chatbot viene utilizzato per fornire raccomandazioni agli utenti, i cambiamenti nelle preferenze o nel comportamento dell'utente possono portare a cambiamenti nel comportamento del modello.


Questi fattori possono interagire in modo complesso, rendendo difficile prevedere il comportamento dei LLM nel tempo. Il documento evidenzia la necessità di un monitoraggio continuo della qualità dei LLM per rilevare i cambiamenti di comportamento e garantire l'affidabilità e le prestazioni delle applicazioni basate sui LLM.



Il monitoraggio continuo della qualità del LLM può contribuire a migliorare le prestazioni e l'affidabilità di questi servizi in diversi modi:


1. Individuazione precoce della deriva delle prestazioni: Il monitoraggio continuo può aiutare a rilevare i cambiamenti nel comportamento degli LLM nel corso del tempo, consentendo agli sviluppatori di identificare e affrontare precocemente la deriva delle prestazioni. Questo può aiutare a prevenire problemi come risposte errate o inappropriate, che possono avere conseguenze significative in applicazioni sensibili.


2. Migliore comprensione del comportamento degli LLM: Il monitoraggio continuo può fornire agli sviluppatori una migliore comprensione del comportamento degli LLM nel tempo e in contesti diversi. Ciò può aiutare gli sviluppatori a identificare modelli e tendenze nel comportamento degli LLM e a sviluppare strategie per migliorare le prestazioni e l'affidabilità.


3. Miglioramento della selezione dei modelli: Il monitoraggio continuo può aiutare gli sviluppatori a selezionare l'LLM più appropriato per una determinata applicazione. Monitorando le prestazioni di diversi LLM nel tempo, gli sviluppatori possono identificare i modelli più stabili e affidabili e scegliere il modello migliore per la loro applicazione.


4. Miglioramento della formazione dei modelli: Il monitoraggio continuo può aiutare gli sviluppatori a migliorare l'addestramento degli LLM, identificando le aree in cui il modello ha prestazioni insufficienti o presenta un comportamento inaspettato. Questo può aiutare gli sviluppatori a perfezionare i dati di addestramento o a regolare l'architettura del modello per migliorare le prestazioni.


In generale, il monitoraggio continuo della qualità degli LLM è essenziale per garantire l'affidabilità e le prestazioni delle applicazioni basate sugli LLM. Monitorando il comportamento dell'LLM nel tempo e in contesti diversi, gli sviluppatori possono identificare e affrontare le derive delle prestazioni, migliorare la selezione e l'addestramento dei modelli e sviluppare strategie per migliorare le prestazioni e l'affidabilità delle applicazioni basate sull'LLM.


Di fatto non abbiamo ancora capito il problema dietro a queste metriche così cangianti, Però eticamente dobbiamo ricordarci alcuni elementi importanti. Di fatto affidarsi a un modello black-box ha un costo elevato. Per decenni ci siamo affidati ad API closed-source, ma lo abbiamo fatto aspettandoci uno standard nelle prestazioni e confidando nel fatto che il team di sviluppo non apportasse modifiche dirompenti. Il caso mostrato da questo studio sembra essere l'opposto. Dobbiamo chiederci cosa significa questo per un uso industriale dell'applicazione e per una AI che voglia essere veramente algoretica.

29 commenti


giecphangqua.n.h.g.h.u.n.g
6 giorni fa

hit club mình mới ghé thử vì thấy bạn bè nhắc hoài, kiểu vào xem cho biết chứ cũng không định ngồi lâu. Lướt qua vài phút là thấy trang làm khá dễ chịu, các phần nội dung chia thành từng khối nên kéo xuống không bị rối mắt. Mình có đọc lướt đoạn giới thiệu nói nền tảng ra mắt từ 2015, đặt ngay phần thông tin chung nên nắm ý nhanh, không phải mò nhiều. Với lại có một ô nói về bảo mật nhiều lớp trình bày riêng, nhìn phát là hiểu họ muốn nhấn mạnh chuyện an toàn. Nói chung cảm giác họ sắp xếp tiêu đề và mục nội dung khá gọn, nhất là mấy…

Mi piace

jennysilva3.2.3.12
29 mag

cm88.com mình vừa lướt thử cho biết vì thấy mọi người nhắc hoài, kiểu vào xem giao diện có dễ dùng không thôi. Ấn tượng đầu là trang chia nội dung theo từng khối nhìn khá thoáng, không bị nhồi chữ nên đọc đỡ mệt. Mình có bấm qua phần tin thể thao “24h” thì thấy bài lên dạng danh sách, kéo xuống là thấy nhiều tiêu đề liên tục, nhìn phát biết cái nào mới. Mấy mục trên menu đặt chỗ quen mắt nên chuyển qua lại cũng nhanh, không phải mò. Nói chung cảm giác site làm gọn gàng, chữ tiêu đề nổi rõ, và khu tin thể thao 24h được đóng khung nội dung khá dễ nhìn…

Mi piace

lydiaharve.y50.4.4.4
29 mag

kết quả bóng đá mình cũng mới ghé thử vì thấy bạn bè hay nói, kiểu vào xem nhanh thôi chứ không rảnh ngồi phân tích sâu. Cảm giác đầu tiên là trang phản hồi khá lẹ, bấm qua lại mấy trận không bị đứng hay load mãi. Mình hay xem trên điện thoại nên sợ giao diện rối, mà ở đây bố cục nhìn khá thoáng, phần tỷ số với diễn biến đặt ngay chỗ dễ thấy. Có mấy chỗ cập nhật theo thời gian thực nên đang lướt cũng nắm được tình hình mà không cần refresh liên tục. Nói chung hợp kiểu người chỉ cần thông tin gọn gàng, nhìn phát hiểu luôn. Mình thích nhất là…

Mi piace

elsiebre.we.r1.6.921
28 mag

https://qs88seo.com/ mình ghé thử cho biết vì thấy bạn bè nói qua, kiểu vào xem giao diện với cách họ trình bày nội dung thôi. Ấn tượng đầu là trang nhìn khá sáng sủa, các tiêu đề to rõ nên lướt một vòng là nắm được ý chính, không bị rối mắt. Mình có đọc lướt đoạn họ nhắc về bảo mật SSL/TLS cho phần đăng nhập và giao dịch, thấy ghi thẳng thắn nên cũng yên tâm hơn chút về mặt thông tin. Mình không có bấm sâu hay đăng ký gì, chỉ kéo xuống xem bố cục và cách chia khối. Kiểu mỗi đoạn được tách riêng, khoảng trắng vừa đủ nên đọc trên điện thoại cũng ổn.…

Mi piace

davidthom.a.s.282.55
28 mag

https://fv88.cash/ mình thấy bạn bè nhắc hoài nên bấm vào coi thử cho biết. Không phải kiểu vào là chơi liền đâu, mình chỉ lướt xem họ trình bày cho người mới thế nào. Ấn tượng là trang chia nội dung theo từng khối khá gọn, kéo xuống vẫn dễ theo dõi chứ không bị ngợp chữ. Có mấy ô thông tin kiểu thống kê hoạt động (mình nhớ có nhắc gần 5 triệu hội viên) đặt ngay trong box nên đọc lướt cũng nắm được ý. Menu nằm chỗ dễ nhìn, bấm qua lại mượt, không bị nhảy lung tung. Nói chung giao diện nhìn sạch sẽ, mấy heading và box số liệu đặt rõ ràng nên lướt một…

Mi piace
bottom of page