top of page

ChatGPT è cambiato ma in peggio

  • Immagine del redattore: Paolo Benanti
    Paolo Benanti
  • 20 lug 2023
  • Tempo di lettura: 7 min

Molti ricercatori conoscono arXiv: un archivio online che contiene prepubblicazioni (pre-print) di articoli scientifici in diverse discipline, tra cui fisica, matematica, informatica, statistica, finanza quantitativa e biologia. È accessibile gratuitamente via Internet e rappresenta una risorsa fondamentale per la comunità scientifica. In molti settori della matematica e della fisica, la maggior parte delle pubblicazioni scientifiche vengono inserite in questo archivio. Gli articoli presenti su arXiv sono bozze definitive che hanno subito una revisione e approvazione, ma non ancora una revisione paritaria. Il 18 luglio scorso è comparso un articolo su arXiv che ha iniziato a far discutere la comunità dei ricercatori nel campo delle AI. Vediamo di cosa si tratta.



GPT-3.5 e GPT-4 sono i due servizi di modelli linguistici di grandi dimensioni (LLM) più utilizzati. Tuttavia, non è chiaro quando e come questi modelli vengano aggiornati nel tempo. Nell'articolo si valutano le versioni di marzo 2023 e giugno 2023 di GPT-3.5 e GPT-4 su quattro compiti diversi: 1) risoluzione di problemi matematici, 2) risposta a domande sensibili/pericolose, 3) generazione di codice e 4) ragionamento visivo. I ricercatori hanno scoperto che le prestazioni e il comportamento di GPT-3.5 e GPT-4 possono variare notevolmente nel tempo. Nel complesso, i risultati mostrano che il comportamento dello stesso servizio LLM può cambiare sostanzialmente in un lasso di tempo relativamente breve, evidenziando la necessità di un monitoraggio continuo della qualità del LLM. Vediamo meglio qualche dettaglio.



Questo documento è una ricerca che esplora le prestazioni dei modelli linguistici di grandi dimensioni (LLM) nel tempo. In particolare, si concentra su due modelli, GPT-3.5 e GPT-4, e ne valuta le prestazioni su vari compiti. Il documento evidenzia la necessità di un monitoraggio continuo della qualità degli LLM, poiché questi modelli possono presentare cambiamenti significativi nel comportamento nel corso del tempo.


L'articolo inizia discutendo la letteratura esistente sui LLM e le loro prestazioni su compiti linguistici tradizionali come la comprensione della lettura, la traduzione e il riassunto. Si osserva che i LLM hanno ottenuto prestazioni ragionevoli in questi compiti e hanno dimostrato di avere successo in ambiti professionali come la medicina e la legge. Tuttavia, il documento sottolinea che i lavori esistenti non monitorano sistematicamente le derive longitudinali dei servizi LLM ampiamente utilizzati, come GPT-4 e GPT-3.5, nel corso del tempo.


L'articolo presenta quindi una valutazione di GPT-3.5 e GPT-4 su vari compiti, tra cui la risposta a domande, il completamento di testi e la risoluzione di puzzle. I risultati mostrano che entrambi i modelli presentano cambiamenti significativi nel comportamento nel corso del tempo, con GPT-4 che mostra una maggiore stabilità rispetto a GPT-3.5. Il documento osserva che questi cambiamenti nel comportamento sono dovuti al fatto che il GPT-3.5 non è un modello di riferimento. Il documento osserva che questi cambiamenti nel comportamento possono avere implicazioni significative per l'affidabilità e le prestazioni dei servizi LLM.



Il documento esamina anche i fattori che contribuiscono a modificare il comportamento dei LLM nel tempo. Questi fattori includono cambiamenti nei dati di addestramento, cambiamenti nell'architettura del modello e cambiamenti nelle metriche di valutazione. Il documento osserva che questi fattori possono interagire in modo complesso, rendendo difficile prevedere il comportamento dei LLM nel tempo.


Per rispondere alla necessità di un monitoraggio continuo della qualità dei LLM, il documento propone un quadro di riferimento per la valutazione delle prestazioni dei LLM nel tempo. Il quadro comprende una serie di compiti di valutazione progettati per catturare diversi aspetti del comportamento dei LLM, nonché una serie di metriche per misurare le prestazioni dei LLM su questi compiti. Il documento sottolinea che questo framework può essere utilizzato per monitorare le prestazioni dei servizi LLM in natura e per rilevare i cambiamenti di comportamento nel tempo.


L'articolo presenta poi un caso di studio di ChatGPT, un popolare chatbot basato su LLM. Lo studio valuta le prestazioni di GPT-3.5 e GPT-4 su una serie di domande sensibili e mostra che entrambi i modelli presentano cambiamenti significativi nel comportamento nel tempo. Il documento osserva che questi cambiamenti di comportamento possono avere implicazioni significative per l'affidabilità di ChatGPT.


Lo studio ha valutato le prestazioni di GPT-3.5 e GPT-4 su quattro compiti: risoluzione di problemi matematici, risposta a domande sensibili/pericolose, generazione di codice e ragionamento visivo.



Per il compito di risoluzione dei problemi matematici, i modelli sono stati valutati in base alla loro capacità di determinare se un dato numero intero è primo. Il dataset conteneva 500 domande e i modelli sono stati valutati utilizzando il Chain-of-Thought, un approccio standard per i compiti di ragionamento. I risultati hanno mostrato che entrambi i modelli hanno mostrato cambiamenti significativi nel comportamento nel tempo, con GPT-4 che ha mostrato maggiore stabilità rispetto a GPT-3.5.


Per il compito "domande sensibili/pericolose", i modelli sono stati valutati in base alla loro capacità di fornire risposte appropriate a domande relative a suicidio, autolesionismo e violenza. Lo studio ha utilizzato un set di 100 domande e i modelli sono stati valutati in base alla loro capacità di fornire risposte appropriate evitando contenuti dannosi o scatenanti. I risultati hanno mostrato che entrambi i modelli hanno mostrato cambiamenti significativi nel comportamento nel tempo, con GPT-4 che ha mostrato una maggiore stabilità rispetto a GPT-3.5.


Per il compito di generazione del codice, i modelli sono stati valutati in base alla loro capacità di generare frammenti di codice per un determinato compito. Lo studio ha utilizzato un set di dati di 100 compiti di programmazione e i modelli sono stati valutati in base alla qualità e alla correttezza del codice generato. I risultati hanno mostrato che entrambi i modelli hanno mostrato cambiamenti significativi nel comportamento nel corso del tempo, con GPT-4 che ha mostrato una maggiore stabilità rispetto a GPT-3.5.



Per il compito di ragionamento visivo, i modelli sono stati valutati in base alla loro capacità di rispondere a domande basate su stimoli visivi. Lo studio ha utilizzato un set di 100 domande e i modelli sono stati valutati in base alla loro capacità di rispondere correttamente alle domande. I risultati hanno mostrato che entrambi i modelli hanno mostrato cambiamenti significativi nel comportamento nel tempo, con il GPT-4 che ha mostrato una maggiore stabilità rispetto al GPT-3.5.


Nel complesso, lo studio ha dimostrato che sia il GPT-3.5 sia il GPT-4 presentano cambiamenti significativi nel comportamento nel tempo su una serie di compiti. Tuttavia, il GPT-4 ha mostrato una maggiore stabilità rispetto al GPT-3.5, suggerendo che potrebbe essere una scelta più affidabile per le applicazioni basate su LLM.


Il documento analizza diversi fattori che contribuiscono al cambiamento del comportamento dei servizi LLM come ChatGPT nel corso del tempo. Questi fattori includono:


1. Cambiamenti nei dati di addestramento: Gli LLM sono addestrati su grandi insiemi di testo e i cambiamenti nei dati di addestramento possono portare a cambiamenti nel comportamento del modello. Ad esempio, se i dati di addestramento contengono un maggior numero di esempi di un particolare tipo di uso del linguaggio, il modello può diventare migliore in quel compito ma peggiore in altri.


2. Cambiamenti nell'architettura del modello: Gli LLM sono modelli complessi con molti parametri e i cambiamenti nell'architettura del modello possono portare a cambiamenti nel comportamento del modello. Ad esempio, se il modello viene modificato per includere strati aggiuntivi o funzioni di attivazione diverse, il comportamento del modello può cambiare.


3. Cambiamenti nelle metriche di valutazione: I LLM sono tipicamente valutati utilizzando metriche come l'accuratezza o la perplessità, e le modifiche alle metriche di valutazione possono portare a cambiamenti nel comportamento del modello. Ad esempio, se la metrica di valutazione viene modificata per dare priorità a un particolare tipo di prestazione, il modello può modificare il proprio comportamento per ottimizzare tale metrica.


4. Cambiamenti nella distribuzione degli input: Gli LLM sono spesso utilizzati in applicazioni reali in cui la distribuzione degli input può cambiare nel tempo. Ad esempio, se un chatbot viene utilizzato per rispondere alle domande del servizio clienti, i tipi di domande poste possono cambiare nel tempo, portando a cambiamenti nel comportamento del modello.


5. Cambiamenti nel comportamento dell'utente: Gli LLM sono spesso utilizzati in applicazioni interattive in cui il comportamento dell'utente può influenzare il comportamento del modello. Ad esempio, se un chatbot viene utilizzato per fornire raccomandazioni agli utenti, i cambiamenti nelle preferenze o nel comportamento dell'utente possono portare a cambiamenti nel comportamento del modello.


Questi fattori possono interagire in modo complesso, rendendo difficile prevedere il comportamento dei LLM nel tempo. Il documento evidenzia la necessità di un monitoraggio continuo della qualità dei LLM per rilevare i cambiamenti di comportamento e garantire l'affidabilità e le prestazioni delle applicazioni basate sui LLM.



Il monitoraggio continuo della qualità del LLM può contribuire a migliorare le prestazioni e l'affidabilità di questi servizi in diversi modi:


1. Individuazione precoce della deriva delle prestazioni: Il monitoraggio continuo può aiutare a rilevare i cambiamenti nel comportamento degli LLM nel corso del tempo, consentendo agli sviluppatori di identificare e affrontare precocemente la deriva delle prestazioni. Questo può aiutare a prevenire problemi come risposte errate o inappropriate, che possono avere conseguenze significative in applicazioni sensibili.


2. Migliore comprensione del comportamento degli LLM: Il monitoraggio continuo può fornire agli sviluppatori una migliore comprensione del comportamento degli LLM nel tempo e in contesti diversi. Ciò può aiutare gli sviluppatori a identificare modelli e tendenze nel comportamento degli LLM e a sviluppare strategie per migliorare le prestazioni e l'affidabilità.


3. Miglioramento della selezione dei modelli: Il monitoraggio continuo può aiutare gli sviluppatori a selezionare l'LLM più appropriato per una determinata applicazione. Monitorando le prestazioni di diversi LLM nel tempo, gli sviluppatori possono identificare i modelli più stabili e affidabili e scegliere il modello migliore per la loro applicazione.


4. Miglioramento della formazione dei modelli: Il monitoraggio continuo può aiutare gli sviluppatori a migliorare l'addestramento degli LLM, identificando le aree in cui il modello ha prestazioni insufficienti o presenta un comportamento inaspettato. Questo può aiutare gli sviluppatori a perfezionare i dati di addestramento o a regolare l'architettura del modello per migliorare le prestazioni.


In generale, il monitoraggio continuo della qualità degli LLM è essenziale per garantire l'affidabilità e le prestazioni delle applicazioni basate sugli LLM. Monitorando il comportamento dell'LLM nel tempo e in contesti diversi, gli sviluppatori possono identificare e affrontare le derive delle prestazioni, migliorare la selezione e l'addestramento dei modelli e sviluppare strategie per migliorare le prestazioni e l'affidabilità delle applicazioni basate sull'LLM.


Di fatto non abbiamo ancora capito il problema dietro a queste metriche così cangianti, Però eticamente dobbiamo ricordarci alcuni elementi importanti. Di fatto affidarsi a un modello black-box ha un costo elevato. Per decenni ci siamo affidati ad API closed-source, ma lo abbiamo fatto aspettandoci uno standard nelle prestazioni e confidando nel fatto che il team di sviluppo non apportasse modifiche dirompenti. Il caso mostrato da questo studio sembra essere l'opposto. Dobbiamo chiederci cosa significa questo per un uso industriale dell'applicazione e per una AI che voglia essere veramente algoretica.

header.all-comments


savannapatt.er.s.on.7.0.4
2 giorni fa

https://keonhacai.cam/ mình mới lướt thử vì thấy vài người nhắc, chủ yếu tò mò giao diện chứ không đào sâu nội dung. Cảm giác đầu tiên là trang chia mục khá rõ ràng, nhìn vào là biết nên bấm chỗ nào, không bị “ngợp” như nhiều site khác. Mình thích kiểu họ trình bày thông tin theo dạng khối và danh sách, nên kéo xuống một chút là nắm được bố cục ngay. Mấy bảng dữ liệu cũng sắp xếp theo cột gọn gàng, nhìn nhanh vẫn dễ theo dõi chứ không rối mắt. Menu đặt chỗ dễ thấy nên chuyển qua lại giữa các mục cũng tiện, không phải mò lâu. Nói chung lướt vài phút là quen tay…

like-button.like

hoachtungbuang.l.y.nh
4 giorni fa

https://f1688com.com/ hôm trước mình thấy nhắc đâu đó nên bấm vào coi thử cho biết thôi. Mình không vào kiểu “soi” hay gì, chủ yếu xem trang họ trình bày ra sao. Cảm giác đầu tiên là giao diện nhìn khá sạch sẽ, chữ nghĩa và các khối nội dung chia ra rõ nên lướt xuống không bị rối mắt. Có đoạn họ nói xây theo kiểu “hệ sinh thái” (nhiều thứ gom chung một chỗ) nên đọc qua cũng hiểu ý họ muốn người dùng đi một mạch, khỏi phải nhảy lung tung. Mình cũng để ý phần nhắc bảo mật OTP được đặt khá dễ thấy, kiểu như một ô thông tin để người mới yên tâm hơn.…

like-button.like

elsiebre.we.r1.6.921
4 giorni fa

23win168 com hôm bữa mình lướt thấy nhắc nhiều nên bấm vào coi thử cho biết thôi. Mình không có đăng ký hay chơi gì cả, chỉ xem trang chủ họ trình bày ra sao. Ấn tượng đầu là giao diện nhìn khá sạch, chữ dễ đọc, kéo xuống không bị rối mắt. Mấy mục chính đặt ngay trên đầu nên khỏi phải mò, bấm qua lại cũng thấy phản hồi nhanh, không kiểu đứng hình. Có đoạn giới thiệu nói về nạp rút nhanh, đọc lướt là hiểu họ muốn nhấn gì, không vòng vo. Nói chung mình thích kiểu bố cục chia khối rõ ràng, nhìn phát biết chỗ nào là phần thông tin, chỗ nào là nút…

like-button.like

bentiecesav.a.ge54.62
shortDate

https://go8.chat/ mình ghé thử do thấy bạn bè nhắc, kiểu vào xem cho biết thôi chứ không kỳ vọng gì nhiều. Ấn tượng đầu là trang nhìn khá gọn, bố cục chia khối rõ nên lướt một chút là nắm được các mục nằm đâu. Mình thích nhất đoạn họ để phần thông tin thương hiệu khá “thẳng thắn”, có bảng tóm tắt nhìn phát hiểu luôn (kiểu tên thương hiệu, đơn vị quản lý, giấy phép hoạt động…). Không bị nhồi chữ dài dòng nên đọc đỡ mệt. Trên điện thoại mình mở cũng ổn, cuộn mượt, menu đặt dễ thấy nên chuyển qua lại nhanh. Nói chung cảm giác họ chăm chút phần trình bày, nhất là cái…

like-button.like

terrancecart.e.r.36.0.7
shortDate

trực tiếp bóng đá hôm nay mình thấy mọi người bàn tán nên cũng tò mò vào thử xem giao diện thế nào. Mình không rành mấy vụ đánh giá này kia đâu, chỉ kiểu lướt nhanh xem có dễ dùng không thôi. Ấn tượng đầu là trang chia mục khá gọn, nhìn phát là thấy chỗ lịch thi với kết quả hiệp 1 chung cuộc nằm riêng nên khỏi phải mò nhiều. Mình cũng để ý phần xem live họ có mấy server để đổi qua lại, nên lúc mạng hơi chập chờn vẫn có đường lui, đỡ bực. Nói chung cảm giác bố cục dễ nhìn, chữ nghĩa không rối, và mấy khối thông tin như lịch thi…

like-button.like
bottom of page