
Η OpenAI αποκάλυψε πώς εκπαιδεύει το ChatGPT για να εντοπίζει απειλές βίας, πώς γίνονται οι ανθρώπινοι έλεγχοι και πότε ειδοποιούνται οι αρχές.
Η OpenAI δημοσιοποίησε αναλυτικό κείμενο πολιτικής για τον τρόπο με τον οποίο αντιμετωπίζει τη χρήση του ChatGPT σε υποθέσεις που σχετίζονται με τη βία, τις απειλές και τον κίνδυνο πρόκλησης βλάβης σε τρίτους. Η εταιρεία περιγράφει πώς εκπαιδεύει τα μοντέλα της, πώς εντοπίζει ύποπτη δραστηριότητα και ποιες ενέργειες ακολουθεί όταν χρήστες παραβιάζουν τους όρους χρήσης. Σε σοβαρές περιπτώσεις, ενημερώνει και τις διωκτικές αρχές.
Πώς εκπαιδεύονται τα μοντέλα να αναγνωρίζουν τον κίνδυνο
Σύμφωνα με το Model Spec της OpenAI, το ChatGPT αρνείται να δώσει οδηγίες, τακτικές ή σχέδια που θα μπορούσαν να διευκολύνουν ουσιαστικά πράξεις βίας. Παράλληλα, η εταιρεία επιτρέπει ουδέτερες συζητήσεις για τη βία όταν αφορούν ιστορικό, εκπαιδευτικό ή προληπτικό πλαίσιο, με την προϋπόθεση ότι αποφεύγονται οι λεπτομερείς και πρακτηκά εκτελέσιμες οδηγίες. Η OpenAI αναφέρει ότι έχει ενισχύσει την ικανότητα του ChatGPT να αναγνωρίζει ανησυχητικά μοτίβα σε εκτεταμένες συνομιλίες, καθώς ένα μεμονωμένο μήνυμα μπορεί να φαίνεται αθώο, αλλά το συνολικό μοτίβο μέσα σε πολλές συνομιλίες να αποκαλύπτει επικίνδυνη πρόθεση. Σε όσους εκδηλώνουν ψυχική δυσφορία ή σκέψεις αυτοτραυματισμού, το chatbot εμφανίζει τοπικές γραμμές υποστήριξης και τους κατευθύνει σε επαγγελματίες ψυχικής υγείας ή σε υπηρεσίες έκτακτης ανάγκης.
Συστήματα ανίχνευσης και ανθρώπινος έλεγχος
Η OpenAI χρησιμοποιεί αυτοματοποιημένα εργαλεία ανίχνευσης που περιλαμβάνουν classifiers, reasoning models, hash-matching, blocklists και άλλα συστήματα παρακολούθησης. Όταν ένας λογαριασμός ή μια συνομιλία επισημανθεί, εκπαιδευμένο προσωπικό της εταιρείας την αξιολογεί στο πλαίσιο της, με περιορισμένη πρόσβαση σε προσωπικά δεδομένα και αυστηρές δικλίδες απορρήτου. Όταν διαπιστωθεί παραβίαση πολιτικής, ο λογαριασμός απενεργοποιείται άμεσα, ενώ η OpenAI μπλοκάρει και άλλους λογαριασμούς του ίδιου χρήστη και προσπαθεί να εμποδίσει τη δημιουργία νέων. Η εταιρεία εφαρμόζει πολιτική μηδενικής ανοχής στη χρήση των εργαλείων της για διευκόλυνση βίας, με δυνατότητα ένστασης από τους χρήστες.
Συνεργασία με τις αρχές και νέα λειτουργία trusted contact
Σε υποθέσεις που εκτιμώνται ως άμεσος και αξιόπιστος κίνδυνος βλάβης τρίτων, η OpenAI ειδοποιεί τις αρχές, ακόμη κι αν ο χρήστης δεν έχει αναφέρει ρητά στόχο, μέσο ή χρόνο. Από το προηγούμενο φθινόπωρο διατίθενται τα Parental Controls, που επιτρέπουν στους γονείς να συνδέσουν τον λογαριασμό τους με αυτόν του εφήβου παιδιού τους και να ρυθμίσουν την εμπειρία ChatGPT ανάλογα με την ηλικία. Σε σπάνιες περιπτώσεις έντονης ψυχικής δυσφορίας, οι γονείς ειδοποιούνται μέσω email, SMS ή push notification. Σύντομα έρχεται και η λειτουργία trusted contact, η οποία θα επιτρέπει σε ενήλικες χρήστες να ορίζουν ένα έμπιστο πρόσωπο που θα ενημερώνεται όταν χρειάζονται υποστήριξη, σχεδιασμένη σε συνεργασία με το Council on Well-Being and AI και το Global Physicians Network.
Η άποψή μας στο Techblog
Η OpenAI προσπαθεί να ισορροπήσει ανάμεσα στην προστασία των χρηστών και τη διατήρηση της ιδιωτικότητας, σε μια εποχή που το ChatGPT έχει γίνει κομμάτι της καθημερινής επικοινωνίας. Η ενσωμάτωση μηχανισμών για όσους βρίσκονται σε ψυχική δυσφορία ή κίνδυνο αυτοτραυματισμού είναι σημαντική, αν και η αποτελεσματικότητα τους θα φανεί στην πράξη — και πιθανότατα θα κρίνει σε μεγάλο βαθμό την εμπιστοσύνη του κοινού προς το εργαλείο.







































































































