ChatGPT 5.5: Ini merupakan lonjakan baharu OpenAI dalam autonomi, kos dan kegunaan profesional

  • ChatGPT 5.5 meningkatkan penaakulan, autonomi dan penggunaan komputer berbanding GPT-5.4, sambil mengekalkan kependaman yang serupa.
  • Beliau cemerlang dalam pengaturcaraan ejen, kerja pejabat, analisis data dan penyelidikan saintifik, mencapai keputusan tertinggi dalam penanda aras utama.
  • Harga setiap token meningkat, tetapi kecekapan yang lebih tinggi dan penggunaan yang lebih rendah bermakna kos efektif boleh menjadi lebih rendah dalam tugasan yang kompleks.
  • OpenAI memperkukuh keselamatan dalam keselamatan siber dan biologi serta menggunakan GPT-5.5 dan versi Pronya untuk pengguna Plus, Pro, Perniagaan dan Perusahaan.

SembangGPT 5.5

OpenAI telah membuat satu lagi kenyataan berani dengan pelancaran itu de GPT-5.5, model yang meletakkan generasi ChatGPT terkini pada tahap autonomi dan penaakulan yang jauh lebih tinggi Berdasarkan apa yang telah kami lihat setakat ini, syarikat itu mempersembahkannya sebagai sistem yang paling intuitif dan berkemampuan untuk mengendalikan tugas kompleks dari awal hingga akhir, sekali gus mengurangkan keperluan untuk pengawasan pengguna yang berterusan.

Langkah ini datang pada satu masa perlumbaan untuk kepimpinan dalam kecerdasan buatan generatifDengan Anthropic dan Google turut mempercepatkan model mereka sendiri, GPT-5.5 dilancarkan buat kali pertama di ChatGPT dan Codex untuk pengguna berbayar dan menggabungkan penambahbaikan dalam pengaturcaraan, kerja pejabat, penyelidikan saintifik dan penggunaan komputer dunia sebenar, dengan kos a Kenaikan harga yang cuba dijustifikasikan oleh OpenAI dengan kecekapan yang luar biasa dalam penggunaan token.

Apakah GPT-5.5 dan apakah peranannya dalam strategi OpenAI?

Menurut OpenAI, GPT-5.5 menandakan langkah baharu dalam penaakulan berterusan dan kerja autonomi dengan komputerModel ini direka bentuk untuk melaksanakan tugasan yang panjang dan berbilang langkah: ia boleh menerima arahan yang tidak teratur, memecahkannya, merancang apa yang perlu dilakukan dahulu, memilih dan mengendalikan alatan, menyemak semula hasilnya sendiri dan meneruskan walaupun terdapat kekaburan dalam pernyataan tersebut.

Syarikat itu mentakrifkannya sebagai AI paling intuitif setakat iniDaripada sekadar menjawab soalan terpencil, GPT-5.5 bertindak sebagai ejen: ia mengekalkan konteks semasa proses yang meluas, menavigasi maklumat di web, melaksanakan arahan, memanipulasi dokumen dan aplikasi pejabat serta mengembalikan hasil yang telah distrukturkan terlebih dahulu, sedia untuk digunakan dalam persekitaran profesional.

Pelancaran tersebut merangkumi Versi GPT-5.5 Pro, ditujukan untuk tugas yang lebih kompleks Ia sudah mempunyai pengguna yang memerlukan jawapan yang lebih teliti dalam bidang seperti undang-undang, perniagaan, pendidikan atau analisis data lanjutan. ChatGPT juga mempunyai mod GPT-5.5 Berfikirdireka bentuk untuk masalah yang amat sukar dalam pengaturcaraan, penyelidikan atau analisis maklumat.

Autonomi dan penggunaan komputer di dunia sebenar: daripada chatbot kepada ejen kerja

Salah satu pertaruhan besar OpenAI adalah pada keupayaan GPT-5.5 untuk berfungsi sebagai agen autonomi pada komputer. Model ini boleh mencari maklumat, memutuskan apa yang berkaitan, menggabungkan sumber, mengendalikan perisian dan alatan secara berurutan dan mengubah bahan yang berselerak menjadi hasil yang berguna, tanpa pengguna perlu menentukan setiap langkah dengan teliti.

Dalam kehidupan seharian, ini diterjemahkan kepada tugas-tugas seperti menjana dokumen, hamparan atau pembentangan yang kompleksMenyemak kontrak, menyediakan laporan, menganalisis pangkalan data atau mencipta ringkasan yang luas daripada berbilang fail. Syarikat itu mendakwa bahawa GPT-5.5 memahami keperluan pengguna dengan lebih cepat dan mengendalikan sebahagian besar kerja itu sendiri berbanding versi sebelumnya.

Untuk menggambarkan perubahan ini, OpenAI memetik contoh dalaman: pasukan kewangan menggunakan Codex dan GPT-5.5 untuk menyemak puluhan ribu borang cukai Dalam masa yang lebih singkat, jabatan komunikasi mengautomasikan rangka kerja pemarkahan dan risiko untuk sejumlah besar permintaan, atau bidang pemasaran dan produk telah mengurangkan masa yang diluangkan untuk laporan berkala dengan ketara hasil daripada aliran kerja automatik.

Prestasi dalam pengaturcaraan agentif dan pembangunan perisian

GPT-5.5 menunjukkan penambahbaikan dalam pengaturcaraan dan apa yang OpenAI panggil "pengekodan ejen"—penggunaan AI sebagai ejen yang menulis, menyahpepijat dan menyelenggara kod hujung ke hujung. Dalam persekitaran pembangunan, model ini boleh mengurus repositori besar, mencadangkan pemfaktor semula yang kompleks, mengenal pasti sumber ralat dan menjangka bahagian sistem yang akan terjejas oleh perubahan.

Dalam penanda aras Bangku Terminal 2.0, yang mengukur aliran kerja baris arahan yang kompleks, GPT-5.5 mencapai a 82,7% , jelas mengatasi GPT-5.4, dan berbuat demikian sambil menggunakan lebih sedikit token. Dalam SWE-Bench ProBerfokus pada penyelesaian isu GitHub dunia sebenar, model ini mencapai 58,6% dan dalam penilaian dalaman Pakar-SWE, dengan tugasan yang anggaran masa manusianya sekitar 20 jam, ia juga melebihi pendahulunya.

Jurutera yang menguji versi awal menunjukkan bahawa GPT-5.5 lebih memahami seni bina keseluruhan sistem kompleksDalam ujian dalaman, kes seperti penggabungan cawangan dengan ratusan perubahan diselesaikan dalam masa kira-kira dua puluh minit, reka bentuk semula subsistem yang hampir lengkap (contohnya, sistem komen dalam editor kolaboratif) atau pengesanan awal ralat yang sebelum ini memerlukan lebih banyak lelaran disebut.

Dalam Codex, persekitaran kejuruteraan perisian OpenAI, GPT-5.5 mempunyai tetingkap konteks sehingga 400.000 token, membolehkannya berfungsi dengan pangkalan kod yang sangat besar. Ia juga mempunyai mod pantas yang menjana lebih kurang [bilangan token diperlukan]. 1,5 kali lebih pantas, walaupun dengan kos setiap token yang lebih tinggi, direka untuk mereka yang mengutamakan kelajuan tindak balas.

Kerja pengetahuan, perniagaan dan kegunaan pejabat setiap hari

Selain pembangunan perisian, GPT-5.5 direka bentuk sebagai alat untuk kerja profesional di pejabat, perundingan atau persekitaran analisis data. OpenAI berpendapat bahawa keupayaan yang sama yang meningkatkan pengaturcaraan kini membolehkan tugas dokumentasi dan analisis yang lebih berkesan.

Dalam penanda aras GDPval, yang menilai keupayaan untuk menghasilkan kerja pakar tertentu dalam 44 pekerjaanGPT-5.5 memperoleh 84,9% jawapan yang betul atau seri. Dalam OSWorld-DisahkanSatu ujian yang direka untuk mengesahkan sama ada model tersebut boleh mengendalikan persekitaran pengkomputeran dunia sebenar secara autonomi, mencapai 78,7% . Dalam Telekomunikasi Tau2-bench, memberi tumpuan kepada khidmat pelanggan dalam sektor telekomunikasi, mencapai 98% tanpa perlu melaraskan gesaan, yang menunjukkan prestasi tinggi dalam senario sokongan.

Untuk kegunaan perusahaan, OpenAI menekankan bahawa Lebih 85% kakitangan mereka menggunakan Codex setiap minggu dalam bidang seperti kejuruteraan, kewangan, pemasaran, data atau produk. Kes seperti automasi laporan mingguan, yang menjimatkan antara lima dan sepuluh jam setiap orang seminggu, menggambarkan jenis faedah yang dikaitkan oleh syarikat kepada model baharu apabila ia disepadukan ke dalam proses perniagaan.

Penyelidikan saintifik, biologi dan matematik lanjutan

Penyelidikan saintifik merupakan satu lagi tema utama dalam pembentangan GPT-5.5. OpenAI menyasarkan aliran kerja di tempat yang diperlukan. meneroka hipotesis, mengumpul bukti, menguji andaian, mentafsir keputusan dan memutuskan eksperimen seterusnya, persekitaran di mana penaakulan kontekstual yang berterusan adalah penting.

Dalam ujian seperti GeneBenchDengan memberi tumpuan kepada tugasan biologi dan genetik, GPT-5.5 menambah baik keputusan GPT-5.4, dan varian GPT-5.5 Pro Ia memperoleh skor yang lebih tinggi lagi. Dalam BixBenchDengan memberi tumpuan kepada bioinformatik dan biologi kuantitatif, model baharu ini juga mencapai prestasi terbaik antara sistem dengan data yang diterbitkan setakat ini, menurut maklumat yang diberikan oleh syarikat.

OpenAI juga telah memetik contoh penggunaan dalam matematik lanjutan, di mana a Versi dalaman GPT-5.5 telah bekerjasama dalam pencarian ujian baharu yang berkaitan dengan nombor Ramsey luar pepenjuruIni kemudiannya disahkan menggunakan pembantu formal Lean. Syarikat itu mengemukakan kes ini sebagai contoh bagaimana model ini bukan sahaja menghasilkan kod atau penjelasan, tetapi juga boleh menyumbang kepada hujah matematik dalam bidang yang kompleks.

Secara praktikal, testimoni disebut daripada penyelidik yang telah menggunakan GPT-5.5 Pro untuk menganalisis set data ekspresi gen dengan puluhan ribu pembolehubah dan sejumlah besar sampelmendapatkan laporan terperinci, sudut analisis baharu dan soalan utama dalam jangka masa yang, menurut pengiraan mereka, akan menjadi lebih lama jika ditangani secara eksklusif dengan tenaga manusia.

Kependaman, masa penaakulan dan kecekapan token

Di sebalik pelancaran GPT-5.5 terdapat mesej yang berterusan: Ia meningkatkan kecerdasan model tanpa menjejaskan kelajuan tindak balas.OpenAI mendakwa bahawa sistem baharu ini sepadan dengan kependaman setiap token GPT-5.4 dalam perkhidmatan dunia sebenar, walaupun lebih berkemampuan, yang luar biasa dalam model yang lebih besar dan lebih kompleks.

Salah satu perkara utama ialah masa penaakulan yang diperlukan untuk menyelesaikan tugasan yang kompleksPengguna awal yang telah membandingkan tingkah laku dengan versi sebelumnya melaporkan bahawa proses yang sebelum ini memerlukan antara 20 dan 40 minit kerja kini diselesaikan hanya dalam tiga atau empat minit, mengekalkan—malah meningkatkan—kualiti respons.

Keuntungan ini bukan sahaja datang daripada kelajuan mentah, tetapi juga daripada pengurusan token yang lebih baikGPT-5.5 memerlukan lebih sedikit token untuk mencapai hasil yang setanding atau lebih baik daripada GPT-5.4, sekali gus mengurangkan jumlah masa pemprosesan dan kos yang berkaitan dengan setiap aliran kerja. Dalam senario dengan jumlah pertanyaan yang tinggi atau automasi intensif, perbezaan ini boleh menjadi penting.

OpenAI menjelaskan bahawa, untuk mengekalkan kependaman, ia terpaksa mereka bentuk semula inferens sebagai sistem bersepaduGPT-5.5 telah direka bentuk bersama, dilatih dan digunakan pada infrastruktur berasaskan perkakasan NVIDIA yang canggih (GB200 dan GB300 NVL72), dan GPT-5.5 itu sendiri dan Codex telah digunakan untuk mengoptimumkan heuristik pengimbangan beban dan pembahagian, dengan peningkatan lebih 20% dalam kelajuan penjanaan token pada sistem mereka.

Harga, kos sebenar dan perbandingan dengan GPT-5.4

Walaupun GPT-5.5 terletak di julat harga yang tinggi setiap tokenOpenAI menegaskan bahawa, dalam praktiknya, ia boleh menjadi lebih menjimatkan berbanding pendahulunya dan sebahagian daripada pesaingnya. Sebabnya ialah gabungan kecekapan token yang lebih tinggi dan kurang keperluan untuk percubaan semula atau pembetulan.

Dalam API, harga rujukan yang dilaporkan untuk GPT-5.5 adalah $5 setiap juta token input dan $30 setiap juta token outputdengan tetingkap konteks yang mencapai sehingga satu juta token. Untuk GPT-5.5 Pro, kadarnya meningkat kepada $30 setiap juta token dimasukkan dan $180 setiap juta token dikeluarkanmenyasarkan kegunaan dengan jelas di mana nilai tambah tindak balas melebihi kos.

OpenAI juga menawarkan mod seperti Secara Kelompok dan Fleksibel, dengan kadar kira-kira separuh daripada harga standard.dan mod Keutamaan yang mendarabkan kos sebanyak 2,5 sebagai pertukaran untuk keutamaan giliran yang lebih tinggi dan masa tindak balas yang lebih pendek. Syarikat itu mengakui bahawa GPT-5.5 lebih mahal daripada GPT-5.4 dari segi nominal, tetapi berpendapat bahawa pengurangan token yang diperlukan setiap tugas dan masa penaakulan yang lebih pendek mewajarkan kos tersebut. Mereka boleh mengurangkan kos keseluruhan projek kompleks berbanding model lain..

Dalam pasaran, dasar ini meletakkan GPT-5.5 di atas model OpenAI sebelumnya dan di bawah alternatif mewah yang, menurut anggaran yang dikongsi semasa pembentangan, boleh menjadi antara lima dan sepuluh kali lebih mahal dari segi praktikal apabila mempertimbangkan gabungan harga, token yang digunakan dan kualiti hasilnya.

Konteks dan prestasi yang panjang dalam penanda aras penaakulan

Satu lagi penambahbaikan ketara GPT-5.5 ialah keupayaannya untuk bekerja dengan konteks yang sangat luas tanpa kehilangan thread. Dalam ujian seperti Graphwalks BFS 1Mmodel tersebut mencapai 45,4% berbanding 9,4% untuk GPT-5.4, dan dalam OpenAI MRCR v2 dengan konteks antara 512K dan 1M token ia meningkat kepada 74,0%, berbanding 36,6% dalam versi sebelumnya.

Dalam bidang penaakulan abstrak, GPT-5.5 merekodkan 95,0% dalam ARC-AGI-1 dan 85,0% dalam ARC-AGI-2, dengan penambahbaikan yang ketara berbanding GPT-5.4. Dalam ujian pengetahuan lanjutan seperti GPQA BerlianDengan memberi tumpuan kepada soalan yang sangat sukar, ia memperoleh 93,6%dan dalam penilaian seperti Peperiksaan Terakhir Kemanusiaan Ia melebihi 50% apabila dibenarkan menggunakan alat luaran.

OpenAI menekankan bahawa banyak penilaian ini telah dijalankan dalam persekitaran penyelidikan dengan konfigurasi penaakulan pada tahap yang sangat tinggiOleh itu, keputusan mungkin sedikit berbeza daripada yang dilihat oleh pengguna ChatGPT dalam pengeluaran. Walaupun begitu, syarikat ingin menyampaikan idea bahawa GPT-5.5 mewakili Lonjakan praktikal dalam tugasan dunia sebenar, bukan sekadar peningkatan akademik dalam jadual penanda aras.

Keselamatan, keselamatan siber dan penggunaan yang bertanggungjawab

Peningkatan keupayaan memerlukan pengukuhan perlindungan keselamatanOpenAI menyatakan bahawa GPT-5.5 dilancarkan dengan sistem perlindungan paling canggih setakat ini, selepas menjalani penilaian dalaman dan luaran, rangka kerja kesediaan khusus dan proses kerjasama merah dengan pakar keselamatan siber dan biologi.

Dalam rangka kerjanya Rangka Kerja KesediaanSyarikat itu mengklasifikasikan keupayaan GPT-5.5 sebagai Biologi, kimia dan keselamatan siber pada tahap "Tinggi"tanpa mencapai tahap "Kritikal". Walaupun begitu, ia mengakui bahawa model ini lebih berkesan daripada GPT-5.4 dalam mencari dan mengeksploitasi kelemahan, dan oleh itu telah digunakan pengelas yang lebih ketat untuk permintaan sensitif dan mekanisme terhadap penggunaan berisiko berulang, sesuatu yang mungkin lebih ketat bagi sesetengah pengguna teknikal.

Secara selari, OpenAI bertujuan untuk meluaskan akses kepada keupayaan yang lebih canggih untuk kegunaan pertahanan yang disahkan melalui program seperti Akses Dipercayai untuk SiberAlat-alat ini ditujukan khusus kepada organisasi yang bertanggungjawab melindungi infrastruktur kritikal. Ideanya adalah untuk menyediakan alat pertahanan yang berkuasa tanpa melonggarkan kawalan terhadap potensi penggunaan yang menyinggung perasaan.

Dalam bidang penyelidikan biologi, syarikat telah melancarkan inisiatif seperti program ganjaran untuk mengesan ralat biologi dalam tingkah laku model, dengan tujuan agar komuniti saintifik membantu mengenal pasti kelemahan dan menambah baik perlindungan sebelum penggunaan yang lebih luas.

Ketersediaan GPT-5.5 dan penggunaannya dalam produk

Penggunaan GPT-5.5 telah bermula untuk Pengguna ChatGPT dan Codex Plus, Pro, Perniagaan dan Perusahaandalam persekitaran peribadi dan korporat. Di Codex, model ini disepadukan ke dalam aliran kerja pembangunan perisian dengan tetingkap konteks yang diperluas dan mod tindak balas pantas.

La Versi GPT-5.5 Pro Ia sedang diaktifkan secara progresif untuk pengguna Pro, Business dan Enterprise yang memerlukan tahap perincian dan ketepatan tambahan, terutamanya dalam medan yang dikawal selia atau berimpak tinggi di mana ralat boleh menyebabkan kerugian. Dalam ChatGPT, pengguna juga mula melihat pilihan khusus seperti GPT-5.5 Berfikir untuk masalah penyelidikan atau analisis yang kompleks.

Berkenaan API, OpenAI sedang berusaha Gabungkan GPT-5.5 dan GPT-5.5 Pro ke dalam titik akhir Respons dan Penyempurnaan Sembang anda dengan tetingkap konteks mencapai satu juta token. Syarikat itu menunjukkan bahawa akses akan diperluas apabila keperluan kapasiti keselamatan dan infrastruktur dalaman dipenuhi, supaya pembangun boleh mengintegrasikan model ke dalam aplikasi mereka sendiri sebaik sahaja fasa ini selesai.

Ketibaan GPT-5.5 mengukuhkan perubahan peringkat dalam evolusi ChatGPT: Tumpuan beralih daripada sekadar menjana teks kepada automasi tugasan digital yang komprehensif, dengan model yang lebih autonomi yang mampu membuat penaakulan untuk tempoh yang lebih lama dan berfungsi pada sistem sebenar, dengan kos yang lebih tinggi dan perdebatan yang semakin meningkat mengenai keselamatan dan tadbir urus.Dalam konteks Eropah di mana peraturan AI semakin maju dan syarikat-syarikat berusaha mencapai kecekapan tanpa kehilangan kawalan, cara organisasi, pembangun dan pentadbiran menerima pakai—atau mengehadkan—penggunaan GPT-5.5 mungkin sama relevannya dengan angka penanda aras yang mengiringi model baharu ini.

Ejen ChatGPT
artikel berkaitan:
Ejen ChatGPT: Lonjakan OpenAI menjadi ejen autonomi untuk mengautomasikan tugas yang kompleks