สี่สิ่งที่ต้องรู้เกี่ยวกับ GPT-4

เผยแพร่แล้ว: 2023-03-18

เมื่อวันอังคารที่ 14 มีนาคม OpenAI ได้เปิดตัวโมเดลแมชชีนเลิร์นนิงล่าสุด GPT-4 แม้ว่า ChatGPT จะไม่ได้เขย่าโลกในทันทีแบบเดียวกับที่ ChatGPT ทำ แต่ส่วนใหญ่เป็นเพราะไม่มีอินเทอร์เฟซใหม่ที่สดใสที่จะใช้ร่วมกับมันได้ เชื่อเราเถอะ มันยังคงน่าตื่นเต้นอย่างไม่น่าเชื่อ สี่สิ่งที่คุณควรรู้เกี่ยวกับ GPT-4 ในขณะนี้

สารบัญ

สิ่งที่ #1: Multimodality ยังไม่มาถึง

ในช่วงก่อนการเปิดตัว GPT-4 ได้รับความนิยมอย่างมากเกี่ยวกับการใช้งานหลายรูปแบบหรือสามารถรับทั้งข้อความ และ รูปภาพเป็นอินพุตได้ ขณะนี้ OpenAI กำลังทดสอบหลายรูปแบบกับคู่หูรายเดียว Be My Eyes เท่านั้น สำหรับคนอื่นๆ GPT-4 ยังคงยอมรับเฉพาะการป้อนข้อความเท่านั้น

สิ่งที่ #2: GPT-4 สามารถรับอินพุตที่ใหญ่กว่ามากได้

ในกรณีที่ไม่มีการทำงานหลายรูปแบบ หนึ่งในวิธีที่ชัดเจนที่สุดที่ GPT-4 แตกต่างจาก GPT-3.5 ก็คือมันสามารถรับอินพุตที่ใหญ่กว่ามาก (และสร้างเอาต์พุตที่ใหญ่กว่า แต่นั่นจะไม่มีประโยชน์ในลักษณะเดียวกัน)

จำนวนโทเค็นสูงสุดที่คุณสามารถใช้ได้ต่อครั้งกับ GPT-3.5 คือ 4,096 ด้วยโมเดลพื้นฐานของ GPT-4 นั้นสูงสุดสองเท่าถึง 8,192 โทเค็น—และยังมีรุ่น GPT-4 ที่สองที่สามารถรองรับโทเค็นได้สูงสุด 32,768 โทเค็น

หมายความว่าอย่างไรในทางปฏิบัติ?

สำหรับผู้เริ่มต้น หมายความว่าฉันสามารถให้รายงานทางเทคนิคทั้งหมดของ GPT-4 OpenAI (ลบภาคผนวก) ใน GPT-4 เพื่ออ่านได้ (มีเนื้อหามากกว่า 5,000 คำ) ฉันขอให้สรุปรายงานและเรียกข้อมูลสำคัญที่ขาดหายไป

นี่คือคำตอบของ GPT-4:

Prompt: สรุปประเด็นหลักของงานวิจัยนี้ ข้อมูลสำคัญอะไรขาดหายไป? (ตามด้วยข้อความฉบับเต็มของรายงานทางเทคนิค GPT-4 ของ OpenAI)

รายงานทางเทคนิคนี้สรุปการพัฒนา GPT-4 ของ OpenAI ซึ่งเป็นโมเดลหลายรูปแบบขนาดใหญ่ที่ยอมรับอินพุตรูปภาพและข้อความเพื่อสร้างเอาต์พุตข้อความ GPT-4 แสดงให้เห็นถึงประสิทธิภาพในระดับมนุษย์ตามเกณฑ์มาตรฐานทางวิชาชีพและวิชาการต่างๆ เช่น การให้คะแนน 10% แรกในการสอบเนติบัณฑิตจำลอง เป็นรุ่นที่ใช้ Transformer พร้อมประสิทธิภาพที่เพิ่มขึ้นโดยใช้กระบวนการจัดตำแหน่งหลังการฝึกอบรม

ความสามารถหลักของ GPT-4 ได้แก่:

1. ประมวลผลการป้อนรูปภาพและข้อความ ด้วยแอปพลิเคชันที่เป็นไปได้ในระบบการสนทนา การสรุปข้อความ และการแปลด้วยคอมพิวเตอร์

2. ทำคะแนนได้ดีในการสอบที่ออกแบบมาสำหรับมนุษย์ โดยมีผลการสอบจำลองใน 10% ของผู้สอบ

3. มีประสิทธิภาพดีกว่ารุ่นภาษาก่อนหน้าและระบบที่ล้ำสมัยบนเกณฑ์มาตรฐาน NLP แบบดั้งเดิม และทำงานได้ดีกับ MMLU เวอร์ชันแปลใน 24 ภาษาจาก 26 ภาษา

นอกจากนี้ รายงานยังเน้นย้ำถึงการพัฒนาโครงสร้างพื้นฐานการเรียนรู้เชิงลึกและวิธีการเพิ่มประสิทธิภาพที่คาดการณ์ได้ในระดับต่างๆ สิ่งนี้ทำให้นักวิจัยสามารถคาดการณ์ได้อย่างแม่นยำเกี่ยวกับประสิทธิภาพของ GPT-4 โดยอิงตามโมเดลขนาดเล็กที่ฝึกฝนด้วยการคำนวณ 1/1,000

อย่างไรก็ตาม GPT-4 มีข้อจำกัดหลายประการ เช่น ไม่น่าเชื่อถืออย่างสมบูรณ์ มีหน้าต่างบริบทจำกัด และไม่เรียนรู้จากประสบการณ์ ความสามารถและข้อจำกัดก่อให้เกิดความท้าทายด้านความปลอดภัยแบบใหม่ โดยมีอคติ ข้อมูลบิดเบือน การพึ่งพาเกิน ความเป็นส่วนตัว และความปลอดภัยทางไซเบอร์ท่ามกลางความเสี่ยงที่ระบุ

รายงานของเขาละเว้นจากการอภิปรายเกี่ยวกับสถาปัตยกรรม ฮาร์ดแวร์ การประมวลผลการฝึกอบรม การสร้างชุดข้อมูล หรือวิธีการฝึกอบรมของ GPT-4 โดยละเอียด เนื่องจากข้อกังวลด้านการแข่งขันและผลกระทบด้านความปลอดภัย

โดยรวมแล้ว การพัฒนา GPT-4 ถือเป็นความก้าวหน้าที่สำคัญในด้าน AI และแสดงให้เห็นถึงศักยภาพอย่างมากสำหรับการประยุกต์ใช้การเปลี่ยนแปลงในการประมวลผลภาษาธรรมชาติ ในขณะเดียวกันก็เน้นย้ำถึงความจำเป็นในการปรับปรุงอย่างต่อเนื่องและให้ความสนใจกับความท้าทายด้านความปลอดภัย

เอกสารการวิจัยไม่ได้เปิดเผยรายละเอียดเฉพาะเกี่ยวกับฮาร์ดแวร์ สถาปัตยกรรม การสร้างชุดข้อมูล หรือวิธีการฝึกอบรมของ GPT-4 การรับข้อมูลเพิ่มเติมเกี่ยวกับด้านเทคนิคเหล่านี้จะเป็นประโยชน์สำหรับนักวิจัยที่ต้องการทำซ้ำหรือต่อยอดจากงานของ GPT-4

ด้วย GPT-3.5 และรุ่นก่อนหน้า คุณไม่สามารถให้ข้อมูลที่ยาวเช่นนี้เป็นรายงานทางเทคนิคทั้งหมดได้ นี่เป็นความก้าวหน้าที่ยอดเยี่ยมจริงๆ เนื่องจากตอนนี้คุณสามารถให้ข้อมูลบริบทแก่โมเดลได้มากขึ้น

ความสามารถนี้มีประโยชน์ อย่างยิ่ง เนื่องจากโมเดลไม่ได้เชื่อมต่อกับอินเทอร์เน็ต วิธีเดียวที่จะมีข้อมูลใหม่คือถ้าคุณให้ข้อมูล และตอนนี้คุณสามารถให้ข้อมูลได้มากขึ้น

ในทางตรงกันข้าม ถ้าฉันถามว่า GPT-4 คืออะไร โดยไม่ได้ ให้รายงานทางเทคนิค สิ่งที่ฉันได้รับมีดังนี้

ข้อความแจ้ง: GPT-4 คืออะไร

GPT-4 เป็นสมมุติฐานที่สืบทอดมาจาก GPT-3 ของ OpenAI ซึ่งเป็นโมเดลภาษาที่ล้ำสมัย ซึ่งได้รับผลลัพธ์ที่น่าทึ่งในงานประมวลผลภาษาธรรมชาติที่หลากหลาย GPT-4 แม้ว่าจะไม่พร้อมใช้งานในขณะนี้ แต่คาดว่าจะปรับปรุงความสามารถของ GPT-3 ให้ดียิ่งขึ้น ซึ่งอาจทำให้สามารถสร้างและทำความเข้าใจข้อความที่เหมือนมนุษย์มากยิ่งขึ้น

ในฐานะโมเดลภาษา เป้าหมายของ GPT-4 คือการสร้างข้อความที่เหมือนมนุษย์ตามบริบทของการป้อนข้อมูลที่ให้มา เพื่อให้เข้าใจถึงวิธีการทำงาน ลองมาดูสถานการณ์ในชีวิตจริงที่สามารถใช้พลังของ GPT-4 ได้

สมมติว่าคุณเป็นนักเขียน …

…และอื่น ๆ

เท่าที่ทราบ GPT-4 GPT-4 ยังคงเป็นตัวตายตัวแทนของ GPT-3 ซึ่งก็สมเหตุสมผลดี เพราะแน่นอนว่ามันไม่ได้รับการฝึกฝนเกี่ยวกับข้อความจากโลกที่มี GPT-4 อยู่แล้ว ในเนื้อหาทั้งหมดที่โมเดลได้เห็น GPT-4 ยังคงเป็นการพัฒนาในอนาคต

อย่างไรก็ตาม ความหมายก็คือ ตอนนี้เราสามารถได้รับผลลัพธ์ที่ดีขึ้นมากจาก GPT-4 ในเรื่องต่างๆ เช่น เหตุการณ์ใหม่หรือหัวข้อที่เจาะลึกมาก โดยให้ข้อมูลมากขึ้นในข้อความแจ้ง

นอกเหนือจากการปรับปรุงนี้แล้ว การพิจารณาจากมุมมองของสถาปัตยกรรมก็น่าสนใจเช่นกัน เพื่อให้ยอมรับโทเค็นได้มากขึ้น โมเดลจะสามารถเรียกคืนและสังเคราะห์ข้อมูลผ่านหน้าต่างที่ใหญ่ขึ้นมากได้ สิ่งนี้ทำได้ง่ายๆ โดยการสร้างโมเดลที่ใหญ่ขึ้นโดยมีเลเยอร์และพารามิเตอร์มากขึ้น หรือมีการเปลี่ยนแปลงพื้นฐานในการประมวลผลและจัดเก็บข้อมูลหรือไม่

น่าเสียดายที่การไม่มีคำตอบสำหรับคำถามนั้นนำเราไปสู่ประเด็นที่สาม

สิ่งที่ #3: OpenAI ไม่เหมือน…เปิด…อีกต่อไป

สิ่งหนึ่งที่น่าสนใจเกี่ยวกับ GPT-4 นั้นไม่เกี่ยวกับความสามารถของมันเลย จากเอกสารการวิจัยของ OpenAI:

รายงานนี้มุ่งเน้นไปที่ความสามารถ ข้อจำกัด และคุณสมบัติด้านความปลอดภัยของ GPT-4 GPT-4 เป็นโมเดลแบบ Transformer ที่ได้รับการฝึกอบรมล่วงหน้าเพื่อคาดการณ์โทเค็นถัดไปในเอกสาร โดยใช้ทั้งข้อมูลที่เปิดเผยต่อสาธารณะ (เช่น ข้อมูลอินเทอร์เน็ต) และข้อมูลที่ได้รับอนุญาตจากผู้ให้บริการบุคคลที่สาม แบบจำลองได้รับการปรับแต่งอย่างละเอียดโดยใช้ Reinforcement Learning from Human Feedback (RLHF) เมื่อพิจารณาทั้งแนวการแข่งขันและผลกระทบด้านความปลอดภัยของโมเดลขนาดใหญ่ เช่น GPT-4 รายงานนี้จึงไม่มีรายละเอียดเพิ่มเติมเกี่ยวกับสถาปัตยกรรม (รวมถึงขนาดโมเดล) ฮาร์ดแวร์ การคำนวณการฝึกอบรม การสร้างชุดข้อมูล วิธีการฝึกอบรม หรือที่คล้ายกัน

(เน้นเหมือง)

ไม่มีรายละเอียดเพิ่มเติมเกี่ยวกับขนาดโมเดล ชุดข้อมูล การฝึกอบรม...อะไรเลยหรือ

ที่ไม่ได้เปิดอย่างดุเดือด นอกจากนี้ยังเป็นการออกจากการวิจัยสาธารณะของ OpenAI เกี่ยวกับ GPT ก่อนหน้านี้อย่างมาก

นอกจากนี้ยังเป็นที่น่าสังเกตว่าเหตุผลสองประการของความลับเหล่านี้ขัดแย้งกันอย่างไร: แนวการแข่งขันและผลกระทบด้านความปลอดภัยของแบบจำลองขนาดใหญ่ “ความหมายด้านความปลอดภัย” ต้องใช้ความระมัดระวังและความรอบคอบ แต่ “แนวการแข่งขัน” ต้องใช้พลังอย่างเต็มที่เพื่อเอาชนะผู้อื่น

จากบันทึกที่ไม่เกี่ยวข้องโดยสิ้นเชิง ความก้าวหน้าด้าน AI ที่สำคัญอีกสองรายการได้รับการเผยแพร่ในวันเดียวกับ GPT-4: โมเดล Claude ของ Anthropic และ PaLM API ของ Google

สิ่งที่ #4: AI กำลังกลายเป็นนักเรียนดีเด่น (แต่ก็ยังโกหกอยู่)

หนึ่งในกราฟที่มีการแบ่งปันกันมากที่สุดจากการเปิดตัวแสดงประสิทธิภาพของ GPT-4 ในการทดสอบต่างๆ เกือบจะเหมือนกับว่า OpenAI ยังคงอยู่ภายใต้ภาพลวงตา ซึ่งแบ่งปันโดยนักเรียนมัธยมปลายที่ประสบความสำเร็จสูงในทุกที่ โดยคะแนนสอบที่เป็นมาตรฐานมีความสัมพันธ์กับความสำเร็จในโลกแห่งความเป็นจริง

ฮ่าๆ.

อย่างไรก็ตาม สิ่งที่น่าสังเกตคือ GPT-4 ไม่ได้รับการฝึกฝนมาโดยเฉพาะให้ทำการทดสอบเหล่านี้ นี่ไม่ใช่กรณีของโมเดล AI ที่ได้รับการฝึกฝนเป็นพิเศษเพื่อเล่น Go และเอาชนะผู้เล่นที่เป็นมนุษย์ที่สุดได้ในที่สุด แต่ความสามารถในการเอาชนะการทดสอบเหล่านี้แสดงถึงความฉลาดที่ "ฉุกเฉิน" มากกว่า

รุ่นก่อนหน้าเช่น GPT-3 ยังไม่ได้รับการฝึกฝนให้ทำการทดสอบเฉพาะ แต่อย่างที่คุณเห็น ประสิทธิภาพของ GPT-4 ได้รับการปรับปรุงให้ดีขึ้นกว่า GPT-3 อย่างมาก:

หากคุณไม่สนใจเกี่ยวกับความสามารถของ AI ในการทำการทดสอบมาตรฐานและเพียงต้องการทราบว่าจะทำสิ่งที่คุณต้องการได้ดีเพียงใด นี่ก็ยังคงเป็นข่าวดี จากรายงาน:

GPT-4 พัฒนาขึ้นอย่างมากจากรุ่นก่อนหน้าในด้านความสามารถในการทำตามความตั้งใจของผู้ใช้ ในชุดข้อมูลพร้อมต์ 5,214 รายการที่ส่งไปยัง ChatGPT และ OpenAI API การตอบสนองที่สร้างโดย GPT-4 เป็นที่นิยมมากกว่าการตอบสนองที่สร้างโดย GPT-3.5 บน 70.2% ของพร้อมต์

ดังนั้น GPT-4 จึงมีแนวโน้มที่จะให้สิ่งที่คุณต้องการมากกว่า GPT-3.5 ที่ดี สิ่งสำคัญคือต้องระลึกไว้เสมอว่า แม้ว่าจะมีการปรับปรุงประสิทธิภาพ แต่โมเดลใหม่ก็ยังมีข้อจำกัดเดิมทั้งหมดที่เรารู้จักและชื่นชอบจากเพื่อน AI ที่มีอยู่ของเรา

คำพูดอื่นจากรายงาน:

แม้จะมีความสามารถ แต่ GPT-4 ก็มีข้อจำกัดที่คล้ายคลึงกันกับ GPT รุ่นก่อนๆ คือ ไม่น่าเชื่อถืออย่างสมบูรณ์ (เช่น อาจมีอาการ 'ประสาทหลอน') มีหน้าต่างบริบทจำกัด และไม่เรียนรู้จากประสบการณ์ ควรใช้ความระมัดระวังเมื่อใช้ผลลัพธ์ของ GPT-4 โดยเฉพาะอย่างยิ่งในบริบทที่ความน่าเชื่อถือเป็นสิ่งสำคัญ

ในความเป็นจริง ภาพหลอนอาจกลายเป็นปัญหาที่ใหญ่กว่าที่เป็นอยู่ เพียงเพราะยิ่ง AI ได้รับดีขึ้น ก็จะยิ่งเชื่อสิ่งที่พูดได้ง่ายขึ้น ด้วย GPT-3 และ GPT-3.5 ผู้คนทราบดีว่าโมเดลจะสร้างสิ่งต่างๆ ขึ้นมาได้ทั้งหมดเพราะมันเกิดขึ้นบ่อยมาก เนื่องจากโมเดลที่ใหม่กว่าและดีกว่าทำแบบนั้นไม่บ่อยนัก จึงมีความเสี่ยงมากขึ้นที่เมื่อเรา สร้าง ภาพหลอน เราอาจไม่ทันสังเกตหรือตรวจสอบข้อเท็จจริง

ดังนั้นจงระวังตัวไว้นะเพื่อนๆ แต่ช่วงเวลาเหล่านี้ก็เป็นช่วงเวลาที่น่าตื่นเต้นเช่นกัน

ป.ล. #5: หากคุณต้องการใช้ GPT-4 คุณสามารถทำได้ผ่าน ChatGPT Plus หรือผ่าน API มีรายการรอสำหรับ API แต่ฉันใช้เวลาเพียงสองวันในการเข้าถึง ข้อความเสริมหนึ่งเกี่ยวกับ API คือ GPT-4 สามารถเข้าถึงได้ผ่านฟังก์ชัน ChatCompletion (เหมือนกับ gpt-3.5-turbo) ไม่ใช่ฟังก์ชันเสร็จสิ้นที่คุณอาจใช้กับ text-davinci-003 หรือรุ่นอื่นๆ ก่อนหน้านี้ เพิ่มเติมเกี่ยวกับความแตกต่างระหว่างทั้งสองในภายหลัง