สี่สิ่งที่ต้องรู้เกี่ยวกับ GPT-4
เผยแพร่แล้ว: 2023-03-18เมื่อวันอังคารที่ 14 มีนาคม OpenAI ได้เปิดตัวโมเดลแมชชีนเลิร์นนิงล่าสุด GPT-4 แม้ว่า ChatGPT จะไม่ได้เขย่าโลกในทันทีแบบเดียวกับที่ ChatGPT ทำ แต่ส่วนใหญ่เป็นเพราะไม่มีอินเทอร์เฟซใหม่ที่สดใสที่จะใช้ร่วมกับมันได้ เชื่อเราเถอะ มันยังคงน่าตื่นเต้นอย่างไม่น่าเชื่อ สี่สิ่งที่คุณควรรู้เกี่ยวกับ GPT-4 ในขณะนี้
สารบัญ
สิ่งที่ #1: Multimodality ยังไม่มาถึง
ในช่วงก่อนการเปิดตัว GPT-4 ได้รับความนิยมอย่างมากเกี่ยวกับการใช้งานหลายรูปแบบหรือสามารถรับทั้งข้อความ และ รูปภาพเป็นอินพุตได้ ขณะนี้ OpenAI กำลังทดสอบหลายรูปแบบกับคู่หูรายเดียว Be My Eyes เท่านั้น สำหรับคนอื่นๆ GPT-4 ยังคงยอมรับเฉพาะการป้อนข้อความเท่านั้น
สิ่งที่ #2: GPT-4 สามารถรับอินพุตที่ใหญ่กว่ามากได้
ในกรณีที่ไม่มีการทำงานหลายรูปแบบ หนึ่งในวิธีที่ชัดเจนที่สุดที่ GPT-4 แตกต่างจาก GPT-3.5 ก็คือมันสามารถรับอินพุตที่ใหญ่กว่ามาก (และสร้างเอาต์พุตที่ใหญ่กว่า แต่นั่นจะไม่มีประโยชน์ในลักษณะเดียวกัน)
จำนวนโทเค็นสูงสุดที่คุณสามารถใช้ได้ต่อครั้งกับ GPT-3.5 คือ 4,096 ด้วยโมเดลพื้นฐานของ GPT-4 นั้นสูงสุดสองเท่าถึง 8,192 โทเค็น—และยังมีรุ่น GPT-4 ที่สองที่สามารถรองรับโทเค็นได้สูงสุด 32,768 โทเค็น
หมายความว่าอย่างไรในทางปฏิบัติ?
สำหรับผู้เริ่มต้น หมายความว่าฉันสามารถให้รายงานทางเทคนิคทั้งหมดของ GPT-4 OpenAI (ลบภาคผนวก) ใน GPT-4 เพื่ออ่านได้ (มีเนื้อหามากกว่า 5,000 คำ) ฉันขอให้สรุปรายงานและเรียกข้อมูลสำคัญที่ขาดหายไป
นี่คือคำตอบของ GPT-4:
Prompt: สรุปประเด็นหลักของงานวิจัยนี้ ข้อมูลสำคัญอะไรขาดหายไป? (ตามด้วยข้อความฉบับเต็มของรายงานทางเทคนิค GPT-4 ของ OpenAI)
รายงานทางเทคนิคนี้สรุปการพัฒนา GPT-4 ของ OpenAI ซึ่งเป็นโมเดลหลายรูปแบบขนาดใหญ่ที่ยอมรับอินพุตรูปภาพและข้อความเพื่อสร้างเอาต์พุตข้อความ GPT-4 แสดงให้เห็นถึงประสิทธิภาพในระดับมนุษย์ตามเกณฑ์มาตรฐานทางวิชาชีพและวิชาการต่างๆ เช่น การให้คะแนน 10% แรกในการสอบเนติบัณฑิตจำลอง เป็นรุ่นที่ใช้ Transformer พร้อมประสิทธิภาพที่เพิ่มขึ้นโดยใช้กระบวนการจัดตำแหน่งหลังการฝึกอบรม
ความสามารถหลักของ GPT-4 ได้แก่:
1. ประมวลผลการป้อนรูปภาพและข้อความ ด้วยแอปพลิเคชันที่เป็นไปได้ในระบบการสนทนา การสรุปข้อความ และการแปลด้วยคอมพิวเตอร์
2. ทำคะแนนได้ดีในการสอบที่ออกแบบมาสำหรับมนุษย์ โดยมีผลการสอบจำลองใน 10% ของผู้สอบ
3. มีประสิทธิภาพดีกว่ารุ่นภาษาก่อนหน้าและระบบที่ล้ำสมัยบนเกณฑ์มาตรฐาน NLP แบบดั้งเดิม และทำงานได้ดีกับ MMLU เวอร์ชันแปลใน 24 ภาษาจาก 26 ภาษา
นอกจากนี้ รายงานยังเน้นย้ำถึงการพัฒนาโครงสร้างพื้นฐานการเรียนรู้เชิงลึกและวิธีการเพิ่มประสิทธิภาพที่คาดการณ์ได้ในระดับต่างๆ สิ่งนี้ทำให้นักวิจัยสามารถคาดการณ์ได้อย่างแม่นยำเกี่ยวกับประสิทธิภาพของ GPT-4 โดยอิงตามโมเดลขนาดเล็กที่ฝึกฝนด้วยการคำนวณ 1/1,000
อย่างไรก็ตาม GPT-4 มีข้อจำกัดหลายประการ เช่น ไม่น่าเชื่อถืออย่างสมบูรณ์ มีหน้าต่างบริบทจำกัด และไม่เรียนรู้จากประสบการณ์ ความสามารถและข้อจำกัดก่อให้เกิดความท้าทายด้านความปลอดภัยแบบใหม่ โดยมีอคติ ข้อมูลบิดเบือน การพึ่งพาเกิน ความเป็นส่วนตัว และความปลอดภัยทางไซเบอร์ท่ามกลางความเสี่ยงที่ระบุ
รายงานของเขาละเว้นจากการอภิปรายเกี่ยวกับสถาปัตยกรรม ฮาร์ดแวร์ การประมวลผลการฝึกอบรม การสร้างชุดข้อมูล หรือวิธีการฝึกอบรมของ GPT-4 โดยละเอียด เนื่องจากข้อกังวลด้านการแข่งขันและผลกระทบด้านความปลอดภัย
โดยรวมแล้ว การพัฒนา GPT-4 ถือเป็นความก้าวหน้าที่สำคัญในด้าน AI และแสดงให้เห็นถึงศักยภาพอย่างมากสำหรับการประยุกต์ใช้การเปลี่ยนแปลงในการประมวลผลภาษาธรรมชาติ ในขณะเดียวกันก็เน้นย้ำถึงความจำเป็นในการปรับปรุงอย่างต่อเนื่องและให้ความสนใจกับความท้าทายด้านความปลอดภัย
เอกสารการวิจัยไม่ได้เปิดเผยรายละเอียดเฉพาะเกี่ยวกับฮาร์ดแวร์ สถาปัตยกรรม การสร้างชุดข้อมูล หรือวิธีการฝึกอบรมของ GPT-4 การรับข้อมูลเพิ่มเติมเกี่ยวกับด้านเทคนิคเหล่านี้จะเป็นประโยชน์สำหรับนักวิจัยที่ต้องการทำซ้ำหรือต่อยอดจากงานของ GPT-4
ด้วย GPT-3.5 และรุ่นก่อนหน้า คุณไม่สามารถให้ข้อมูลที่ยาวเช่นนี้เป็นรายงานทางเทคนิคทั้งหมดได้ นี่เป็นความก้าวหน้าที่ยอดเยี่ยมจริงๆ เนื่องจากตอนนี้คุณสามารถให้ข้อมูลบริบทแก่โมเดลได้มากขึ้น
ความสามารถนี้มีประโยชน์ อย่างยิ่ง เนื่องจากโมเดลไม่ได้เชื่อมต่อกับอินเทอร์เน็ต วิธีเดียวที่จะมีข้อมูลใหม่คือถ้าคุณให้ข้อมูล และตอนนี้คุณสามารถให้ข้อมูลได้มากขึ้น
ในทางตรงกันข้าม ถ้าฉันถามว่า GPT-4 คืออะไร โดยไม่ได้ ให้รายงานทางเทคนิค สิ่งที่ฉันได้รับมีดังนี้
ข้อความแจ้ง: GPT-4 คืออะไร
GPT-4 เป็นสมมุติฐานที่สืบทอดมาจาก GPT-3 ของ OpenAI ซึ่งเป็นโมเดลภาษาที่ล้ำสมัย ซึ่งได้รับผลลัพธ์ที่น่าทึ่งในงานประมวลผลภาษาธรรมชาติที่หลากหลาย GPT-4 แม้ว่าจะไม่พร้อมใช้งานในขณะนี้ แต่คาดว่าจะปรับปรุงความสามารถของ GPT-3 ให้ดียิ่งขึ้น ซึ่งอาจทำให้สามารถสร้างและทำความเข้าใจข้อความที่เหมือนมนุษย์มากยิ่งขึ้น
ในฐานะโมเดลภาษา เป้าหมายของ GPT-4 คือการสร้างข้อความที่เหมือนมนุษย์ตามบริบทของการป้อนข้อมูลที่ให้มา เพื่อให้เข้าใจถึงวิธีการทำงาน ลองมาดูสถานการณ์ในชีวิตจริงที่สามารถใช้พลังของ GPT-4 ได้
สมมติว่าคุณเป็นนักเขียน …
…และอื่น ๆ
เท่าที่ทราบ GPT-4 GPT-4 ยังคงเป็นตัวตายตัวแทนของ GPT-3 ซึ่งก็สมเหตุสมผลดี เพราะแน่นอนว่ามันไม่ได้รับการฝึกฝนเกี่ยวกับข้อความจากโลกที่มี GPT-4 อยู่แล้ว ในเนื้อหาทั้งหมดที่โมเดลได้เห็น GPT-4 ยังคงเป็นการพัฒนาในอนาคต
อย่างไรก็ตาม ความหมายก็คือ ตอนนี้เราสามารถได้รับผลลัพธ์ที่ดีขึ้นมากจาก GPT-4 ในเรื่องต่างๆ เช่น เหตุการณ์ใหม่หรือหัวข้อที่เจาะลึกมาก โดยให้ข้อมูลมากขึ้นในข้อความแจ้ง
นอกเหนือจากการปรับปรุงนี้แล้ว การพิจารณาจากมุมมองของสถาปัตยกรรมก็น่าสนใจเช่นกัน เพื่อให้ยอมรับโทเค็นได้มากขึ้น โมเดลจะสามารถเรียกคืนและสังเคราะห์ข้อมูลผ่านหน้าต่างที่ใหญ่ขึ้นมากได้ สิ่งนี้ทำได้ง่ายๆ โดยการสร้างโมเดลที่ใหญ่ขึ้นโดยมีเลเยอร์และพารามิเตอร์มากขึ้น หรือมีการเปลี่ยนแปลงพื้นฐานในการประมวลผลและจัดเก็บข้อมูลหรือไม่
น่าเสียดายที่การไม่มีคำตอบสำหรับคำถามนั้นนำเราไปสู่ประเด็นที่สาม
สิ่งที่ #3: OpenAI ไม่เหมือน…เปิด…อีกต่อไป
สิ่งหนึ่งที่น่าสนใจเกี่ยวกับ GPT-4 นั้นไม่เกี่ยวกับความสามารถของมันเลย จากเอกสารการวิจัยของ OpenAI:
รายงานนี้มุ่งเน้นไปที่ความสามารถ ข้อจำกัด และคุณสมบัติด้านความปลอดภัยของ GPT-4 GPT-4 เป็นโมเดลแบบ Transformer ที่ได้รับการฝึกอบรมล่วงหน้าเพื่อคาดการณ์โทเค็นถัดไปในเอกสาร โดยใช้ทั้งข้อมูลที่เปิดเผยต่อสาธารณะ (เช่น ข้อมูลอินเทอร์เน็ต) และข้อมูลที่ได้รับอนุญาตจากผู้ให้บริการบุคคลที่สาม แบบจำลองได้รับการปรับแต่งอย่างละเอียดโดยใช้ Reinforcement Learning from Human Feedback (RLHF) เมื่อพิจารณาทั้งแนวการแข่งขันและผลกระทบด้านความปลอดภัยของโมเดลขนาดใหญ่ เช่น GPT-4 รายงานนี้จึงไม่มีรายละเอียดเพิ่มเติมเกี่ยวกับสถาปัตยกรรม (รวมถึงขนาดโมเดล) ฮาร์ดแวร์ การคำนวณการฝึกอบรม การสร้างชุดข้อมูล วิธีการฝึกอบรม หรือที่คล้ายกัน
(เน้นเหมือง)
ไม่มีรายละเอียดเพิ่มเติมเกี่ยวกับขนาดโมเดล ชุดข้อมูล การฝึกอบรม...อะไรเลยหรือ
ที่ไม่ได้เปิดอย่างดุเดือด นอกจากนี้ยังเป็นการออกจากการวิจัยสาธารณะของ OpenAI เกี่ยวกับ GPT ก่อนหน้านี้อย่างมาก
นอกจากนี้ยังเป็นที่น่าสังเกตว่าเหตุผลสองประการของความลับเหล่านี้ขัดแย้งกันอย่างไร: แนวการแข่งขันและผลกระทบด้านความปลอดภัยของแบบจำลองขนาดใหญ่ “ความหมายด้านความปลอดภัย” ต้องใช้ความระมัดระวังและความรอบคอบ แต่ “แนวการแข่งขัน” ต้องใช้พลังอย่างเต็มที่เพื่อเอาชนะผู้อื่น
จากบันทึกที่ไม่เกี่ยวข้องโดยสิ้นเชิง ความก้าวหน้าด้าน AI ที่สำคัญอีกสองรายการได้รับการเผยแพร่ในวันเดียวกับ GPT-4: โมเดล Claude ของ Anthropic และ PaLM API ของ Google
สิ่งที่ #4: AI กำลังกลายเป็นนักเรียนดีเด่น (แต่ก็ยังโกหกอยู่)
หนึ่งในกราฟที่มีการแบ่งปันกันมากที่สุดจากการเปิดตัวแสดงประสิทธิภาพของ GPT-4 ในการทดสอบต่างๆ เกือบจะเหมือนกับว่า OpenAI ยังคงอยู่ภายใต้ภาพลวงตา ซึ่งแบ่งปันโดยนักเรียนมัธยมปลายที่ประสบความสำเร็จสูงในทุกที่ โดยคะแนนสอบที่เป็นมาตรฐานมีความสัมพันธ์กับความสำเร็จในโลกแห่งความเป็นจริง
ฮ่าๆ.
อย่างไรก็ตาม สิ่งที่น่าสังเกตคือ GPT-4 ไม่ได้รับการฝึกฝนมาโดยเฉพาะให้ทำการทดสอบเหล่านี้ นี่ไม่ใช่กรณีของโมเดล AI ที่ได้รับการฝึกฝนเป็นพิเศษเพื่อเล่น Go และเอาชนะผู้เล่นที่เป็นมนุษย์ที่สุดได้ในที่สุด แต่ความสามารถในการเอาชนะการทดสอบเหล่านี้แสดงถึงความฉลาดที่ "ฉุกเฉิน" มากกว่า
รุ่นก่อนหน้าเช่น GPT-3 ยังไม่ได้รับการฝึกฝนให้ทำการทดสอบเฉพาะ แต่อย่างที่คุณเห็น ประสิทธิภาพของ GPT-4 ได้รับการปรับปรุงให้ดีขึ้นกว่า GPT-3 อย่างมาก:
หากคุณไม่สนใจเกี่ยวกับความสามารถของ AI ในการทำการทดสอบมาตรฐานและเพียงต้องการทราบว่าจะทำสิ่งที่คุณต้องการได้ดีเพียงใด นี่ก็ยังคงเป็นข่าวดี จากรายงาน:
GPT-4 พัฒนาขึ้นอย่างมากจากรุ่นก่อนหน้าในด้านความสามารถในการทำตามความตั้งใจของผู้ใช้ ในชุดข้อมูลพร้อมต์ 5,214 รายการที่ส่งไปยัง ChatGPT และ OpenAI API การตอบสนองที่สร้างโดย GPT-4 เป็นที่นิยมมากกว่าการตอบสนองที่สร้างโดย GPT-3.5 บน 70.2% ของพร้อมต์
ดังนั้น GPT-4 จึงมีแนวโน้มที่จะให้สิ่งที่คุณต้องการมากกว่า GPT-3.5 ที่ดี สิ่งสำคัญคือต้องระลึกไว้เสมอว่า แม้ว่าจะมีการปรับปรุงประสิทธิภาพ แต่โมเดลใหม่ก็ยังมีข้อจำกัดเดิมทั้งหมดที่เรารู้จักและชื่นชอบจากเพื่อน AI ที่มีอยู่ของเรา
คำพูดอื่นจากรายงาน:
แม้จะมีความสามารถ แต่ GPT-4 ก็มีข้อจำกัดที่คล้ายคลึงกันกับ GPT รุ่นก่อนๆ คือ ไม่น่าเชื่อถืออย่างสมบูรณ์ (เช่น อาจมีอาการ 'ประสาทหลอน') มีหน้าต่างบริบทจำกัด และไม่เรียนรู้จากประสบการณ์ ควรใช้ความระมัดระวังเมื่อใช้ผลลัพธ์ของ GPT-4 โดยเฉพาะอย่างยิ่งในบริบทที่ความน่าเชื่อถือเป็นสิ่งสำคัญ
ในความเป็นจริง ภาพหลอนอาจกลายเป็นปัญหาที่ใหญ่กว่าที่เป็นอยู่ เพียงเพราะยิ่ง AI ได้รับดีขึ้น ก็จะยิ่งเชื่อสิ่งที่พูดได้ง่ายขึ้น ด้วย GPT-3 และ GPT-3.5 ผู้คนทราบดีว่าโมเดลจะสร้างสิ่งต่างๆ ขึ้นมาได้ทั้งหมดเพราะมันเกิดขึ้นบ่อยมาก เนื่องจากโมเดลที่ใหม่กว่าและดีกว่าทำแบบนั้นไม่บ่อยนัก จึงมีความเสี่ยงมากขึ้นที่เมื่อเรา สร้าง ภาพหลอน เราอาจไม่ทันสังเกตหรือตรวจสอบข้อเท็จจริง
ดังนั้นจงระวังตัวไว้นะเพื่อนๆ แต่ช่วงเวลาเหล่านี้ก็เป็นช่วงเวลาที่น่าตื่นเต้นเช่นกัน
ป.ล. #5: หากคุณต้องการใช้ GPT-4 คุณสามารถทำได้ผ่าน ChatGPT Plus หรือผ่าน API มีรายการรอสำหรับ API แต่ฉันใช้เวลาเพียงสองวันในการเข้าถึง ข้อความเสริมหนึ่งเกี่ยวกับ API คือ GPT-4 สามารถเข้าถึงได้ผ่านฟังก์ชัน ChatCompletion (เหมือนกับ gpt-3.5-turbo) ไม่ใช่ฟังก์ชันเสร็จสิ้นที่คุณอาจใช้กับ text-davinci-003 หรือรุ่นอื่นๆ ก่อนหน้านี้ เพิ่มเติมเกี่ยวกับความแตกต่างระหว่างทั้งสองในภายหลัง