กล่าวอีกนัยหนึ่ง โมเดลซีโร่ช็อตสามารถทำงานได้หลายอย่างโดยไม่ต้องชมตัวอย่างเฉพาะของแต่ละงานในระหว่างการฝึกซ้อม
การเผยแพร่
ความสามารถนี้เกิดขึ้นได้จากเทคนิคการเรียนรู้แบบถ่ายโอน โดยที่โมเดลจะได้รับการฝึกอบรมในงานทั่วไปที่กว้างขวางซึ่งครอบคลุมข้อมูลและบริบทที่หลากหลาย งานกว้างๆ นี้ได้รับการออกแบบมาเพื่อให้โมเดลสามารถเรียนรู้รูปแบบนามธรรมและการเป็นตัวแทนของภาษาได้มากขึ้น
เมื่อนำแบบจำลองซีโร่ช็อตไปใช้กับงานเฉพาะเจาะจง โมเดลจะสามารถใช้ความรู้เดิมนี้เพื่ออนุมานคำตอบหรือดำเนินงานโดยไม่ได้รับการฝึกอบรมเกี่ยวกับตัวอย่างโดยตรงของงานนั้น ความสามารถนี้มีประโยชน์อย่างมาก เนื่องจากช่วยลดความจำเป็นในการฝึกอบรมอย่างเข้มข้นและความพยายามของมนุษย์ในการติดป้ายกำกับข้อมูลจำนวนมากสำหรับแต่ละงาน
โดยทั่วไป โมเดล Zero-shot สามารถทำงานต่างๆ ได้ เช่น การจัดหมวดหมู่ข้อความ การแปล การสร้างคำตอบ และอื่นๆ อีกมากมาย โดยไม่จำเป็นต้องฝึกอบรมเฉพาะสำหรับแต่ละโมเดล GPT-3 ซึ่งเป็นเวอร์ชันก่อนหน้าของโมเดลนี้ซึ่งใช้สถาปัตยกรรม GPT-3.5 ยังมีความสามารถในการทำงานแบบ Zero-shot อีกด้วย ซึ่งแสดงให้เห็นถึงความยืดหยุ่นและลักษณะทั่วไป
การเผยแพร่
อ้างอิง:
- Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019) โมเดลภาษาเป็นผู้เรียนมัลติทาสก์ที่ไม่ได้รับการดูแล OpenAI.
- Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020) โมเดลภาษาเป็นผู้เรียนเพียงไม่กี่คน OpenAI.
*ข้อความของบทความนี้สร้างขึ้นบางส่วนโดย ChatGPTซึ่งเป็นโมเดลภาษาที่ใช้ปัญญาประดิษฐ์ที่พัฒนาโดย OpenAI- รายการข้อความถูกสร้างขึ้นโดย Curto ข่าวสารและการตอบรับที่จงใจทำซ้ำอย่างครบถ้วน คำตอบจาก ChatGPT ถูกสร้างขึ้นโดยอัตโนมัติและไม่ได้เป็นตัวแทนความคิดเห็นของ OpenAI หรือบุคคลที่เกี่ยวข้องกับโมเดล ความรับผิดชอบทั้งหมดสำหรับเนื้อหาที่เผยแพร่ขึ้นอยู่กับ Curto ข่าว
ยังรู้: