মেটা Llama 3 18th april 2024 launch হতে চলেছে এটি এখনো পর্যন্ত সব থেকে সক্ষম এটি এল এল এম এ উপলব্ধ। এটি একটি আপডেট version লঞ্চ করা হবে। এটি amazon এ উপলব্ধ থাকবে সবাই এই ফিচারটি এখান থেকেও ব্যবহার করতে পারবে। এটি একটি অত্যাধুনিক বৃহৎ ভাষার মডেল তৈরি করা হচ্ছে। Meta and microsoft Llama র পরবর্তী প্রজন্মে পরিচয় দেয়। এই অত্যাধুনিক AI app আমরা ব্যবহার করতে পারব।
IBM WatsonX, Microsoft Azure,AWS, AMD, AWS, Dell, Intel, NVIDIA, Databricks, Google Cloud, Hugging Face, Kaggle, NVIDIA NIM, এবং Snowflake- এও এই অ্যাপ ব্যবহার করা যাবে। এই অ্যাপটিকে উন্নত করবার জন্য আরো devolop করা হচ্ছে। এতে আরও অনেক নতুন ফিচার যোগ করা হবে যেমন Llama Guard 2, Code Shield,CyberSec Eval 2. Meta র তরফ থেকে জানানো হয় আরো নতুন ক্ষমতা, দীর্ঘ প্রসঙ্গ উইন্ডো, অতিরিক্ত মডেলের অফার এবং আরো উন্নত কার্যক্ষমতা প্রবর্তন করবার আসা জানিয়েছে এবং এর গবেষণাপত্র শেয়ার করবারও কথা জানানো হয়েছে। এটি একটি উন্নত প্রায় সহকারী হিসেবে ব্যবহার করা যেতে পারে এই অ্যাপটি তে বিষয়বস্তু তৈরি করতে, বিভিন্ন কাজে, কোডিং এর কাজে বিভিন্ন কাজে এই অ্যাপটি ব্যবহার করা যাবে। এই অ্যাপটিতে আরো অনেক নতুন নতুন ফিচার যোগ করা হবে ,8 b, 70b language model . এতে 1,800 prompts আছে, এটি প্রধানত ১২ টি ক্ষেত্রে ব্যবহার করা যেতে পারে, এই অ্যাপের দ্বারা কোন পরামর্শ, কোন প্রশ্নের উত্তর, কোডিং ক্রিয়েটিব রাইটিং, কোন প্রশ্নের উত্তর খোঁজ বার জন্য এটি ব্যবহার করা যেতে পারে, কোন লেখাকে পুনরায় লেখা যাবে, কোন লেখাকে সংক্ষিপ্তভাবে লেখা যাবে সংক্ষিপ্তকরণ করা যাবে। মেটার থেকে জানানো হয় তাদের এআই প্রস্তুতকারক মডেলিং টিম গুলির কাছেও এ আই ওভার ফিটিং প্রতিরোধ করবার ক্ষমতা নেই।
Claude Sonnet, GPT-3.5, Mistral Medium এ এ আই এর বিভিন্ন এভিলিউশন দেখা যায়। এতে তিন ধরনের parallelization কম্বাইন করা হয়েছে , model parallelization, pipeline parallelization, data parallelization. এতে সবথেকে এফিসিয়েন্ট implementation প্রতি GPU তে 400 TFLOPS 16K GPUs. দুটো কাস্টম বিল্ড 24K GPU clusters এতে ব্যবহার করা হয়েছে। Llama 3 অনেক উন্নত মানের কোডিং এর দ্বারা তৈরি করা হয়েছে কোন কিছু শেখার জন্য এই অ্যাপটি ব্যবহার করা যেতে পারে, যেমন নির্দেশ হবে এই অ্যাপটি সেই রকম ভাবে কাজ করবে, এর দ্বারা বিভিন্ন রকমের অ্যাপ্লিকেশন তৈরি করা যাবে, এরে আই চ্যাট ফিচারটি দ্বারা আরো ভালোভাবে চ্যাট করা যাবে, বিষয়গুলি আরো ভালোভাবে বোঝা এবং চিন্তা করবার ক্ষেত্রে এই অ্যাপটি আরো ভালোভাবে কাজ করবে, ওয়েব থেকে অনেক দ্রুত তথ্য সংগ্রহ করে দেবে, যেমন prompt দেওয়া হবে সেই রকম ছবি প্রস্তুত করে দেবে, এটি রোড ম্যাপ অপটিমাইজ করতে পারে, এটি বহু ভাষা দ্বারা পরিচালিত করা যাবে।
এই অ্যাপটির বৈশিষ্ট্য এবং ক্ষমতা এটি বিভিন্ন ভাষায় ব্যবহার করা যায়। এই চ্যাট ফিচারটি whatsapp facebook instagram সব ক্ষেত্রেই ব্যবহার করা যাবে। এই ফিচার গুলি এখন ফ্রিতে ব্যবহার করা যাবে। বিভিন্ন ভাষায় কার্য পরিচালনা করবার জন্য এটিতে একটি ডিকোডিং কেন্দ্রিক একটি সিস্টেম ব্যবহার করা হয়েছে। এই অ্যাপটিকে অনেক ডেটা দ্বারা প্রশিক্ষণের মাধ্যমে তৈরি করা হয়েছে এবং এটি ৩০ টিরও বেশি ভাষার বই এবং বিভিন্ন ওয়েবসাইট এর মাধ্যমে তারা এটিকে প্রশিক্ষণ দেয়া হয়েছে। ইটি বিভিন্ন ভাষা বোঝা সহ বিভিন্ন সমস্যা সমাধানে প্রতিযোগিতায় ছাড়িয়ে যায়। বিষয়বস্তু তৈরি থেকে বিভিন্ন কোডিংয়ের কাজ এর দ্বারা করা যাবে। এ আই মডেল ইন্টিগ্রেশনের জন্য টর্চ টিউন এর মতো টুল এবং বিভিন্ন ধরনের অ্যাপ্লিকেশন তৈরি করবার জন্য এটি গাইড করতে পারে। এই অ্যাপটি বহু ভাষায় ব্যবহার করা যাবে। এটি Llama 2 থেকে আপডেট ভার্সনের ফিচার গুলি এতে ব্যবহার করা যাবে। Llama 3 খোলাখুলিভাবে উপলব্ধ করার মাধ্যমে, Meta শুধুমাত্র AI প্রযুক্তিকে অগ্রসর করছে না বরং শক্তিশালী ভাষা মডেলগুলিতে অ্যাক্সেসকে গণতন্ত্রীকরণ করছে, বিশ্বজুড়ে উদ্ভাবন এবং নৈতিক AI উন্নয়নকে উৎসাহিত করছে। Llama 3 অ্যাডভান্স পদ্ধতিতে বিভিন্ন কাজগুলি পরিচালনা করতে পারে। এটি প্রধানত ডিকোডিং সিস্টেমের উপর ফোকাস করে। এটি একসঙ্গে অনেকগুলি কাজ দ্রুততার সঙ্গে সম্পন্ন করতে পারে। এটি প্রচুর তথ্য পরিচালনা করতে পারে। Llama 3 কে প্রস্তুত করতে এবং সঠিকভাবে পরিচালনা করবার জন্য 15 trillion bytes তথ্য যোগ করা হয়েছে। এটি জটিল ধাঁধা এবং সমস্যা সমাধানের ক্ষেত্রেও ব্যবহার করা যেতে পারে। 2024 সালের শেষে Llama 4 আপডেট ভার্সনের অ্যাপ লঞ্চ হতে পারে। এর দ্বারা অনেক উন্নত মানের বিভিন্ন প্রকারের ইমেজ তৈরি করা যাবে।
Llama 3
Meta র কর্ণধার এর তরফ থেকে জানানো হয় ” Llama 3 মডেলে আমাদের প্রাক- প্রশিক্ষণের ডেটা কার্যকরভাবে লাভ করতে, আমরা প্রি- ট্রেনিং বাড়াতে যথেষ্ট প্রচেষ্টা চালিয়েছি । বিশেষত, আমরা ডাউনস্ট্রিম বেঞ্চমার্ক মূল্যায়নের জন্য বিস্তারিত স্কেলিং আইনের একটি সিরিজ তৈরি করেছি । এই স্কেলিং আইনগুলি আমাদেরকে একটি সর্বোত্তম ডেটা মিশ্রণ নির্বাচন করতে এবং কীভাবে আমাদের প্রশিক্ষণ গণনাকে সর্বোত্তমভাবে ব্যবহার করতে হয় সে সম্পর্কে জ্ঞাত সিদ্ধান্ত নিতে সক্ষম করে । গুরুত্বপূর্ণভাবে, স্কেলিং আইনগুলি আমাদেরকে মডেলগুলিকে প্রকৃতপক্ষে প্রশিক্ষণ দেওয়ার আগে মূল কাজগুলিতে( উদাহরণস্বরূপ, HumanEval বেঞ্চমার্কে মূল্যায়ন করা কোড জেনারেশন — উপরে দেখুন) আমাদের বৃহত্তম মডেলগুলির কার্যকারিতা ভবিষ্যদ্বাণী করার অনুমতি দেয় । এটি আমাদের বিভিন্ন ব্যবহারের ক্ষেত্রে এবং ক্ষমতা জুড়ে আমাদের চূড়ান্ত মডেলগুলির শক্তিশালী কার্যক্ষমতা নিশ্চিত করতে সহায়তা করে । আমরা লামা 3 এর বিকাশের সময় স্কেলিং আচরণের উপর বেশ কয়েকটি নতুন পর্যবেক্ষণ করেছি”।”উদাহরণস্বরূপ, যখন চিনচিলা- একটি 8B প্যারামিটার মডেলের জন্য প্রশিক্ষণ গণনার সর্বোত্তম পরিমাণ 200B টোকেনগুলির সাথে মিলে যায়, আমরা দেখতে পেয়েছি যে মডেলের পরেও মডেলের কার্যকারিতা উন্নত হতে চলেছে । আরও তথ্যের মাত্রার দুটি আদেশে প্রশিক্ষিত হয় । আমাদের 8B এবং 70B উভয় প্যারামিটার মডেলগুলি 15T পর্যন্ত টোকেনগুলিতে প্রশিক্ষণ দেওয়ার পরে লগ- রৈখিকভাবে উন্নতি করতে থাকে । বৃহত্তর মডেলগুলি কম প্রশিক্ষণ কম্পিউটের সাথে এই ছোট মডেলগুলির কার্যকারিতার সাথে মেলে তবে ছোট মডেলগুলি সাধারণত পছন্দ করা হয় কারণ অনুমানের সময় তারা অনেক বেশি দক্ষ । আমাদের বৃহত্তম লামা 3 মডেলকে প্রশিক্ষণ দিতে, আমরা তিনটি ধরণের সমান্তরালকরণকে একত্রিত করেছি ডেটা সমান্তরালকরণ, মডেল সমান্তরালকরণ এবং পাইপলাইন সমান্তরালকরণ । আমাদের সবচেয়ে দক্ষ বাস্তবায়ন একই সাথে 16K GPU- তে প্রশিক্ষিত হলে প্রতি GPU 400 TFLOPS- এর একটি গণনা ব্যবহার অর্জন করে । আমরা দুটি কাস্টম- বিল্ট 24K GPU ক্লাস্টারে ট্রেনিং রান সঞ্চালিত করেছি । GPU আপটাইম সর্বাধিক করার জন্য, আমরা একটি উন্নত নতুন প্রশিক্ষণ স্ট্যাক তৈরি করেছি যা ত্রুটি সনাক্তকরণ, পরিচালনা এবং রক্ষণাবেক্ষণ স্বয়ংক্রিয় করে । আমরা নীরব ডেটা দুর্নীতির জন্য আমাদের হার্ডওয়্যার নির্ভরযোগ্যতা এবং সনাক্তকরণ প্রক্রিয়াগুলিকে ব্যাপকভাবে উন্নত করেছি এবং আমরা নতুন স্কেলযোগ্য স্টোরেজ সিস্টেম তৈরি করেছি যা চেকপয়েন্টিং এবং রোলব্যাকের ওভারহেডগুলিকে কমিয়ে দেয় । এই উন্নতিগুলির ফলে সামগ্রিকভাবে 95 এর বেশি কার্যকর প্রশিক্ষণের সময় হয়েছে” । “সম্মিলিতভাবে, এই উন্নতিগুলি Llama 3 প্রশিক্ষণের দক্ষতা Llama 2 এর তুলনায় তিনগুণ বৃদ্ধি করেছে । নির্দেশনা ফাইন- টিউনিং চ্যাট ব্যবহারের ক্ষেত্রে আমাদের পূর্বপ্রশিক্ষিত মডেলগুলির সম্ভাবনাকে সম্পূর্ণরূপে আনলক করার জন্য, আমরা নির্দেশনা- টিউনিংয়ের ক্ষেত্রেও আমাদের পদ্ধতির উদ্ভাবন করেছি । প্রশিক্ষণ- পরবর্তী আমাদের পদ্ধতি হল তত্ত্বাবধানকৃত ফাইন- টিউনিং( SFT), প্রত্যাখ্যান স্যাম্পলিং, প্রক্সিমাল পলিসি অপ্টিমাইজেশান( PPO), এবং সরাসরি পছন্দ অপ্টিমাইজেশান( DPO) এর সমন্বয় । SFT এবং preferen- এ ব্যবহৃত প্রম্পটের গুণমানসিই র্যাঙ্কিং যা PPO এবং DPO- তে ব্যবহৃত হয় সারিবদ্ধ মডেলের কর্মক্ষমতার উপর একটি বড় প্রভাব ফেলে । মডেলের গুণমানে আমাদের সবচেয়ে বড় উন্নতিগুলির মধ্যে কয়েকটি এই ডেটা সাবধানে কিউরেট করা এবং মানব টীকাকারদের দ্বারা প্রদত্ত টীকাগুলিতে গুণমানের নিশ্চয়তার একাধিক রাউন্ড সম্পাদন করার মাধ্যমে এসেছে । পিপিও এবং ডিপিও- এর মাধ্যমে পছন্দের র্যাঙ্কিং থেকে শেখার ফলে যুক্তি ও কোডিং কাজগুলিতে Llama 3- এর কর্মক্ষমতা ব্যাপকভাবে উন্নত হয়েছে । আমরা দেখেছি যে আপনি যদি একটি মডেলকে একটি যুক্তিযুক্ত প্রশ্ন জিজ্ঞাসা করেন যেটির উত্তর দিতে এটি লড়াই করে, মডেলটি কখনও কখনও সঠিক যুক্তির ট্রেস তৈরি করবে মডেলটি জানে কিভাবে সঠিক উত্তর তৈরি করতে হয়, কিন্তু এটি কীভাবে নির্বাচন করতে হয় তা জানে না । পছন্দের র্যাঙ্কিংয়ের প্রশিক্ষণ মডেলটিকে কীভাবে এটি নির্বাচন করতে হয় তা শিখতে সক্ষম করে । লামা সহ বিল্ডিং 3 আমাদের দৃষ্টিভঙ্গি হল ডেভেলপারদের প্রাসঙ্গিক ব্যবহারের ক্ষেত্রে সমর্থন করার জন্য Llama 3 কাস্টমাইজ করতে এবং সর্বোত্তম অভ্যাসগুলি গ্রহণ করা এবং উন্মুক্ত বাস্তুতন্ত্রের উন্নতি সহজতর করতে সক্ষম করা । এই রিলিজের সাথে, আমরা Llama Guard 2 এবং Cybersec Eval 2 উভয়ের সাথে আপডেট হওয়া উপাদান সহ নতুন আস্থা ও নিরাপত্তা সরঞ্জাম এবং কোড শিল্ড- এর প্রবর্তন — এলএলএম দ্বারা উত্পাদিত অনিরাপদ কোড ফিল্টার করার জন্য একটি ইনফারেন্স টাইম গার্ডেল”।
2024 Asus PC launch event more information check
“আমরা টর্চটিউনের সাথে Llama 3- এর সহ- উন্নত করেছি, সহজে লেখা, ফাইন- টিউনিং এবং LLM নিয়ে পরীক্ষা করার জন্য নতুন PyTorch- নেটিভ লাইব্রেরি । টর্চটিউন সম্পূর্ণরূপে পাইটর্চে লেখা মেমরি দক্ষ এবং হ্যাকযোগ্য প্রশিক্ষণের রেসিপি সরবরাহ করে । লাইব্রেরিটি জনপ্রিয় প্ল্যাটফর্ম যেমন Hugging Face, Weights & impulses এবং EleutherAI এর সাথে একীভূত এবং এমনকি বিভিন্ন ধরনের মোবাইল এবং এজ ডিভাইসে চালানোর জন্য দক্ষ অনুমান সক্ষম করার জন্য এক্সিকিউটর্চকে সমর্থন করে । প্রম্পট ইঞ্জিনিয়ারিং থেকে শুরু করে ল্যাংচেইন- এর সাথে Llama 3 ব্যবহার করা পর্যন্ত সবকিছুর জন্য আমাদের কাছে একটি বিস্তৃত শুরুর নির্দেশিকা রয়েছে এবং এটি আপনাকে Llama 3 ডাউনলোড করা থেকে শুরু করে আপনার জেনারেটিভ AI অ্যাপ্লিকেশনের মধ্যে স্কেলে স্থাপন পর্যন্ত নিয়ে যায় । দায়িত্বের জন্য একটি সিস্টেম- স্তরের পদ্ধতি আমরা Llama 3 মডেলগুলিকে সর্বাধিক সহায়ক হওয়ার জন্য ডিজাইন করেছি যখন সেগুলিকে দায়িত্বপূর্ণভাবে মোতায়েন করার জন্য একটি শিল্পের অগ্রণী পদ্ধতি নিশ্চিত করে৷ এটি অর্জন করার জন্য, আমরা লামার দায়িত্বশীল বিকাশ এবং স্থাপনার জন্য একটি নতুন, সিস্টেম-স্তরের পদ্ধতি গ্রহণ করেছি। আমরা একটি বিস্তৃত সিস্টেমের অংশ হিসাবে লামা মডেলগুলিকে কল্পনা করি যা বিকাশকারীকে ড্রাইভারের আসনে রাখে। লামা মডেলগুলি এমন একটি সিস্টেমের ভিত্তি হিসাবে কাজ করবে যা বিকাশকারীরা তাদের অনন্য শেষ লক্ষ্যগুলিকে মাথায় রেখে ডিজাইন করে।নির্দেশনা ফাইন-টিউনিং আমাদের মডেলগুলির নিরাপত্তা নিশ্চিত করতেও একটি প্রধান ভূমিকা পালন করে। অভ্যন্তরীণ এবং বাহ্যিক প্রচেষ্টার মাধ্যমে নিরাপত্তার জন্য আমাদের নির্দেশ-সূক্ষ্ম-সুরিত মডেলগুলিকে লাল-টিম করা হয়েছে (পরীক্ষিত)। আমাদের রেড টিমিং পদ্ধতি মানুষের বিশেষজ্ঞদের এবং অটোমেশন পদ্ধতির সাহায্য করে প্রতিপক্ষের প্রম্পট তৈরি করতে যা সমস্যাযুক্ত প্রতিক্রিয়াগুলি বের করার চেষ্টা করে। উদাহরণস্বরূপ, আমরা রাসায়নিক, জৈবিক, সাইবার নিরাপত্তা এবং অন্যান্য ঝুঁকির ক্ষেত্রগুলির সাথে সম্পর্কিত অপব্যবহারের ঝুঁকিগুলি মূল্যায়ন করার জন্য ব্যাপক পরীক্ষা প্রয়োগ করি। এই সমস্ত প্রচেষ্টাই পুনরাবৃত্তিমূলক এবং মুক্তিপ্রাপ্ত মডেলগুলির সুরক্ষা সূক্ষ্ম-টিউনিং জানাতে ব্যবহৃত হয়। আপনি মডেল কার্ডে আমাদের প্রচেষ্টা সম্পর্কে আরও পড়তে পারেন।লামা গার্ড মডেলগুলিকে প্রম্পট এবং প্রতিক্রিয়া সুরক্ষার ভিত্তি হিসাবে বোঝানো হয় এবং অ্যাপ্লিকেশনের প্রয়োজনের উপর নির্ভর করে একটি নতুন শ্রেণীবিন্যাস তৈরি করতে সহজেই সূক্ষ্ম সুর করা যেতে পারে। একটি প্রারম্ভিক বিন্দু হিসাবে, নতুন লামা গার্ড 2 সম্প্রতি ঘোষিত এমএলকমন্স শ্রেণীবিন্যাস ব্যবহার করে, এই গুরুত্বপূর্ণ এলাকায় শিল্পের মানগুলির উত্থানকে সমর্থন করার প্রয়াসে। উপরন্তু, CyberSecEval 2 তার কোড দোভাষীর অপব্যবহার, আক্রমণাত্মক সাইবারসিকিউরিটি ক্ষমতা এবং প্রম্পট ইনজেকশন আক্রমণের জন্য সংবেদনশীলতা (আমাদের প্রযুক্তিগত কাগজে আরও জানুন) মঞ্জুর করার জন্য একটি LLM-এর প্রবণতার পরিমাপ যুক্ত করে তার পূর্বসূরিতে প্রসারিত হয়েছে”। “অবশেষে, আমরা কোড শিল্ড প্রবর্তন করছি যা LLM দ্বারা উত্পাদিত অনিরাপদ কোডের অনুমান-সময় ফিল্টারিংয়ের জন্য সমর্থন যোগ করে। এটি অনিরাপদ কোড পরামর্শ, কোড দোভাষী অপব্যবহার প্রতিরোধ এবং সুরক্ষিত কমান্ড সম্পাদনের আশেপাশে ঝুঁকি কমানোর প্রস্তাব দেয়।যে গতিতে জেনারেটিভ এআই স্পেস চলছে, আমরা বিশ্বাস করি বাস্তুতন্ত্রকে একত্রিত করার এবং এই সম্ভাব্য ক্ষতিগুলি কমানোর জন্য একটি উন্মুক্ত পদ্ধতি একটি গুরুত্বপূর্ণ উপায়। এর অংশ হিসাবে, আমরা আমাদের দায়িত্বশীল ব্যবহারের নির্দেশিকা (RUG) আপডেট করছি যা LLM-এর সাথে দায়িত্বশীল বিকাশের জন্য একটি ব্যাপক নির্দেশিকা প্রদান করে। আমরা RUG-তে যেমন উল্লেখ করেছি, আমরা সুপারিশ করি যে সমস্ত ইনপুট এবং আউটপুট অ্যাপ্লিকেশনের জন্য উপযুক্ত বিষয়বস্তু নির্দেশিকা অনুসারে পরীক্ষা করা এবং ফিল্টার করা। অতিরিক্তভাবে, অনেক ক্লাউড পরিষেবা প্রদানকারী দায়িত্বশীল স্থাপনার জন্য বিষয়বস্তু সংযম API এবং অন্যান্য সরঞ্জামগুলি অফার করে এবং আমরা বিকাশকারীদের এই বিকল্পগুলি ব্যবহার করার বিষয়েও বিবেচনা করতে উত্সাহিত করি।স্কেলে লামা 3 স্থাপন করা হচ্ছেLlama 3 শীঘ্রই ক্লাউড প্রদানকারী, মডেল API প্রদানকারী এবং আরও অনেক কিছু সহ সমস্ত প্রধান প্ল্যাটফর্মে উপলব্ধ হবে। লামা 3 সর্বত্র থাকবে।আমাদের বেঞ্চমার্কগুলি দেখায় যে টোকেনাইজার উন্নত টোকেন কার্যকারিতা অফার করে, Llama 2 এর তুলনায় 15% কম টোকেন প্রদান করে। এছাড়াও, গ্রুপ কোয়েরি অ্যাটেনশন (GQA) এখন Llama 3 8B-তেও যোগ করা হয়েছে। ফলস্বরূপ, আমরা লক্ষ্য করেছি যে Llama 2 এর তুলনায় মডেলটিতে 1B বেশি পরামিতি থাকা সত্ত্বেও7B, উন্নত টোকেনাইজার দক্ষতা এবং GQA Llama 2 7B এর সমতুল্য অনুমান দক্ষতা বজায় রাখতে অবদান রাখে।এই সমস্ত ক্ষমতাগুলি কীভাবে ব্যবহার করা যায় তার উদাহরণগুলির জন্য, লামা রেসিপিগুলি দেখুন যাতে আমাদের সমস্ত ওপেন সোর্স কোড রয়েছে যা ফাইন-টিউনিং থেকে মোতায়েন থেকে মডেল মূল্যায়ন পর্যন্ত সমস্ত কিছুর জন্য ব্যবহার করা যেতে পারে।Llama 3 এর পরবর্তী কি?Llama 3 8B এবং 70B মডেলগুলি Llama 3-এর জন্য আমরা যা প্রকাশ করার পরিকল্পনা করেছি তার সূচনা চিহ্নিত করে৷ এবং আরও অনেক কিছু আসতে হবে৷আমাদের সবচেয়ে বড় মডেলগুলি 400B প্যারামিটারের বেশি এবং এই মডেলগুলি এখনও প্রশিক্ষণের সময়, আমাদের দলগুলি কীভাবে প্রবণতা রয়েছে তা নিয়ে উত্তেজিত৷ আগামী মাসগুলিতে, আমরা মাল্টিমোডালিটি, একাধিক ভাষায় কথোপকথন করার ক্ষমতা, অনেক দীর্ঘ প্রসঙ্গ উইন্ডো এবং শক্তিশালী সামগ্রিক ক্ষমতা সহ নতুন ক্ষমতা সহ একাধিক মডেল প্রকাশ করব। আমরা Llama 3 প্রশিক্ষণ শেষ করার পরে আমরা একটি বিশদ গবেষণাপত্রও প্রকাশ করব।ট্রেনিং চালিয়ে যাওয়ার সাথে সাথে এই মডেলগুলি আজ কোথায় আছে তার একটি লুকিয়ে প্রিভিউ দেওয়ার জন্য, আমরা ভেবেছিলাম আমাদের সবচেয়ে বড় LLM মডেলটি কীভাবে ট্রেন্ড করছে তার কিছু স্ন্যাপশট শেয়ার করতে পারি।”