تشانغ شي، الذي كان سابقًا نائب الرئيس للهندسة في Tubi وأحد خبراء Cloudera، لديه سنوات من الخبرة في بناء أدوات وبنية بيانات. ولكن عندما بدأ شي العمل في مجال الذكاء الاصطناعي، واجه بسرعة مشاكل مع البنية التحتية التقليدية للبيانات — مشاكل منعته من إدخال النماذج الذكية للذكاء الاصطناعي في الإنتاج.
قال شي في مقابلة مع TechCrunch: “غالبًا ما يجد مهندسو التعلم الآلي والباحثون في مجال الذكاء الاصطناعي أنفسهم عالقين في تجربة تطوير غير مرضية. شركات بنية البيانات لا تفهم حقًا المشكلة بالنسبة لبيانات التعلم الآلي على المستوى الأساسي.”
لذلك قام تشانغ — الذي هو أحد مؤسسي Pandas، مكتبة علوم البيانات الشهيرة بلغة Python — بالتعاون مع المهندس البرمجي لي شو لإطلاق LanceDB.
تعمل LanceDB على بناء برنامج قاعدة البيانات مفتوح المصدر بنفس الاسم LanceDB، والذي يهدف إلى دعم نماذج الذكاء الاصطناعي متعددة الأوضاع — نماذج تدرب على وتولد صورًا ومقاطع فيديو وأكثر من ذلك na إضافة إلى النص. بدعم من Y Combinator، جمعت LanceDB هذا الشهر 8 ملايين دولار في جولة تمويل بذري قادها CRV، Essence VC و Swift Ventures، مما رفع إجمالي التمويل إلى 11 مليون دولار.
قال تشانغ: “إذا كان الذكاء الاصطناعي متعدد الأوضاع حاسمًا لنجاح مستقبل شركتك، تريد فريق AI الباهظ الثمن لديك أن يركز على النموذج وربط الذكاء الاصطناعي بقيمة العمل. للأسف، اليوم، يقضي فرق AI معظم وقتها في التعامل مع تفاصيل بنية البيانات على مستوى منخفض. يوفر LanceDB الأساس الذي تحتاجه فرق AI حتى يمكنها أن تكون حرة للتركيز على ما يهم حقًا لقيمة المؤسسة وتقديم منتجات AI إلى السوق بشكل أسرع بكثير مما كان ممكنًا بدونه.”
ببساطة، يعد LanceDB قاعدة بيانات ناقلة — قاعدة بيانات تحتوي على سلاسل أرقام (“نوافذ”) تُشفر معنى البيانات غير المهيكلة (مثل الصور والنص وما إلى ذلك).
كما كتب زميلي بول ساورس مؤخرًا، تعيش قواعد البيانات ناقلة لحظتها مع ذروة دورة الضجة حول الذكاء الاصطناعي. وذلك لأنها مفيدة في جميع أنواع تطبيقات الذكاء الاصطناعي، من توصيات المحتوى في منصات التجارة الإلكترونية ووسائل التواصل الاجتماعي إلى الحد من الهلوسات.
المنافسة في مجال قواعد البيانات الناقلة شرسة — انظر إلى Qdrant، Vespa، Weaviate، Pinecone و Chroma كأمثلة على بعض البائعين (دون حساب الشركات الكبيرة المتعارف عليها في التكنولوجيا). فما الذي يجعل LanceDB فريدًا؟ مرونة، أداء وقابلية توسيع أفضل، وفقًا لتشانغ.
يقول تشانغ إن LanceDB — الذي يعتمد على Apache Arrow — يعمل بتنسيق بيانات مخصص يدعى Lance Format، الذي يتمتع بالتحسين لتدريب الذكاء الاصطناعي متعدد الأوضاع والتحليلات. يتيح Lance Format لـ LanceDB التعامل مع ملايين النوافذ وبيتابايتات من النص والصور والمقاطع الفيديو، ويسمح للمهندسين بإدارة مختلف أشكال البيانات الوصفية المرتبطة بهذه البيانات.
قال تشانغ: “حتى الآن، لم يكن هناك نظام يمكنه توحيد التدريب والاستكشاف والبحث ومعالجة البيانات على نطاق واسع”. يتيح Lance Format لباحثي الذكاء الاصطناعي والمهندسين الحصول على مصدر واحد للحقيقة والحصول على أداء سريع للغاية عبر خط أنابيب الذكاء الاصطناعي بأكملهم. إنها ليست مجرد تخزين للنوافذ.”
يكسب LanceDB أموالًا من خلال بيع إصدارات مدارة بشكل كامل من برنامجها مفتوح المصدر مع ميزات إضافية مثل تسارع الأجهزة وضوابط الحوكمة — ويبدو أن الأعمال تسير بشكل جيد. تشمل قائمة عملاء الشركة منصة تحويل النص إلى صورة Midjourney، أسطورة الشاتبوت Character.ai، شركة السيارات الذاتية WeRide و Airtable.
أصر تشانغ على أن تمويل Venture Capital الأخير لشركة LanceDB لن يغير انتباهها بعيداً عن المشروع مفتوح المصدر، على الرغم من ذلك، الذي قال إنه يشهد الآن حوالي 600،000 عملية تنزيل في الشهر.
قال: “كنا نرغب في إنشاء شيء يجعل الفرق في الذكاء الاصطناعي العاملة مع بيانات متعددة الأوضاع على نطاق كبير أسهل بـ 10 مرات”. يقدم LanceDB — وسيستمر في ذلك — مجموعة غنية جدًا من تكامل النظام البيئي لتقليل جهد التبني.”
Leave a reply