হোমশের যুগান্তকারী সাফল্য: ভিআইটি+আর্কফেস
আইরিস সনাক্তকরণের নির্ভুলতা বিশ্বের শীর্ষ স্তরে পৌঁছেছে
একটি সমান ত্রুটি হার (ইইআর) মাত্র 0.29% এবং ROC AUC তত্ত্বগত সীমার কাছাকাছি
আমরা ভিজন ট্রান্সফরমারের সাহায্যে আইরিস সনাক্তকরণের সীমানা নতুন করে নির্ধারণ করেছি।
▲ ভিশন ট্রান্সফরমার আইরিস বৈশিষ্ট্য নিষ্কাশনের অন্তর্নিহিত দৃষ্টান্তকে নতুনভাবে সংজ্ঞায়িত করে
১. এবার শুধু অগ্রগতি নয়, এটি একটি দৃষ্টান্ত পরিবর্তন
আপনি যদি এমন একজন প্রকৌশলীকে জিজ্ঞাসা করেন যিনি দুই দশক ধরে আইরিস সনাক্তকরণ নিয়ে কাজ করেছেন, "আপনি যে সবচেয়ে কঠিন সমস্যার মুখোমুখি হয়েছেন তা কী?"
তিনি সম্ভবত একটি মুহূর্তের জন্য থামবেন, তারপর বলবেন: "গাম্বার শীট".
১৯৯৩ সালে জন ডাউগম্যান আইরিসকোড অ্যালগরিদম প্রস্তাব করার পর থেকে, "গাম্বার শীট উন্মোচন" প্রক্রিয়াটি বিশ্বব্যাপী আইরিস সনাক্তকরণ সিস্টেমের ডিএনএতে খোদাই করা একটি জাদুর মতো হয়েছে।বৃত্তাকার আইরিসকে আয়তক্ষেত্রাকার চিত্রের মধ্যে খুলুন, তারপর গ্যাবর ফিল্টার ব্যবহার করে টেক্সচার নিষ্কাশন... এই কর্মপ্রবাহ তিন দশক ধরে ব্যবহার করা হয়েছে, এবং কেউ এটা নিয়ে প্রশ্ন করেনি.
যতক্ষণ না আমরা এটা ফেলে দেওয়ার সিদ্ধান্ত নিলাম।
২. কেন রাবার শীট কাজ করা বন্ধ করে দেয়?
ভিজন ট্রান্সফরমার (সংক্ষেপে ভিআইটি) গত তিন বছরের মধ্যে গভীর শিক্ষার ক্ষেত্রে সবচেয়ে চমকপ্রদ প্রযুক্তিগত অগ্রগতির একটি। এটি একটি চিত্রকে 16x16 "প্যাচ" এর একটি সংখ্যায় কেটে দেয়,ছবির সার্বিক কাঠামো বোঝার জন্য ভাষা মডেলের স্ব-মনোযোগ প্রক্রিয়া ব্যবহার করে, এবং কন্ট্রোলাল নিউরাল নেটওয়ার্ক (সিএনএন) কে ছাড়িয়ে যায় যা বহু বছর ধরে একাধিক শীর্ষ স্তরের চাক্ষুষ কাজে আধিপত্য বিস্তার করেছিল।
যখন আমরা প্রথমবারের মতো ভিআইটিকে আইরিস স্বীকৃতিতে প্রয়োগ করার চেষ্টা করেছিলাম, তখন প্রাথমিক ফলাফল হতাশাব্যঞ্জক ছিলঃ সমান ত্রুটি হার (ইইআর) প্রত্যাশার তুলনায় অনেক কম ছিল ৪.৬৫%।
দলটি দ্রুত মূল কারণটি চিহ্নিত করেঃ রাবার শীটটি 64 × 512 পিক্সেলের রিংযুক্ত আইরিসকে একটি আয়তক্ষেত্রের মধ্যে "সমতল" করে, যা তারপরে ভিআইটি দ্বারা প্রয়োজনীয় 224 × 224 ইনপুট 3 এ স্কেল করা হয়।5x উল্লম্ব প্রসারিত এবং 2.3x অনুভূমিক সংকোচন। আইরিসের প্রাকৃতিক রেডিয়াল/চক্রাকার টেক্সচার গঠন গুরুতরভাবে বিকৃত ছিল,যা ভিআইটি এর প্যাচ মনোযোগ প্রক্রিয়াকে অসম্ভব করে তোলে.
অন্য কথায়, আমরা সবচেয়ে স্মার্ট মডেলকে ভুলভাবে খাবার দিচ্ছিলাম।
সমাধানটি সহজ শোনাচ্ছে, তবুও এটির জন্য প্রচলিত নিয়ম ভাঙার সাহস প্রয়োজন ∙ রাবার শীট পরিত্যাগ করুন এবং ROI বৃত্তাকার ফসল কাটার দিকে স্যুইচ করুনঃ আইরিসের কেন্দ্রটি উত্স হিসাবে,একটি বর্গক্ষেত্র মাঠ চাষ করুন (2.5x ব্যাসার্ধ) আইরিসের প্রাকৃতিক স্থানিক সমীকরণ সংরক্ষণ করতে, তারপর সরাসরি এটি 224 × 224 এ আকার পরিবর্তন করুন এবং এটি ভিআইটিতে ফিড করুন। এইভাবে প্রতিটি 16 × 16 প্যাচটি খাঁটি,আইরিসের অস্পষ্ট গঠন.
III. মূল পরিমাপঃ EER = 0.29%, ROC AUC = 0.9999
এই একক প্রাক-প্রক্রিয়াকরণ ধাপ পরিবর্তন একটি বিশ্বের পার্থক্য আনাঃ
| সমাধান |
ইইআর |
মন্তব্য |
| ১ম রাউন্ডঃ ভিআইটি + গামার শীট |
4.৬৫% |
ঐতিহ্যগত কর্মপ্রবাহ |
| দ্বিতীয় রাউন্ডঃ সিএনএন + রাবার শীট |
2. ৮০% |
সীমিত উন্নতি সহ মেরুদণ্ড প্রতিস্থাপন |
| ৩য় রাউন্ডঃ ভিআইটি + আরআই |
~0.12%* |
সমালোচনামূলক অগ্রগতি |
| চূড়ান্ত সংস্করণঃ ভিআইটি-এস / 16 + আরআই + নিয়মিতকরণ |
0.২৯% |
উৎপাদন-গ্রেড সমাধান |
* তৃতীয় রাউন্ডের ফলাফলগুলি কঠোর পরিসংখ্যানগত যাচাইয়ের সাপেক্ষে নয় এবং এতে আশাবাদী পক্ষপাত রয়েছে।
চূড়ান্ত প্রকাশিত সিস্টেমটি ভিআইটি-এস / 16 (22.1 এম প্যারামিটার) + আর্কফেস কৌণিক মার্জিন ক্ষতি গ্রহণ করে, যা 8 টি পাবলিক ডেটাসেটের (মোট 4,480 পরিচয় / 67,704 চিত্র) সংমিশ্রণে প্রশিক্ষিত।কঠোর পরিসংখ্যানগত যাচাইয়ের পর, ফলাফল নিম্নরূপঃ
●EER = 0.29% (সমান ত্রুটির হার)
● 95% কনফিডেন্স ইন্টারভেলঃ [০.২১%, ০.৪০%] (২০০ বুটস্ট্র্যাপ রিস্যাম্পলিং রাউন্ড)
● ROC AUC = 0.9999 (প্রায় নিখুঁত স্কোর)
● প্রকৃত জোড়ার মধ্যম সাদৃশ্যঃ ০.৮৭৪২ (একই ব্যক্তির জন্য উচ্চ সামঞ্জস্য)
● জালিয়াতির জোড়ার মধ্যম মিলঃ ০.০৪৫০ (বিভিন্ন ব্যক্তিদের জন্য সম্পূর্ণ বৈশিষ্ট্য পৃথককরণ)
● এফআরআর=১%, ফার=০.০০% (উচ্চ সুরক্ষার অপারেটিং পয়েন্টগুলিতে শূন্য মিথ্যা স্বীকৃতি)
▲ ROC বক্ররেখা (AUC=0.9999) এবং আসল / প্রতারণাকারী স্কোর বিতরণ
৪. প্রশিক্ষণের তথ্য: শুধু বড় নয়, বৈচিত্র্যপূর্ণ
এই গবেষণায় ৮টি পাবলিক ডেটা সেট একত্রিত করা হয়েছে, যার মধ্যে রয়েছে শিল্পের সবচেয়ে চ্যালেঞ্জিং দুটি দৃশ্যঃ
যমজ তথ্য (CASIA-Iris-Twins)
২০০ জোড়া যমজ থেকে আইরিস ডেটা - এমনকি প্রায় অভিন্ন জিন সহ, আইরিসের টেক্সচারগুলি সম্পূর্ণ আলাদা। এটি অ্যালগরিদমের বৈষম্যমূলক শক্তি যাচাই করার জন্য "সর্বশেষ পরীক্ষা"।
দৃশ্যমান আলোর সীমাবদ্ধতাহীন দৃশ্যকল্প (UBIRIS.v2)
৫১৮টি পরিচয় এবং ১১,০০০-এরও বেশি ছবি, প্রাকৃতিক আলোর নিচে ক্যাপচার করা হয়েছে, মোশন ব্লার, ফোকাসের বাইরে বিকৃতি,এবং আলোকসজ্জা বৈচিত্র এটি বাস্তব বিশ্বের স্থাপনার দৃশ্যের নিকটতম ডেটা সেট.
প্রশিক্ষণটি অ্যাপল সিলিকন এম 2 আল্ট্রা (ম্যাক স্টুডিও) এ প্রায় 12.3 ঘন্টা (90 প্রশিক্ষণ সময়কাল) সম্পন্ন হয়েছিল,শুধুমাত্র ~ 35ms এর একটি শীর্ষ অনুমান বিলম্বের সাথে (ROI ক্রপিং এবং বৈশিষ্ট্য নিষ্কাশন সহ).
V. শীর্ষ শিল্প কাজের সাথে অনুভূমিক তুলনা
| পদ্ধতি |
মেরুদণ্ড |
প্রাক-প্রক্রিয়াকরণ |
ইইআর |
| ডগম্যান আইরিসকোড |
গ্যাবর |
গামুর শীট |
~০.১০% (নিয়ন্ত্রিত পরিবেশ) |
| ইউনিকনেট (২০১৬) |
সিএমেসি সিএনএন |
গামুর শীট |
0.১৮% |
| আইরিসফর্মার (২০২৩) |
ViT-B/16 |
গামুর শীট |
0.২২% |
| পলিআইআরআইএস (২০২১) |
মাল্টি-স্কেল সিএনএন |
গামুর শীট |
(একক ডেটাসেট) |
| Homsh ViT+ArcFace (এই রিলিজ) |
ViT-S/16 |
ROI ক্রপিং |
0.২৯% (৮টি ডাটাসেট) |
▲ ৪.৬৫% থেকে ০.২৯% ইইআরঃ চারটি পুনরাবৃত্তির রাউন্ডের প্রযুক্তিগত বিবর্তনের পথ
VI. পরবর্তী পদক্ষেপ
1.ক্রস-ডেটাসেট স্বাধীন মূল্যায়ন
আইআইটি দিল্লির ডেটাসেটে অন্ধ পরীক্ষা করা হচ্ছে, বাস্তব জগতে সাধারণীকরণের দক্ষতা যাচাই করার প্রশিক্ষণে জড়িত নয়।
2. লাইভেন্স ডিটেকশন ইন্টিগ্রেশন
ফটো প্লেব্যাক আক্রমণের বিরুদ্ধে রক্ষা করতে মাল্টি-ফ্রেম ফ্ল্যাশ রেসপন্স বা টেক্সচার বিশ্লেষণ একত্রিত করুন এবং একটি সম্পূর্ণ অ্যান্টি-স্পুফিং সিস্টেম তৈরি করুন।
3মাঝারি এবং দীর্ঘ দূরত্বের আইরিস স্বীকৃতি
বাণিজ্যিক প্রয়োগের জন্য পরবর্তী নীল মহাসাগরকে বৃহত্তর ক্যাপচার দূরত্বের চিত্রগুলিতে প্রসারিত করার জন্য মাঝারি পরিসরের (3 মি) ডেটা প্রবর্তন করুন।
4হালকা ওজন এবং এজ-সাইড মোতায়েন
ভিআইটি-এস/১৬ মডেলকে <৫ এম প্যারামিটারে ডিস্টিল করুন রিসোর্স-সংকুচিত এজ ডিভাইস (এনপিইউ/এফপিজিএ) এর সাথে মানিয়ে নিতে।
উপসংহারঃ ত্রিশ বছরের সম্মেলন পুনর্বিবেচনার যোগ্য
ডাউগম্যানের রাবার শীট তার যুগের সর্বোত্তম সমাধান ছিল। কিন্তু প্রযুক্তির মূল বিষয়টি হলঃ যখন আরও ভাল সরঞ্জাম আবির্ভূত হয়, তখন পুরানো দৃষ্টান্তটি একপাশে চলে যাওয়া উচিত।
ভিশন ট্রান্সফরমার ইমেজ রিকগনিশনের মূল যুক্তি বদলে দিয়েছে।আমরা ViT এর জন্য সঠিক উপায় খুঁজে পেয়েছি আইরিস স্বীকৃতিতে তার সম্ভাবনার সত্যিকারের আনলক করার জন্য ViT কে পুরানো কর্মপ্রবাহের সাথে মানিয়ে নিতে না, কিন্তু ভিআইটি-র জন্য তৈরি একটি নতুন প্রিপ্রসেসিং প্যারাডাইম ডিজাইন করা।
০.২৯% এর EER শুধুমাত্র একটি সংখ্যা, কিন্তু একটি বিবৃতিওঃ
আইরিস সনাক্তকরণ ট্রান্সফরমার যুগে প্রবেশ করেছে, এবং হোমশ স্টার্ট লাইনে রয়েছে।
হোমশ সম্পর্কে
উহান হোমশ টেকনোলজি কোং লিমিটেড (হোমশ), ২০১১ সালে প্রতিষ্ঠিত,বিশ্বের কয়েকটি হাই-টেক কোম্পানিগুলির মধ্যে একটি যা কোর আইরিস স্বীকৃতি অ্যালগরিদম এবং চিপগুলির জন্য স্বাধীন বৌদ্ধিক সম্পত্তির অধিকার রাখেএর মূল PhaselirsTM অ্যালগরিদম এবং আইরিস স্বীকৃতির জন্য Qianxin সিরিজ FPGA/ASIC ইন্টেলিজেন্ট চিপগুলি আর্থিক সংগ্রহ, কাস্টমস ক্লিয়ারেন্স, সরকারী শংসাপত্র প্রদান,সামরিক নিরাপত্তা এবং অন্যান্য ক্ষেত্র.