Treffer: Swarm-Based Machine Learning Algorithm for Building Interpretable Classifiers

Title:
Swarm-Based Machine Learning Algorithm for Building Interpretable Classifiers
Source:
IEEE Access, Vol 8, Pp 228136-228150 (2020)
Publisher Information:
Institute of Electrical and Electronics Engineers (IEEE), 2020.
Publication Year:
2020
Document Type:
Fachzeitschrift Article<br />Other literature type
ISSN:
2169-3536
DOI:
10.1109/access.2020.3046078
DOI:
10.60692/h9taq-hgv10
DOI:
10.26181/6004cc74d3245
DOI:
10.26181/13565345.v2
DOI:
10.60692/28vt7-vvc08
DOI:
10.26181/6004d34e3f1f2
Rights:
CC BY
Accession Number:
edsair.doi.dedup.....c096cbedc3075a193bea30dbc27f6fc9
Database:
OpenAIRE

Weitere Informationen

Este documento tiene como objetivo producir clasificadores que no solo sean precisos sino también interpretables para los responsables de la toma de decisiones. Los clasificadores se representan en forma de puntuaciones de riesgo, es decir, clasificadores lineales simples donde los vectores de coeficientes son vectores enteros dispersos y acotados que luego se optimizan mediante un algoritmo de optimización de enjambre de partículas discretas novedoso y escalable. A diferencia de estudios anteriores que generalmente utilizan la optimización de enjambres de partículas como un paso de preprocesamiento, el algoritmo propuesto incorpora la optimización de enjambres de partículas en el proceso de clasificación. Se desarrollan una función de aptitud basada en penalizaciones y una heurística de búsqueda local basada en la incertidumbre simétrica para identificar de manera eficiente los clasificadores con un alto rendimiento de clasificación y un tamaño o complejidad de modelo preferido. Los experimentos con 10 conjuntos de datos de referencia muestran que el algoritmo basado en enjambres propuesto es un fuerte candidato para desarrollar clasificadores lineales efectivos. Las comparaciones con otros algoritmos de aprendizaje automático interpretables que producen clasificadores basados en reglas y en árboles también demuestran la competitividad del algoritmo propuesto. Otros análisis también confirman la interpretabilidad de los clasificadores producidos. Finalmente, el algoritmo propuesto muestra una excelente aceleración a través de la paralelización, lo que le da una gran ventaja a la hora de hacer frente a problemas a gran escala.
Cet article vise à produire des classificateurs qui sont non seulement précis, mais également interprétables par les décideurs. Les classificateurs sont représentés sous la forme de scores de risque, c'est-à-dire de classificateurs linéaires simples où les vecteurs de coefficients sont des vecteurs entiers clairsemés et bornés qui sont ensuite optimisés par un nouvel algorithme d'optimisation d'essaim de particules discrètes évolutif. Contrairement aux études antérieures qui utilisent généralement l'optimisation des essaims de particules comme étape de prétraitement, l'algorithme proposé intègre l'optimisation des essaims de particules dans le processus de classification. Une fonction de mise en forme basée sur la pénalité et une heuristique de recherche locale basée sur l'incertitude symétrique sont développées pour identifier efficacement les classificateurs avec des performances de classification élevées et une taille ou une complexité de modèle préférée. Des expériences avec 10 ensembles de données de référence montrent que l'algorithme basé sur l'essaim proposé est un candidat solide pour développer des classificateurs linéaires efficaces. Les comparaisons avec d'autres algorithmes d'apprentissage automatique interprétables qui produisent des classificateurs basés sur des règles et des arbres démontrent également la compétitivité de l'algorithme proposé. D'autres analyses confirment également l'interprétabilité des classificateurs produits. Enfin, l'algorithme proposé montre une excellente accélération via la parallélisation, ce qui lui donne un grand avantage pour faire face à des problèmes à grande échelle.
This paper aims to produce classifiers that are not only accurate but also interpretable to decision makers. The classifiers are represented in the form of risk scores, i.e. simple linear classifiers where coefficient vectors are sparse and bounded integer vectors which are then optimised by a novel and scalable discrete particle swarm optimisation algorithm. In contrast to past studies which usually use particle swarm optimisation as a pre-processing step, the proposed algorithm incorporates particle swarm optimisation into the classification process. A penalty-based fitness function and a local search heuristic based on symmetric uncertainty are developed to efficiently identify classifiers with high classification performance and a preferred model size or complexity. Experiments with 10 benchmark datasets show that the proposed swarm-based algorithm is a strong candidate to develop effective linear classifiers. Comparisons with other interpretable machine learning algorithms that produce rule-based and tree-based classifiers also demonstrate the competitiveness of the proposed algorithm. Further analyses also confirm the interpretability of the produced classifiers. Finally, the proposed algorithm shows excellent speed-up via parallelisation, which gives it a great advantage when coping with large scale problems.
تهدف هذه الورقة إلى إنتاج مصنفات ليست دقيقة فحسب، بل يمكن تفسيرها أيضًا لصانعي القرار. يتم تمثيل المصنفات في شكل درجات المخاطر، أي المصنفات الخطية البسيطة حيث تكون متجهات المعامل متفرقة ومتجهات عددية محدودة والتي يتم تحسينها بعد ذلك بواسطة خوارزمية تحسين سرب الجسيمات المنفصلة الجديدة والقابلة للتطوير. على النقيض من الدراسات السابقة التي تستخدم عادة تحسين سرب الجسيمات كخطوة ما قبل المعالجة، فإن الخوارزمية المقترحة تتضمن تحسين سرب الجسيمات في عملية التصنيف. يتم تطوير وظيفة اللياقة البدنية القائمة على العقوبة والبحث الاستكشافي المحلي على أساس عدم اليقين المتماثل لتحديد المصنفات بكفاءة مع أداء تصنيف عالي وحجم نموذج مفضل أو تعقيد. تُظهر التجارب التي أجريت على 10 مجموعات بيانات مرجعية أن الخوارزمية المقترحة القائمة على السرب هي مرشح قوي لتطوير مصنفات خطية فعالة. كما تُظهر المقارنات مع خوارزميات التعلم الآلي الأخرى القابلة للتفسير والتي تنتج مصنفات قائمة على القواعد وقائمة على الأشجار القدرة التنافسية للخوارزمية المقترحة. تؤكد التحليلات الإضافية أيضًا قابلية تفسير المصنفات المنتجة. أخيرًا، تُظهر الخوارزمية المقترحة تسارعًا ممتازًا عبر التوازي، مما يمنحها ميزة كبيرة عند التعامل مع المشكلات واسعة النطاق.