東京まっくランド: 6月 2025

分類	技術	説明	サンプルコード
形態素解析	mecab	辞書ベースの日本語形態素解析ツール	`import MeCab; mecab = MeCab.Tagger()`
形態素解析	SudachiPy (spacy ginza)	モードA（厳密分割）、B（中間）、C（広義分割）を選択可能	`from sudachipy import tokenizer; tokenizer_obj = tokenizer.Tokenizer()`
形態素解析	SentencePiece	統計的手法を用いたトークン化ツール	`import sentencepiece as sp; sp.SentencePieceTrainer.train('--input=text.txt --model_prefix=m')`
正規化	unicodedata.normalize('NFKC', text)	文字列を正規化し、全角と半角や濁音・半濁音を統一	`import unicodedata; text = unicodedata.normalize('NFKC', text)`
同義語辞書	WordNet	英語の同義語・対義語辞書	`from nltk.corpus import wordnet; synonyms = wordnet.synsets('word')`
同義語辞書	Chikkarpy	Sudachi 同義語辞書を基に作られたPythonライブラリ。CLIやPythonとして利用可能。	`from chikkarpy import synonym; synonym = synonym.search("単語")`
同義語辞書	Sudachi 同義語辞書	日本語に特化した同義語辞書。CSV形式で記述し、Sudachi辞書に組み込むことで利用可能。	準備中。具体的な技術が必要に応じて記載します。
不要語	SlothLib	日本語ストップワードリスト	`from slothlib import STOPWORDS`
分散表現	SentenceTransformer	文や単語を多言語でベクトル化	`from sentence_transformers import SentenceTransformer; model = SentenceTransformer('intfloat/multilingual-e5-large')`
ベクトルDB	chromadb	高速ベクトル類似度検索	`import chromadb`
編集距離	rapidfuzz	文字列間の編集距離を計算	`from rapidfuzz import fuzz; similarity = fuzz.ratio("string1", "string2")`
クラスタリング	階層クラスタリング	SciPyを用いた階層クラスタリング	`from scipy.cluster.hierarchy import linkage`
全文検索	Whoosh	Python用全文検索エンジン	`from whoosh.index import create_in; ix = create_in("indexdir")`
全文検索	ElasticSearch	高機能な全文検索プラットフォーム	`from elasticsearch import Elasticsearch; es = Elasticsearch()`
全文検索	DoqueDB	SQLベースの日本語に強い全文検索エンジン。Sudachi辞書と組み合わせて利用可能。	SQL構文を使用した検索で同義語展開を適用できます。
検索	正規表現	テキスト検索や文字列操作	`import re; result = re.search(pattern, text)`
文字列抽出	tika	ファイルから文字列を抽出	`from tika import parser; text = parser.from_file('file.pdf')`
PDF解析	PyMuPDF（fitz）	PDFファイルを解析する軽量ツール	`import fitz; doc = fitz.open("file.pdf")`
PDF解析	PDFMiner	詳細なPDF解析ツール	`from pdfminer.high_level import extract_text; text = extract_text('file.pdf')`
表認識	Camelot（OCRベース）	PDF表からデータを抽出	`import camelot; tables = camelot.read_pdf("file.pdf")`
表認識	Azure AI Document Intelligence	MicrosoftのAIツールで表を認識し、様々なドキュメント分析が可能。	`from azure.ai.documentintelligence import DocumentIntelligenceClient`

2025年6月27日金曜日

生成AIと労働

2025年6月26日木曜日

📖人生の経営戦略 by山口周

2025年6月17日火曜日

使いそうな技術

政府統計

📖人生の経営戦略　by山口周